解放演算法工程師,讓他們專心AI吧
搜狗的中文語音識別準確率目前已達業界最高水準,這一成績在很大程度上得益於搜狗輸入法與搜索引擎帶來的數據優勢。
「搜狗目前積累的人工標註的語音數據量以萬小時計。」在上周一次聚焦人工智慧平台的研討會中,搜狗語音交互技術中心技術經理劉忠亮說,這些數據支持了搜狗語音識別演算法的迭代,也為搜狗定義知音OS和深智引擎兩大產品提供了基礎。
它們更底層的基礎是AI的基礎設施。這也是NVIDIA和慧與新華三主辦這一平台研討會時樂意請搜狗分享經驗的原因——作為NVIDIA和慧與新華三的共同用戶,搜狗的經驗是會場中一個可供參考的典型。
目前支持搜狗人工智慧戰略的主流演算法都被置於其深度學習平台EVA之上。基於該平台,搜狗做到了為大量上層應用提供服務,包括語音識別、語音合成、圖像識別、機器翻譯、唇語識別等。
在EVA之下,搜狗應用了大量NVIDIA和慧與新華三的產品,這就包括了新華三搭載NVIDIA GPU的伺服器Apollo 6500 System等。
現場參與研討的用戶嘉賓顯然很樂於聽到這些故事。現在,沒有一家傳統行業用戶不關心AI——他們看到了AI之於傳統行業的價值前景,但在平台層,乃至基礎設施層上,遠無法像互聯網公司那樣表現得遊刃有餘。
新華三集團技術戰略部資深專家 徐心平
「主要的障礙是缺乏GPU或者說是AI系統的支撐平台。」新華三集團技術戰略部資深專家徐心平說。顯然,缺少這樣的平台,專業演算法工程師想利用好GPU伺服器是有難度的。
如今,這個平台的搭建工作已經很大程度落在了基礎設施提供商的身上。
這裡需要理清的,是非互聯網企業的訴求核心——它對應了人工智慧平台需要具備的核心能力:一是複雜的數學計算,它對應了高性能的伺服器;二是並行計算技術,無論深度學習還是機器學習,這一點不可或缺。
「AI平台一定圍繞這兩點做上層功能的設計。」徐心平說,用戶將藉此充分獲得GPU伺服器提供的AI計算能力。
對於搜狗這類技術能力卓越的互聯網公司,具備相應設計能力並不成問題,而對於數量龐大的傳統行業用戶而言,問題則往往要複雜許多。
支撐多業務運營的重要性不言而喻——大多數企業用戶都會希望基於一套基礎設施為多個項目組提供共享資源,這將讓每位演算法工程師可以自由地獲取資源。
參數配置也並非易事。區別於公有雲提供的服務內容,基於私有雲的多租戶需求對應了複雜的參數配置。
「這些問題的複雜度對於演算法工程師而言太難了。」徐心平接觸的大量用戶需求讓他意識到了平台的一個重要的價值點:平台需要可以自動化完成相關工作,例如讓演算法工程師可以隨時啟動容器環境做科研。
「要讓演算法工程師去做自己擅長的事。」徐心平說,資源調配的工作,「可以交給新華三」。
徐心平業務所聚焦的對象是新華三的AISO人工智慧管理平台。該平台被包含在新華三為公共科學計算所設計的解決方案中。
基於底層的資源池,AISO向上服務多用戶對不同計算環境的共享需求,無論高性能計算、深度學習,或者機器學習——它們有著不同的計算框架,對資源調度和計算的需求千差萬別。
從資源的隔離和共享,到多種計算框架支撐,以及覆蓋從數據到推理的數字化流程,AIOS做到了讓自己看起來就像是一條AI模型的自動化生產線。
這種面向業務的、經過調試的生產線,封裝了常用的計算開發環境,足以讓企業用戶「分分鐘」啟動所需資源。「在應用AIOS前,用戶調試同類環境可能需要一周以上。」徐心平說。
顯然,更加完整的方案對應著著更高的效率。圍繞以GPU為核心的AI基礎設施解決方案,慧與及新華三集團與NVIDIA在全球建立了合作關係,這讓前者可以為用戶提供一個完整的、充分調優的AI基礎設施解決方案。
目前,新華三針對AI基礎設施部分的產品線有著完整的覆蓋——由GPU伺服器、GPU存儲與網路,以及GPU系統軟體等構建了一個完整的GPU集群。
「在現實中,運行時GPU利用率只有30%的情況並不罕見,這裡的問題在於優化水平。」新華三集團工業標準伺服器 GPU產品經理姚宏說。
企業用戶要想獲得優秀的AI基礎設施平台,優化良好的GPU集群系統中,一個關鍵指標就是系統滿負載運行時GPU的利用率。
這裡的產品核心,自然是GPU伺服器。
面向用戶不同的AI應用需求,新華三目前提供了兩類GPU伺服器,一是針對深度學習與並行計算需求的自主品牌的H3C UniServer R5200G3,和HPE品牌的Apollo 6500 System;另一類是針對機器學習推理預測的R4900 G3伺服器。
在這些產品中,自主品牌的R5200G3 GPU伺服器是新華三在人工智慧領域的主打產品。這款4U的伺服器產品,可支持10顆雙寬高性能GPU或20顆單寬GPU。
值得一提的是,R5200G3針對CPU/GPU異構計算特點,採用了優化PCIE3.0多鏈路通信設計,這讓其可以實現GPU之間高速低延遲的數據通信能力。
這一主打產品的優勢在其面市半年後便顯現出來。包括銀行業眾多的大客戶,以及電力系統用戶,都開始逐步基於R5200G3構建自己的AI基礎設施資源池。
- END -
GIF
【IT創事記】創見科技未來,旨在為讀者提供科技企業和科技趨勢的前瞻分析與評論。創始人祁萌,為資深科技自媒體人,曾任《商業夥伴》副總編、《電腦商報》主編、都市媒體記者編輯,從業超過14年。
【IT創事記】同名專欄入駐各主流媒體平台。
TAG:IT創事記 |