當前位置:
首頁 > 最新 > 專訪浪潮劉軍:今年有較大規模AI生意,最擔心谷歌TenserFlow一統江湖

專訪浪潮劉軍:今年有較大規模AI生意,最擔心谷歌TenserFlow一統江湖

「這一波AI浪潮我們是比較受益的,今年AI方面營收會比去年增長三四倍。因為不管做什麼你總需要工具,我們是賣工具的,我們是賣交通工具的。你做生意,拉貨,載客,送外賣,總得需要車。」浪潮集團人工智慧與高性能產品部總經理劉軍說。

劉軍曾榮獲國家科技進步二等獎,他於2006年加入浪潮, 目前負責浪潮的人工智慧和高性能計算業務。歷經10年,浪潮高性能計算業務從0到1做到行業領頭羊。

浪潮集團成立於1945年,旗下有三家上市公司:浪潮信息、浪潮軟體和浪潮國際,具體如下:

浪潮旗下三家公司介紹(註:市值查詢自百度股市通)

浪潮2017新財年宣布成立人工智慧部門,並著力打造多樣化的硬體平台、管理調度與分析平台和深度學習框架的「平台組合」,實現前端承接多源數據、後端支撐智能應用,為人工智慧提供領先計算力。

目前,浪潮已經是百度、阿里和騰訊的AI計算GPU伺服器的最主要供應商,並與科大訊飛、奇虎360、搜狗、今日頭條、Face++等人工智慧公司深入合作,幫助客戶在語音、圖像、視頻、搜索、網路等方面取得數量級的應用性能提升。

今年已經有較大規模的AI生意

浪潮是一家擁有73年歷史的老牌企業。東方紅衛星上面用的大電子管就是出自浪潮。80年代,浪潮開始做個人電腦,但後來聯想、方正以及國外品牌大規模起來,PC機變成一個完全大規模工業製造的競爭,導致這個領域的盈利空間急劇縮小。

2000年,浪潮把重心轉移到做小型機、伺服器上,那時正值互聯網爆發,浪潮在伺服器業務獲得快速增長。最近幾年,在雲計算的推動下,浪潮作為「基礎設施的供應商」,業績成長也非常快。今年6月,IDC發布了最新的X86伺服器市場調查報告,2017年一季度中國X86出貨量達到49.3萬台,銷售額為18億美元,其中銷售額排名第一的是浪潮3.6億美元,其次是華為3.5億美元和戴爾3.0億美元。

如今,歷史的車輪駛入AI時代。我們知道,AI有三大要素:計算力、演算法和大數據,其中計算力需要大量的伺服器和GPU。劉軍說:「我們就是把語音識別、圖象識別、搜索、網路安全這些從原來CPU上面搬到GPU上面來做加速,就是在做這樣的工作。」

構建大規模的AI系統需要的伺服器成本很高,很少創業公司能付得起這個錢,像BAT這些大公司就成為浪潮伺服器的核心買單方。

這背後,其實是伺服器本身的演變,帶動了需求的劇增。

之前的伺服器都是單台,每一台要什麼樣的CPU、內存、硬碟,然後按照這個型號組裝,計量是按台計算。而如今互聯網雲數據中心對伺服器的需求演化到以整機櫃的形式,一個機櫃有 32個計算節點,每個節點上面有兩顆處理器和幾十GB內存。

本質上,是互聯網帶來基礎設施的巨大變化。目前雲計算逐漸成為公用設施,原來個體化的計算設備,變成像電廠這樣的基礎設施,一個整裝設備來提供。

劉軍說,過去computer is a server,就是一個計算機就是一個server,是單台的;現在是叫rack is a server,就是一個機櫃是一個server;以後是data center is a server,一個數據中心是一個伺服器。

浪潮AI布局上的四個層次

浪潮在AI布局上有四個層次,最底層是硬體基礎設施,然後是一個綜合性的管理系統,並行框架的擴展,以及端到端的解決方案。

硬體層

目前,浪潮已經發布了AGX-2、GX4、SR-AI、F10A等多款產品。

AGX-2:今年5月,浪潮攜手NVIDIA在GTC大會期間發布了加速人工智慧計算的超高密度伺服器AGX-2,也是全球首款在2U空間內高速互聯集成8顆最高性能GPU加速器的伺服器。

GX4:單台伺服器可擴展4台GX4,實現4到16卡的高擴展性,即一個box里能夠掛四塊卡,能夠同時級聯 4個box,掛上16塊卡。GX4突破了常規AI計算設備的8卡擴展限制,實現了更高的單機計算性能。

SR-AI:浪潮與百度聯合發布了面向更大規模數據集和深層神經網路的超大規模AI計算平台。是全球首個採用PCIe Fabric互聯架構設計的AI方案,通過PCI-E交換機和I/O BOX兩個模塊的配合,GPU和CPU物理解耦池化,二者靈活配置,可實現支持16個GPU的超大擴展性節點,該方案最大支持64塊GPU,峰值處理能力為512TFlops,比一般的AI方案性能提高5-10倍,可支持千億樣本、萬億參數級別的模型訓練。

F10A:傳統FPGA開發採用Verilog、VHDL等硬體描述語言,對開發者要求較高,開發周期也較長,因此在高性能計算應用受到限制。而採用OpenCL的F10A利用軟體高級語言和模型編程,開發周期大幅縮短。據浪潮提供的數據顯示,在F10A上開發GZIP演算法,1名工程師採用OpenCL用時1個月即可獨立完成開發,而採用Verilog則需要耗時3個月才能完成移植。

系統管理層:浪潮AIStation, 人工智慧深度學習訓練集群管理軟體

AIstation管理系統能夠幫助客戶去管理整個深度學習的作業流,

深度學習模型在訓練時往往耗時較長,短則數小時長則數天,以往在訓練完成後才意識到模型存在問題,大大耗費了用戶的精力和時間。

浪潮AIStation可以提供從數據準備到分析訓練結果的深度學習業務流程,支持Caffe、TensorFlow、CNTK等多種計算框架和GoogleNet、VGG、ResNet等多種模型,支持對訓練過程實時監控並可視化訓練過程,實現了「一鍵式」部署深度學習計算環境、快速啟動訓練任務,實時監控集群的使用情況,可及時發現運行中的問題,提高集群的可靠性。

框架層:Caffe-MPI,全球首個集群並行版的Caffe深度學習計算框架

浪潮於2015年發布Caffe-MPI深度學習計算框架,代碼已在Github上開源。浪潮Caffe-MPI保留了伯克利版本Caffe架構的優良特性,同時又針對高性能計算系統設計使之具備良好的並行擴展性。新版本在4節點16塊P40 GPU集群上訓練GoogLeNet模型性能較單卡提升14.2倍,訓練ResNet模型性能較單卡提升15.36倍,擴展效率高達96%。

香港浸會大學褚曉文副教授發表的框架測試報告

端到端的解決方案

浪潮AI的端到端的解決方案分為5步:

1、針對深度學習浪潮提供整體解決方案能力,建立從平台、管理、框架及應用四個層次的解決方案;

2、平台層提供面向人工智慧最大定製化的架構設計,採用GPU、FPGA提供快速訓練與推理計算平台;

3、管理層針對複雜的計算環境採用浪潮深度學習管理平台DeepEngine對計算資源進行管理、調度與監控,實現系統的最大化利用;

4、框架層針對不同的需求以及使用習慣,部署不同的深度學習框架,如Caffe,Caffe-MPI, TensorFlow, CNTK, mxnet等,實現對圖像、視頻、語音、自然語言的處理;

5、應用層針對用戶實際應用需求,設計深度學習模型與演算法,實現GPU、FPGA平台的遷移與優化。

這一波AI的技術創新浪潮過來時,整個產業實際上並沒有做好準備,目前只有少數的領先的AI科技公司能具備把從全價值鏈地某個應用場景變成AI的能力,比如百度、阿里、騰訊具備這種能力。但是還有很多成千上萬的行業企業客戶,他們沒有這個能力,但是他們渴望應用AI,這裡面有一個巨大的需求缺口,也是巨大的商業機會。

深度學習框架大比拼:最擔心谷歌一統江湖

劉軍說,深度學習是個演算法,但要把它用起來,需要有一套好用的工具。打個比方,框架就是深度學習的「輪子」。

應該說Caffe的出現引發了深度學習框架的爆發,它是一個大家公認比較好的輪子,可以搭載像Alexnet各種網路的模型,用戶可以直接拿來用,只需要在上面根據應用調整模型、參數,目前Caffe是在圖象識別領域最受歡迎的框架。之後,深度學習框架如雨後春筍般出現。

MXNet是目前跑得比較快的框架,它由華人科學家李沐開發,被AWS選作雲上的標配。

百度做了PaddlePaddle,整體的設計感覺和Caffe心有靈犀,同時解決了Caffe早期設計當中的一些問題(比如說default stream)。

Facebook把Caffe的作者挖過去,今年4月發布了Caffe2,但Caffe2跟Caffe沒什麼關係。

微軟的CNTK,可支持windows這個很有特點,相比來看其他框架是在Linux上面運行的。

谷歌是這裡面的很大的一個玩家,2016年4月,谷歌發布TensorFlow,在短短一年多的時間幾乎取得領先的地位。它希望把它的生態建設在TensorFlow上,所以它投入了巨大的人力財力開發TensorFlow,從它內部的版本到開發版本,從單機的版本到多機版本,使其性能不斷優化。而且,谷歌投入了大量的精力在做TensorFlow的推廣和應用,它的社區的活躍度現在是最高的。

谷歌還鼓勵很多人在上面做開發,支持很多新的模型在上面適用,這樣就形成一個良性的滾雪球。在TensorFlow上,很多問題你一提問,別人都解決了,你需要的很多模型別人已經做好,直接拿來用就可以。但這背後需要很多的錢支撐才能做得到。

相比之下,百度PaddlePaddle有點吃虧,雖然技術上很好,也支持多節點並行設計,但是沒有太大投入做推廣和社區建設。

「其實對於深度學習框架,技術做出來僅僅是萬里長征第一步,尤其像開源這種項目,要花大量的時間去維護它,推廣它,這是非常非常重要的,你要去形成你的社區。」劉軍說。

他還強調,PaddlePaddle畢竟是國產的做的最棒的一個框架。深度學習框架對於AI發展有很大的作用,在框架沒有出現之前,人們去做深度學習演算法開發很費精力和時間,有了框架之後,演算法的開發變得便捷起來,這就好比給車裝上了輪子,讓它快速的運轉起來,因此,框架非常重要。

而且,留給框架開發者的時間不多了。現在如果還想在框架開發上面站住腳的話,一定要在這個時間窗口儘快把宣傳、推廣、社區建設做出來,再不做出來,以現在谷歌的勢頭,TensorFlow很難擋得住。

今年5月,谷歌正式發布了第二代TPU ,它號稱比GPU還要快,谷歌的戰略是以後AI跑在TensorFlow上,TensorFlow跑在TPU上。

目前,谷歌是英偉達的第一大GPU客戶,英偉達AI計算晶元三分之一是供給了谷歌,可想而知,一旦谷歌不用GPU而改用TPU,是多麼可怕的局面。


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 億歐網 的精彩文章:

擁有點滴回憶,支持收音!不弱小米,你用過嗎?
1000美元售價已經成為智能手機市場創新的代價
安卓黨狂歡!10月4日谷歌發布會泄密:Pixel手機/筆記本/音箱齊發
每日優鮮完成2.3億美元C 輪融資,重點發力「雲冰箱」戰略
谷歌新品:迷你智能音箱和Pixel 2手機

TAG:億歐網 |