當前位置:
首頁 > 科技 > 浪潮發布重磅產品「元腦」,專註AI全棧能力輸出

浪潮發布重磅產品「元腦」,專註AI全棧能力輸出

整理 | 一一

出品 | AI科技大本營(ID:rgznai100)

4月16日,以「智慧凝聚」為題的IPF2019浪潮雲數據中心合作夥伴大會在上海舉辦。大會重點聚焦浪潮「智慧計算」戰略,以AI計算力和創新力,聯接、承載、賦能合作夥伴。

為了布局人工智慧計算,浪潮從計算平台、管理套件、框架優化、應用加速四個層次致力於打造人工智慧基礎設施,已成為BAT人工智慧伺服器供應商,並幫助科大訊飛、商湯、曠視等AI技術公司在語音、圖像、視頻、搜索、網路等方面提升應用性能。

作為伺服器廠商浪潮向合作夥伴秀技能的重要日子。浪潮集團副總裁彭震在當天下午發布了重磅產品浪潮「元腦」,這被浪潮視作其人工智慧戰略的再度升級,該產品將以輸出人工智慧全棧能力為主,從「能力構建」轉向「能力輸出」,推動人工智慧新生態的構建。

浪潮認為,元腦是其人工智慧全棧能力的載體與具象,將為人工智慧提供最基礎的創新支撐,賦能生態合作夥伴,加速產業人工智慧化進程。

浪潮方面表示,浪潮元腦既包含浪潮的場景化人工智慧基礎設施,多樣化的深度學習框架與工具,以及最新研發的人工智慧PaaS平台和AutoML Suite等「有形」產品,同時也凝聚了浪潮多年積累的人工智慧演算法優化、系統優化服務等「無形」能力。

該系統主要包括以下五大部分:

計算:通過浪潮人工智慧計算平台、人工智慧超高速計算加速卡、極低延遲RDMA網路與超高帶寬並行存儲,共同提供極致人工智慧計算性能;

框架層:針對最熱門的TensorFlow框架,可提供公有雲最快訓練速度的TensorFlow-Opt優化框架與FPGA計算加速引擎TF2,並支持Caffe、Caffe-MPI、MXNet等主流框架;

PaaS層:最新開發的人工智慧PaaS平檯面向人工智慧企業訓練場景,可實現容器化部署、可視化開發、集中化管理等,有效打通開發環境、計算資源與數據資源,提升開發效率;

演算法層:最新開發的AutoML Suite可實現非專業人員亦能通過極少操作構建網路模型並獲得高精度,極大降低了人工智慧開發、應用的門檻和成本。

服務:人工智慧軟硬體系統級優化、人工智慧框架與演算法級優化、應用諮詢與系統設計等專業人工智慧優化服務。

浪潮人工智慧 PaaS平台

面向人工智慧企業訓練場景,拉通用戶開發環境、計算資源、數據資源,構建一體化的人工智慧開發平台。有效的提升計算資源的使用率,提高開發工程師工作效率。

加速AI企業的應用開發與創新主要分為兩部分:聚焦高效的AI計算平台,高效的計算力支撐,精準的資源管理和調度,敏捷的數據整合及加速,流程化的AI場景及業務整合;其次是構建開放的AI創新生態,無縫對接行業ISV,賦能生態夥伴,兼容各AI應用和場景。

自動機器學習平台AutoML Suite

浪潮發布的高並行擴展自動機器學習平台AutoML Suite,可靈活支持本地化或雲端部署,為AI客戶與開發者提供快速高效開發AI模型的能力。

浪潮推出AutoML自動建模工具,其特點有:

1)一站式可視化處理,用戶只需經過數據上傳、模型搜索、模型訓練、模型評估4個步驟的可視化操作即可為學習任務構建好網路模型,並獲得高精度;

2)自動生成CV模型,採用強化學習自動完成分類、回歸模型生成,並支持監督學習和無監督學習;

3)部署形式靈活,為全球首個支持On-Premise和Cloud雙模式部署的產品,分鐘級完成部署;

4)支持多機多GPU卡並行,極大降低模型搜索和模型訓練時間,如在模型搜索階段,採用16 V100 GPU測試,單個模型平均搜索的時間為9.6分鐘,較單卡提升10.52X,一天可以搜索144個模型,極大提高生成效率。

浪潮人工智慧加速卡

F10A:支持OpenCL的FPGA加速設備

F10A的單晶元峰值運算能力為1.5TFlops,而功耗僅為35W,每瓦特性能達到42GFlops。同時,F10A設計半高半長PCI-E插卡,具有靈活的板卡內存配置,最大支持32G雙通道內存,能夠寄存更多的並行任務數據。此外,F10A支持2個10Gb光口,可以實現數據直接從網路到板卡處理,無需經過CPU,減低了傳輸延時。浪潮方面稱,F10A是目前業界支持OpenCL的最高密度、最高性能的FPGA加速設備。

基於F10A,浪潮推出面向AI線上推理、GZip演算法與WebP圖片轉碼三大雲場景的FPGA加速方案,在擴充FPGA生態的同時,也為從事AI開發與應用的公司以及大型數據中心用戶提供更高性能功耗比的專用加速晶元選擇。

基於FPGA具有可編程專用性,高性能及低功耗的特點,浪潮F10A AI線上推理加速方案針對CNN卷積神經網路的相關演算法進行優化和固化,可加速ResNet等神經網路,能夠應用於圖片分類、對象檢測和人臉識別等應用場景。浪潮F10A AI線上推理加速方案部署非常簡單,用戶只需要將目前深度學習的演算法和模型編譯成與浪潮深度學習加速解決方案的配置腳本,即可進行線上應用,省去至少3個月到半年的開發周期和相關成本。

F37X:集成HBM2高速緩存的FPGA AI加速卡

F37X可在不到75W典型應用功耗提供28.1TOPS的INT8計算性能和460GB/s的超高數據帶寬,適合於機器學習推理、視頻轉碼、圖像識別、語音識別、自然語言處理、基因組測序分析、NFV、大數據分析查詢等各類應用場景,實現高性能、高帶寬、低延遲、低功耗的AI計算加速。

F37X是浪潮專為AI極致性能設計的尖端FPGA加速卡,它採用Xilinx Virtex UltraScale 架構,提供285萬個系統邏輯單元和9024個DSP單元,INT8計算性能達到了28.1TOPS,集成8GB HBM2高速緩存,帶寬達460GB/s,相比單DDR4 DIMM提升20倍。

此外,F37X可支持C/C 、OpenCL和RTL三種主流的編程語言開發環境。相應SDx工具套件內含SDAccel、Vivado及SDK工具,應用已有的OpenCV、BLAS、Encoder、DNN、CNN等加速庫,實現對主流深度學習框架如Caffe、TensorFlow、Torch、Theano等的支持,覆蓋機器學習推理、視頻圖像處理、資料庫分析、金融、安全等典型AI應用領域,提供強大的生態支持。

提升AI推理效率的人工智慧計算加速引擎TF2

TF2是支持TensorFlow的FPGA計算加速引擎,可幫助人工智慧客戶快速實現基於主流人工智慧訓練軟體和深度神經網路模型DNN的FPGA線上推理,並通過全球首創的FPGA上DNN的移位運算技術獲得人工智慧應用的高性能和低延遲。

TF2計算加速引擎由兩部分組成。第一部分是模型優化轉換工具TF2 Transform Kit,它將經過TensorFlow等框架訓練得到的深度神經網路模型數據進行優化轉換處理,大幅降低模型數據文件大小,如它可將32位浮點模型數據壓縮為4位整型數據模型,使得實際模型數據文件大小精簡到原來的1/8,並基本保持原始模型數據的規則存儲。

第二部分是FPGA智能運行引擎TF2 Runtime Engine,它可實現將前述已優化轉換的模型文件自動轉化為FPGA目標運行文件,為了消除深度神經網路如CNN等對FPGA的DSP浮點計算能力的依賴,浪潮創新設計了移位運算技術,它可將32位浮點特徵圖數據量化為8位整型數據,並結合前述4位整型模型數據,轉換卷積操作浮點乘法計算為8位整數移位運算,這將大幅提升FPGA做推理計算的性能並有效降低其實際運行功耗。這也是目前全球首次在保持原始模型計算精度的前提下在FPGA上實現深度神經網路DNN的移位運算。

浪潮元腦系統應該說來講更是AI系統方面的一個開始,浪潮會持續不斷投向元腦產品的開發,不斷把我們在AI方面的成功經驗,由能力的積累逐漸轉變為能力的輸出,把它變成一個重要的平台發布給我們的合作夥伴,希望我們的合作夥伴將面向自己各行各業的AI應用和浪潮的元腦整合在一起,形成我們面向各行各業的智慧化的行業的解決方案。浪潮元腦系統如何來進行構成的?我今天也為各位一一道來。

總體而言,浪潮元腦實際上提供了一個一體化的解決方案,是將浪潮的人工智慧計算能力、存儲能力、網路能力以及人工智慧PaaS平台、AutoML Suite 自動演算法調優工具集合在一起,提供了一個完整的平台級解決方案,方便其合作方進行人工智慧應用開發的一個底層平台。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

如何將GPU性能提升4-5倍?創新奇智提出基於NVRAM TPS的Helper Warp方法
程序員,如何「終身成長」與跨界?

TAG:AI科技大本營 |