華為發布全球算力最強AI處理器,達芬奇架構巨無霸晶元昇騰910問世!
新智元報道
新智元編輯部
【新智元導讀】剛剛,深圳發布會上,華為副董事長、輪值董事長徐直軍正式商用發布AI晶元「昇騰 910」,與之配套的新一代AI開源計算框架MindSpore也同時亮相!徐直軍表示,昇騰 910是算力最強的 AI 處理器,而且當之無愧!
周一,美國商務部長宣布將華為的「臨時許可」延長90天。
而就在剛剛,華為為我們打了一劑強心劑:採用達芬奇架構的又一款AI晶元——昇騰 910 ( Ascend 910) 正式商用,與之配套的Mindspore全場景AI計算框架也震撼發布!
徐直軍現場展示昇騰910
作為華為 「達芬奇項目」 的重磅成果,用華為副董事長、輪值董事長徐直軍的話來說,華為昇騰 910 是算力最強的AI處理器。
有多強,請看實際測試結果:
半精度 (FP16)算力達到256 Tera-FLOPS
整數精度 (INT8) 算力達到512 Tera-OPS
昇騰910首次亮相是在2018年的華為全聯接大會上,徐直軍首次闡述了華為 AI 戰略,並正式公布了昇騰 910 和昇騰 310 兩款 AI 晶元。當時,徐直軍表示,昇騰 910 是單晶元計算密度最大的晶元。
在那次大會上,徐直軍當場拿出昇騰 310展示,最大功耗僅 8W 的極致高效計算低功耗 AI 晶元華為昇騰 310 去年已經商用量產,而華為昇騰 910 就在今天正式商用。
徐直軍表示:昇騰910總體技術表現超出預期,作為算力最強AI處理器,當之無愧!
昇騰 910 —— 業界最強大 AI 處理器誕生!
現場,徐直軍先介紹了華為AI解決方案,以及基於昇騰310的產品和雲服務的廣泛應用。
接著,徐直軍說:「我宣布,算力最強的AI處理器 Ascend 910 正式推出。去年10月,我們發布了Ascend 910的技術規格,今天我向大家介紹最新的實際測試結果。」
昇騰910屬於Ascend-max系列,徐直軍公布了其最新測試結果:
半精度 (FP16)算力達到256 Tera-FLOPS
整數精度 (INT8) 算力達到512 Tera-OPS
而且,達到規格算力所需功耗僅310W,明顯低於設計規格的350W。
也就是說,在算力方面,昇騰910完全達到了設計規格,下面是昇騰910初次亮相時公布的設計規格:
昇騰910設計規格:
Ascend-Max
架構:達芬奇
半精度(FP16):256 TeraFLOPS
整數精度(INT8):512 TeraOPS
128 通道 全高清 視頻解碼器 -H.264/265
最大功耗:350W
7nm
昇騰910 基於 7nm 增強版 EUV 工藝,單 Die 內建 32 顆達芬奇核心,半精度高達 256 TFOPs,最大功耗 350W。
徐直軍說,昇騰910總體技術表現超出預期。昇騰910已經被用於實際AI訓練任務。其中,在典型的ResNet-50 網路的訓練中,昇騰910與MindSpore配合,與現有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。每秒訓練的圖片數量從965張提升到1802張。
徐直軍現場表示:「昇騰910總體技術表現超出預期,作為算力最強AI處理器,當之無愧!」
高算力、高集成度、高速互聯,便共同鑄造了 業界最強大的 AI 處理器 ——昇騰 910。
基於達芬奇架構的 AI 核是計算核心。除了標量和矢量計算單元,AI 核集成了3D 立方體計算引擎,能夠在一個時鐘周期內完成 4096 的乘加運算。
與 CPU 和 GPU 相比,有兩個數量級的提升,昇騰 910集成了 32 個立方體計算引擎,能夠輸出 256TFLOPS。
它不僅是一顆強大的 AI 計算處理器,而且還是一個高度集成的片上系統,集成了 CPU、DVPP 以及任務管理器。
這些單元給昇騰 910 提供了一種 「自治」 能力,使其可以獨立完成整個 AI 的訓練流程,最小化與 Host 的交互,從而充分發揮其算力。
創建一個強大的訓練系統不僅需要晶元自身強大的算力,高效的通信機制也是必不可少的。
昇騰 910 集成了HCCS、PCIe和RoCE三種高速介面。
其中,自研的 HCCS 可以提供單介面 240Gbps 的傳輸。
也正是採用了最新的 PCIe,使得吞吐量比上一代翻倍。
而晶元上集成的 RoCE 介面,則為多節點間提供了高效的數據交互的互聯方案,這些互聯技術大幅提升了構建訓練系統的性能和靈活性。
最後,現場有記者e,昇騰910售價多少呢?畢竟我們知道英偉達的GPU和谷歌的TPU都有定價。
徐直軍笑道:「售價具體還沒定出來,但肯定不會比他們(英偉達和谷歌TPU)高。」
昇騰310和昇騰910僅僅是一個開始。徐直軍表示,未來將持續投資,推出更多的AI處理器,面向邊緣計算場景,在已經商用Ascend 310基礎上,計劃2021年將推出Ascend 320。
上面是昇騰處理器的一系列計劃時間表,可以看到,該系列晶元覆蓋訓練、MDC/DC、邊緣計算多種場景,即將在2021年推出用於訓練場景的昇騰920,邊緣計算場景的昇騰320.
MindSpore 全場景AI計算框架,明年Q1開源!
此外,徐直軍還發布了全場景AI計算框架 MindSpore,並宣布「MindSpore將在2020年Q1開源」!
徐直軍表示:能否大大降低AI應用開發的門檻,能否實現AI將無處不在,能否在任何場景下確保用戶隱私得到尊重和保護,這些都與AI計算框架息息相關。
在去年HC會上,華為提出:AI框架應該是開發態友好(例如顯著減少訓練時間和成本)和運行態高效(例如最少資源和最高能效比),更重要的是,要能適應每個場景包括端、邊緣和雲。
一年後的今天,全場景AI計算框架MindSpore在這三個方面都取得了顯著的進展:在原生適應每個場景包括端,邊緣和雲,並能夠按需協同的基礎上,通過實現AI演算法即代碼,使開發態變得更加友好,顯著減少模型開發時間,降低了模型開發門檻。
MindSpore如何做到更快更高效?
MindSpore秉承「AI演算法即代碼」理念,提供一系列的關鍵技術,例如MindSpore自動微分,採用Source 2 Source方式實現,在性能和可編程性上,明顯優於業界圖和運算符重載方式。能夠實現任意運算元的微分表達和編譯優化,同時實現反向運算元自動生成,極大地方便了模型開發。
而隨著數據集和模型規模越來越大,模型並行將成為必然趨勢。相比手工切分的模型並行的門檻高、效率低、調優難,MindSpore只需定義單機模型,即可自動實現多機混合併行運行,無需了解AI集群細節。
主從控制模式中,CPU和GPU交互引入內存和數據開銷。MindSpore在晶元上完成神經網路模型訓練的所有控制和執行,減少和主機CPU的交互時間,速度更快。並在已有的分散式訓練方案引入中心控制來尋找梯度同步點,MindSpore實現了去中心化的分散式梯度聚合,完全消除控制開銷。
最終,軟硬體優化為不同類型運算元映射最佳的計算單元和數據布局,獲得最佳的性能。
通過MindSpore自身的技術創新及MindSpore與Ascend處理器協同優化,實現了運行態的高效,大大提高了計算性能。除了昇騰處理器,MindSpore也支持GPU、CPU等其它處理器。
現在已有了TensorFlow、PyTorch框架,但還沒有任何一個現有框架支持全場景,而這就是華為要做的——覆蓋端-邊緣-雲,做一個能支持全場景的框架,實現AI無所不在越來越基礎的需求,這也是MindSpore的重要特色。
針對不同的運行環境,MindSpore框架架構上支持可大可小 ,適應全場景獨立部署。同時,MindSpore框架通過協同經過處理後的、不帶有隱私信息的梯度、模型信息,而不是數據本身,以此實現在保證用戶隱私數據保護的前提下跨場景協同。除了隱私保護,MindSpore還將模型保護Built-in到AI框架中,實現模型的安全可信。
為了降低AI開發者的開發門檻,MindSpore創造性地實現了AI演算法即代碼,使開發態變得更加友好,顯著減少模型開發時間。以一個NLP(自然語言處理)典型網路為例,相比其他框架,用MindSpore可降低核心代碼量20%,開發門檻大大降低,效率整體提升50%以上。
華為全棧全場景AI解決方案已經完成
最後,徐直軍說,去年在HC大會上發布的全棧全場景AI解決方案已經完成了構建!這對華為的AI業務來講是一個新的里程碑,更是一個新的開始!
昇騰910商用以後,華為雲AI將為客戶提供充裕經濟的算力。通過MindSpore,華為雲讓科學家更高效地完成AI運算元開發(比如自動微分功能),縮短開發周期,減少開發工作量。
同時,MindSpore可以發揮出昇騰晶元最大計算潛能,這樣軟硬體協同可以更好地利用晶元算力。華為雲致力於解決AI應用過程中面臨的「貴」和「難」的問題,降低AI計算的門檻,實現普惠AI。新智元將在下周對此進行更深入的闡釋。
※高通哭了!傳蘋果將砸10億美元收購英特爾手機基帶晶元業務
※DeepMind照片新演算法,識別野生動物準確率超過96%!
TAG:新智元 |