一個晶元隨意組合?英偉達將深度學習推向極致
【新智元導讀】英偉達詳細介紹了一種微型測試晶元,可以獨立完成底層工作;但當36個晶元團結起來時,性能可以提升32倍。與使用相同精度的先前原型相比,單個晶元的面積效率至少為16倍,能量效率為1.7倍。
如何確保在大型和小型任務之間切換,而不至於犧牲效率呢?顯然把單個的、實驗性的加速器晶元,變成可以隨意組合的模塊化形式,是一個具備可行性的解決方案,這也是英偉達在做的事情。
作為GPU動力工廠,英偉達當然希望能夠為各種規模的AI任務提供解決方案:從大規模的數據中心任務、到始終在線的低功耗神經網路(這些網路需要監聽語音助理接收到的喚醒詞)。
這不是個簡單的任務,通常來說需要將幾種不同的技術混合使用。可是,這樣的方式顯然不如只部署一種好。
英偉達一直在尋求「one ring to rule them all」的解決方案:是否可以構建一些可擴展的模塊化產品,同時在整個環節中又不過多浪費每個瓦特的效率呢?其首席科學家Bill Dally說,英偉達最終找出了答案。答案是肯定的。
上個月舉行的VLSI研討會上,英偉達詳細介紹了一款小巧的測試晶元,它可以獨立完成底層的工作,也可以在一個模塊中與多達36個同類型晶元緊密聯繫,進行深度學習一類的重任務,而且每個晶元都實現了大致相同的頂級性能。
單個加速器晶元更多的是被設計成為深度學習的執行方,而不是訓練方。工程師測量這種「推理」晶元的性能的方式,通常是根據每焦耳能量或毫米面積可以進行多少次操作。
英偉達原型晶元中,一個峰值可達到每秒4.01 Tera次操作(相當於每秒10000億次)和每毫米1.29 TOPS。
和其他組中使用相同精度的先前原型比,該單晶元的面積效率至少是這些原型的16倍,能量效率至少達到1.7倍。
而當36個晶元連接成為一個晶元系統後,它達到了127.8 TOPS,相當於性能提升了32倍!
通過這項研究,英偉達試圖證明,只用一種技術應對所有場景是可能的、也是可行的。或者,起碼當這些晶元和多晶元模塊中英偉達的網狀網路連接在一起的時候,可以做得到。
這些模塊基本上是小型印刷電路板或矽片,它們也可以作為一個大型IC處理多個晶元。這種形式正變得越來越流行,因為可以將幾個較小晶元隨意組成系統(通常稱為小晶元,相對單一的更大、更昂貴的大晶元而言)。下圖是多晶元模塊的圖例:
Dally解釋道:「多晶元模塊的形式具有很多優勢。不僅適用於未來可擴展的(深度學習)加速器,還適用於構建具有不同功能的加速器的產品版本。」
英偉達多晶元模塊之所以能夠將新的深度學習晶元綁定在一起,關鍵是一個使用了稱為「ground-referenced信號」技術的晶元間網路。
顧名思義,GRS使用導線上的電壓信號和common ground之間的差來傳輸數據,同時避免了該方法的許多已知缺陷。
它可以使用單根線傳輸25GB/秒的數據,而大多數技術需要一對電線才能達到同樣的速度。使用單線可以提高每秒毫米邊緣流量的數據量,達到每秒高達幾TB的數據量。更重要的是,GRS的功耗僅為每比特幾皮焦。
不止如此,Dally還表示,他們已經完成了一個版本,使得該晶元的TOPS/W實現了翻倍。而他的團隊也在不斷推動新的加速技術,希望達到200 TOP/W的同時,仍然保持可擴展性。
參考鏈接:
https://spectrum.ieee.org/tech-talk/semiconductors/processors/nvidia-chip-takes-deep-learning-to-the-extremes
※Jeff Dean:一年開源12款新工具,谷歌負責任AI原則落地生根
※「視頻」波士頓動力Atlas機器人完美自主導航,這次是真的
TAG:新智元 |