深度定製：揭秘Graphcore深度學習晶元加速軟體

新聞 05-10

選自The Next Platform

作者：Nicole Hemsoth

機器之心編譯

參與：侯韻楚、黃小天、李澤南

兩年來，我們推出了一系列專為處理神經網路的訓練及推理而設計的深度學習結構。我們廣泛併購投資或併購，但僅有少部分人看出了要點——收購一年多前推出的 Nervana 系統。

在眾多神經網路晶元的初創公司中，Graphcore 憑藉處理同一塊多核晶元上的訓練及推理問題的多核方法而鶴立雞群。我們在三月份詳述了其硬體架構（詳情參閱機器之心報道：深度學習晶元公司 Graphcore 初探：顛覆 GPU、FPGA 和 CPU 的新一代處理器 IPU）。儘管眾所周知 Graphcore 從 Series A 融資 3000 多萬美元，但它現今被公開認為戴爾才是其背後金主。戴爾技術資本、博世、三星以及其他投資者已將 Graphcore 推過了 3200 萬美元大關。考慮到戴爾，Graphcore 首席執行官兼聯合創始人 Nigel Toon 認為他們將通過戴爾的 OEM、渠道以及產品整合能力實現深入發展。

鑒於今天的這則消息，我們希望折回到 3 月份所提供的最初的硬體深入研究中，並關注 Graphcore 所提供的另一層面——軟體堆棧。在 Graphcore 以 PCIe 為基礎的硬體中，對處於核心位置的定製開發型 IPU 處理器而言，在同一台設備上進行訓練抑或推理都屬於艱巨的任務。

正如 Toon 對 The Next Platform 所言，深度學習框架正在從數據中獲取知識模型，並且通過計算圖來表示這些特徵是最佳途徑。在某種程度上，所有機器學習框架的核心都是將全部內容轉化為圖形，而這些圖形的邊緣和頂點可以表示特徵之間的相關性和連接性。它們可能會將連接表徵為單標量權重、矩陣抑或描述關係或特徵集的張量。因此，應用其能夠反映格式的硬體設備來使圖形更加明確地表徵這個概念不無道理。它變成了與採取深度學習框架相似的問題，並將其「引爆」以顯示所有的邊緣和頂點，然後劃分圖形來將問題映射至晶元上的多核，並控制這些處理器之間的通信，從而使它們擁有所需的數據。很簡單，對不對？

但事實證明它十分棘手，然而 Graphcore 利用 Poplar 軟體框架逐漸解決了這個引爆、劃分、映射與通信問題。

Poplar 驅動一個以 PCIe 為介面的 16 個處理器的 Graphcore IPU 組件，它需要開發人員在 TensorFlow 中啟動（這個團隊正致力於將庫和支持機制擴展到其他框架），隨後構建所需訓練的神經網路的描述（設定參數等）。Poplar 插入了 Graphcore 所開發的許多庫元素之一（類似於英偉達為其 GPU 提供的 cuDNN 元素），並插入諸如卷積或不同的基元來取代 TensorFlow 中編寫的高級描述。隨後它會通過將它們擴展為完整而複雜的圖形「引爆」這些圖形的邊和頂點。這款軟體能夠對處理元件和內部通信資源進行映射和劃分，因此它能夠處理圖形並創建可以饋送至處理器的程序。

深度定製：揭秘Graphcore深度學習晶元加速軟體

真正的難題是，所有處理器都必須擁有所需的全部數據。而 Poplar 的目的便是採取更多諸如 TensorFlow 做出的抽象圖形描述，將它們展開為包含全部邊緣和頂點的整體圖，而後分解為可以分配到處理元素中的工作包。

Graphcore 晶元最初令人著迷的一點便是能夠在同一塊硬體上進行高效訓練和推理。Toon 告訴我們，實際上實現這一點並未涉及任何功能廣泛的軟體，它更像對深度神經網路問題採用圖形功能。Toon 解釋道：「學習便是構建圖表並進行優化以確立正確的答案、預測、推理以及判斷，並且它們都只是圖形中不同的優化任務。根本來說，它們都屬於相同的計算。它們在執行時需要的計算量可能不同，但總體而言十分相似。如果我有一塊可以連接在一起並使用多個處理器來進行速度訓練的計算硬體，那麼我可以使用其他處理器在不同的時間進行部署或推斷；只要設計的處理器不必以特定的方式進行調整和控制來實現高性能，這便可能實現。」

真正困難的是改變與維護那些目前支持的庫，以及那些隨著新型神經網路方法的出現而逐漸過時的庫。Toon 認為主要框架大多僅僅是 API 級別的問題，但團隊將需要對新型的未來庫施以例行的深入維護。

這家公司將在今年推出一個 Graphcore 堆棧的雲技術版本。我們應該關注它的早期使用情況，看看這個高度定製化的處理環境能為 GPU、FPGA 甚至是少數僅有 CPU 的訓練及推理任務帶來什麼。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※讓黑白影像重獲新生：UC 伯克利提出實時神經網路著色模型
※Facebook提出全新機器翻譯：準確度超越谷歌且還快九倍
※正在湧現的新型神經網路模型：優於生成對抗網路
※英偉達GTC大會談GPU未來：實現機器學習和資料庫的融合
※清華大學發布珠算：一個用於生成模型的Python庫

TAG:機器之心 |

您可能感興趣

※Pieter Abbeel：深度強化學習加速方法
※Occipital推深度感測器，深度數據媲美HoloLens
※惡意軟體QuantLoader深度分析
※深度學習之DenseNet
※一統所有AI晶元：Facebook揭秘深度學習編譯器Glow
※Google Pixel 3 XL 深度體驗
※深度強化學習-Policy Gradient基本實現
※PyCharm+Docker：打造最舒適的深度學習煉丹爐
※華為mate20pro與iPhoneXR深度體驗，你更喜歡誰
※深度學習訓練決策，Waymo披露ChauffeurNet進展
※macOS木馬Calisto深度分析
※Rethink Deepfakes，淺談深度學習落地
※從 Google Trends，看各大深度學習框架使用熱度
※業界 | 一統所有AI晶元：Facebook揭秘深度學習編譯器Glow
※Yoshua Bengio談邁向硬體友好的深度學習
※深度學習之解剖Hello World
※從Zero到Hero，OpenAI重磅發布深度強化學習資源
※Tomaso Poggio解析下個「AlphaGo」線索，再談「深度學習鍊金術」
※Nvidia與NetApp合作打造深度學習GPU伺服器晶元
※《Tensorflow：實戰Google深度學習框架》