英特爾深度學習產品綜述:如何佔領人工智慧市場
機器之心原創
作者:Haojin Yang
參與:Jake Zhao、侯韻楚、黃小天
2017 年 2 月 9 日,機器之心技術分析師應邀參加了在 SAP 創新中心召開的英特爾創新研討會。英特爾數據中心組(Data Center Group , DCG)的成員對目前深度學習及其人工智慧產品的發展做了有關介紹。根據本次研討會的內容,我們可以預測 CPU 硬體生產商(如英特爾)在下一場計算浪潮來襲時的發展趨勢或戰略,尤其是人工智慧的相關方面。
簡介
2017 年第一季度,英偉達數據中心收入同比增長 63%,總體收入也得到增長。這一顯著增長主要歸功於大型 IT 公司,如谷歌和亞馬遜主要基於英偉達 GPU 來加速其人工智慧雲產品的研發。相較而言,在數據中心領域處於霸主地位的英特爾僅增長了 9%。如此懸殊的差距表明,市場中有越來越多的公司正採用深度學習技術;但英特爾已經增加了在深度學習方面的投入與發展力度。本文將就英特爾近期的深度學習產品表達一些見解。
英特爾的人工智慧產品
英特爾加強了人工智慧硬、軟體領域的開發工作。英特爾已在數據中心領域發布了 Xeon 和 Xeon Phi 處理器用於機器學習及其他高性能計算(HPC)應用的通用性案例。為了滿足對人工智慧日益增長的需求,英特爾還推出了兩個用於深入學習模型訓練和高效推理的優化產品:
訓練:英特爾 Xeon 處理器 + 英特爾深度學習引擎「Lake Crest」,「Lake Crest」具有同類之最的神經網路性能,並能提供前所未有的高帶寬互連的計算密度。
推理:英特爾 Xeon 處理器 + FPGA(ARRIA 10)。FPGA 引擎可定製和編程,能提供帶有用於機器學習推理的更高 perf/w 的低延遲以及靈活的精度。該解決方案專為機器學習應用的高效推理和實時預過濾而設計。
下述章節將提供有關 Lake Crest 、英特爾 FPGA 解決方案 ARRIA 10 以及 Xeon Phi 深度學習模型訓練評估結果的更多細節。
Lake Crest
英特爾深度學習引擎「Lake Crest」是一款新型晶元產品,可實現神經網路計算的硬體級優化。與可編程的 FPGA 相比,硬體網路的優勢主要在於:像 Lake Crest 這樣的晶元在運行時能與代碼相適應,並且網路也會在硬體層面進行更新。Lake Crest 具有基於架構的張量,其內存層次結構具有以下特點:高維度(> 2)張量是默認的數據類型;沒有應用緩存機制,由編譯器分配內存。這些張量可讀為轉置或定期。它始終具有 ECC 保護,且應用比 DDR4 快 12 倍的 HBM2 RAM。
Lake Crest 的另一項重要創新是數據傳輸,並擁有高帶寬互連——具有 6 個用於 3D 環面互連的雙向鏈接,這些鏈接比 PCIe 快 20 倍。Lake Crest 的 12 個計算單元直接連接到所有其他計算單元,其吞吐率高達每秒 100 千兆位元組。
Lake Crest 支持用於深度模型的 16 個 FlexPoint,且聚焦於優化佔據大部分神經網路執行時間的 Mat-Mult 和 Convolution。它還支持如(A ^ 2 * 4B)+ C 這樣複雜的 GEMM 函數、自動矩陣阻塞以及部分乘積相加等。
在 Lake Crest 中設計的具體數據類型如圖 1 所示。
圖 1: Lake Crest 支持的數據類型(圖片來自英特爾)。
FlexPoint 引擎能夠實現基於 12x100Gbps interc 和 32 GB HDM2 RAM 的 50TOP。2017 年底將推出基於深度學習平台的 Lake Crest,而 2018 年底將推出下一代英特爾深度學習晶元「Spring Crest」,其能使用 8g winograd 實現 80-90 的 TOP。
Arria 10 FPGA
Arria 10 是英特爾目前用於機器學習的最新一代 FPGA,它的計算能力可以單精度達到 1.5 TF,Int16 達到 3 個 TOP,Int8 達到 6 個 TOP。2017 年末將計劃發布下一代 FPGA——「Stratix 10」,它的計算能力將更強大,單精度高達 9 TF,而 Int16 / 8 則會高達 18/36 TOP。
英特爾為安裝 Arria 10 FPGA 模塊提供了兩種選擇:作為單獨的 PCIe 組件進行安裝,即將來的「離散」版本;另一方面,它可被集成到在內部與處理器直接相連的 Xeon 處理器包中,並在外部與 FPGA 模塊之間直接提供一個連接管道,從而實現靈活的數據訪問,這便是「集成」版本。
表 1 和 2 顯示了使用 Arria 10 FPGA 組件的 Xeon 處理器的吞吐量以及能耗。(所有統計數據收集自英特爾的公開資料。)
表 1:使用 Arria 10 離散版本的英特爾 Xeon
表 2:分類任務中「集成」版本的吞吐量。表中的結果基於以 224x224x3 作為輸入、1000x1 為輸出的 AlexNet 分類。
Xeon Phi Knights Mill
Xeon Phi 處理器被定義為高性能的通用機器學習應用程序。2017 年最新發布的是使用 Groveport 平台的「Knights Landing」(KNL)。下一代晶元「Knights Mill」將在年末推出,它將具有以下計算功能:單精度達到 13.8TF,VNNI 中達到 27.6TOP。VNNI 通過使用 Int16 輸入來支持 2 倍的每秒浮點計算,並且使用 Int32 輸出可以實現與單精度類似的精度。
圖 2 顯示了使用 MxNet 框架對各種深度模型進行推理速度測試的一些基準結果。與開箱即用的性能相比,它經過硬體級別的優化後,可在 2S Intel Xeon 處理器 E5 2699v4 上實現高達 123 倍的提速。
圖 2:對已優化的英特爾微處理器進行推理測試(本圖來自英特爾)。
英特爾推出 Knight Mill&Groveport 平台來優化訓練性能,該平台在速度、內存以及一致性方面做了整體改進。它具有適於深度學習訓練負荷的高度分布式多節點擴展,能實現高於 KNL 2.5 倍的單精度性能提升。分布式多節點擴展可以越過多達 72 個內核。它具有集成式 16 GB MC DRAM 的高內存帶寬,且具有用於大量人工智慧使用案例的 384GB 的 6 通道 DDR4 存儲能力。本地支持通用的英特爾 Xeon 編程,且該框架已針對開源機器學習框架的行業標準進行了優化,其單精度峰值性能可高達 13.8TF。
據英特爾報告稱,與在 2S 英特爾 Xeon 處理器 E5 2699 v4 中開箱即用的性能相比,它能以優化為基礎,實現高達 340 倍的性能提升用於訓練 TensorFlow 中的 VGG 模型。此外,如圖 3 所示,它可以在英特爾 Xeon Phi 處理器 7250 上實現高達 273 倍的累積加速來訓練 VGG 模型。
圖 3:已優化的英特爾微處理器的累積加速(本圖來自 Intel)。
圖 4 顯示了使用英特爾 Omni Path Fabric 的 GoogleNet v1 擴展至英特爾 Xeon Phi 處理器 7250 中多達 32 個節點集群的訓練時間,圖中表明,最大擴展效率高達 97%。
圖 4:擴展訓練時間。X 軸:節點集群的數量,Y 軸:小時數(本圖來自英特爾)。
軟體及工具
軟體也是英特爾人工智慧計算基礎的重要組成部分。圖 5 顯示了英特爾在深度學習/機器學習環境中所開發的軟體庫以及工具。
圖 5:英特爾的深度學習軟體及工具(本圖來自英特爾)。
很明顯,英特爾正試圖為深度學習/人工智慧產品構建完整的計算基礎。它的深度學習平台不僅支持所有主流的開源深度學習庫,而且專為快速充電的深度神經網路提供了更優的數學內核庫 MKL-DNN。我們把這樣的庫看作計算原語(computational primitive),但英特爾的機器學習擴展庫作為通信原語使用。
最近英特爾的研究團隊在 FPGA"17 會議上發表了一篇名為「FPGA 在下一代深度神經網路的加速中能否勝過 GPU」的論文,該論文對基於英特爾 FPGA 產品 Arria 10 和 Stratix 10 加速深度學習模型的性能提升進行了深入實驗,並相交於目前英偉達的 TitanX Pascal GPU 做出了評估。結果表明,用於深度學習時,英特爾的 FPGA 解決方案與最先進的 GPU 處理器相比更具競爭力。
※重磅|自動駕駛計算機視覺研究綜述:難題、數據集與前沿成果
※資源|生成對抗網路及其變體的論文匯總
※三張圖讀懂機器學習:基本概念、五大流派與九種常見演算法
※微軟RobustFill:無需編程語言,神經網路自動生成程序
※採訪完Jessica,我們重新認識了《降臨》里語言學家的世界
TAG:機器之心 |
※「馬克思主義國際研究:理論與實踐」學術研討會綜述
※綜述:美國多舉措力保人工智慧「領頭羊」地位
※學界 | 同濟大學綜述論文:基於深度生成模型的藥物研發
※深度綜述:「人工智慧+醫療」的實施現狀與未來發展
※「特朗普現象與重新認識美國」學術研討會綜述
※綜述:中美科學家呼籲加強基礎科學合作
※人工智慧技術在美軍情報分析和指揮決策領域的應用綜述
※同濟大學綜述論文:基於深度生成模型的藥物研發
※學界 | 綜述論文:四大類深度遷移學習
※「中原與北方早期青銅文化互動」學術研討會綜述
※上海生科院周斌發表重磅研究綜述,闡述心血管領域的進展
※海信IFA展會綜述:顯示技術與人工智慧成關鍵點
※科普巨擘 科幻傳奇 研究先鋒(上)——葉永烈科普科幻創作綜述
※研究人員發表中紅外金屬鹵化物非線性光學材料研究綜述
※《新英格蘭醫學雜誌》綜述:基因治療
※「文藝評論價值體系建設與文化符號學」國際學術研討會會議綜述
※「金磚國家與全球傳播秩序重構」學術研討會綜述
※綜述論文:四大類深度遷移學習
※深度學習文本分類方法綜述
※中國古代北方民族歷史與考古系列學術研討會綜述