當前位置:
首頁 > 新聞 > Caffe2在CPU上的性能檢測:將實現最優的推理性能

Caffe2在CPU上的性能檢測:將實現最優的推理性能

選自 Intel Blog

作者:Andres Rodriguez、Niveditha Sundaram


Caffe2 作為 Caffe 重構出的深度學習框架,一經發布便引起了業內極大的關注。機器之心也對 Caffe2 進行了跟蹤報道。昨日,英偉達的一篇技術博客讓我們了解 Caffe2 結合 GPU 帶來的性能提升。這篇文章對 Caffe2 在 CPU 的支持下帶來的性能改進進行了介紹,希望能為大家應用該框架提供幫助。

Caffe2在CPU上的性能檢測:將實現最優的推理性能

每一天,在世界的各個角落都在產生越來越多的信息——文本、圖片、視頻等等。為了能讓人們更好地理解這些信息,近幾年,人工智慧和深度學習已經參與進來,改進了部分一流的語音識別、圖片/視頻識別以及搜索推薦的應用。

大多數深度學習工作負載同時包含訓練和推理。其中,訓練通常需要幾個小時或幾天才能完成,而推理通常需要幾毫秒或幾秒,並且通常是更大流程的一個步驟。雖然推理的計算強度遠低於訓練,但推理經常涉及更大的數據集。因此,與推理所需的計算資源總量相比,訓練所需的計算資源總量相形見絀。值得指出的是,絕大多數推理工作負載都運行在英特爾至強(Xeon)處理器上。

為了針對各種訓練和推理應用進行優化,去年,英特爾在幾個深度學習框架上都迅速增加了 CPU 的支持。這些優化最核心的一項是英特爾數學核心函數庫(英特爾 MKL),它使用英特爾高級矢量擴展 CPU 指令集(例如英特爾 AVX-512),更好地支持深度學習應用。

說到 Caffe2,它實際上是 Facebook 開發的一個開源深度學習框架,其在開發時就充分考慮到了表達、速度和模塊化。Caffe2 旨在幫助研究人員訓練大型機器學習模型,並在移動設備上提供人工智慧。如今,開發者可以用許多相同的工具,讓它們運行大規模分布式訓練場景,並為移動設備開發機器學習應用。

英特爾和 Facebook 正在進行合作,把英特爾 MKL 函數集成與 Caffe2 結合,以在 CPU 上實現最優的推理性能。表 1 顯示了在 AlexNet 上採用了英特爾 MKL 函數庫和 Eigen BLAS 函數庫進行壓縮的推理性能。在這個表中,OMP_NUM_THREADS 表示這些工作負載中使用的物理核心數量(詳情見表格說明)。這些結果顯示,Caffe2 在 CPU 上進行了高度優化,並提供有競爭力的性能。對於小型批處理推理工作負載,建議在每個 CPU 核心上運行一個工作負載,並並行運行多個工作負載,每個核心一個工作負載。

Caffe2在CPU上的性能檢測:將實現最優的推理性能

表 1:Caffe2 上採用了 AlexNet 拓撲以及英特爾 MKL 和 Eigen BLAS 的性能結果。試驗採用了英特爾至強處理器 E5-2699 v4(代號 Broadwell,2.20GHz,雙插槽)、每個插槽 22 個物理核心(兩個插槽上總計 44 個物理核心),122GB RAM DDR4,2133 MHz,禁用超線程,Linux 3.10.0-514.2.2.el7.x86_64 CentOS 7.3.1611,英特爾 MKL 20170209 版,Eigen BLAS 3.3.2 版,基於截至 2017 年 4 月 18 日的 Caffe2。

安裝和使用使用 Caffe2 的說明見 http://Caffe2.ai。

今年下半年,新一代英特爾至強處理器(代號 Skylake)將全面上市。Skylake 引入了 512 位寬混合乘加運算(FMA)指令集,作為更大的 512 位寬矢量引擎——也就是英特爾 AVX-512——的一部分。這意味著在訓練和推理工作負載上能夠提供比 Haswell/Broadwell 處理器中之前的 256 位寬 AVX2 指令集更高的性能。512 位款 FMA 讓 Skylake 可以提供兩倍的浮點運算能力,並大幅加快了卷積和遞歸神經網路中使用的單精度矩陣演算法。推理工作負載是高度並行化的,並且它將受益於 Skylake 提供的更多核心。此外,Skylake CPUs 擁有重新架構的存儲子系統,支持更高速系統內存和每個核心更大的中層緩存(MLC),它還有助於提升當前一代 CPU 的性能,並大幅加強已安裝四年的舊系統。

作者簡介

Andres Rodriguez 博士是英特爾人工智慧產品事業部(AIPG)的高級首席工程師,為英特爾的客戶設計深度學習解決方案,並領導英特爾的所有深度學習產品。他在人工智慧領域擁有 13 年的經驗。Andres 在卡內基梅隆大學憑藉機器學習領域的科研工作成果獲得博士學位。他在期刊和會議上發表了 20 多篇同行評議的文章,並曾撰寫有關機器學習的圖書章節。

Niv Sundaram 博士是英特爾數據中心工程事業部(DEG)的工程總監,聚焦於當前和新興工作負載的性能和電源優化。她領導團隊與英特爾的客戶一起為數據中心確定深度學習/機器學習和增強/虛擬/混合現實工作負載的特徵。Niv 擁有威斯康星大學麥迪遜分校的電氣工程博士學位,並獲得過一項專利,發表過數篇同行評議文章。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

採訪完Jessica,我們重新認識了《降臨》里語言學家的世界
賈揚清撰文詳解Caffe2:從強大的新能力到入門上手教程
Hinton「神經網路與機器學習」課程經驗與簡評
論文導讀:從強化學習到進化策略
論文推薦:2017頂會CVPR、EACL和ICLR的優秀論文

TAG:機器之心 |

您可能感興趣

Linux系統CPU的性能監控及調優
索尼XZ Premium性能測試:整體性能優秀 UI需加強
Synopsys的完整CCIX IP解決方案支持高性能雲計算SoC實現緩存一致性
Lua的CPU開銷性能優化
性能暴增,Intel Coffee Lake處理器性能提升幅度曝光
RX Vega性能提升依靠的是IPC還是頻率?HBCC有用嗎?
Intel:推18核Core i9並非AMD壓力,一直在提升性能
Intel:推18核心的i9並非AMD壓力,一直在提升性能
Intel目前最強CPU竟是它!性能測試:良心
真的能原生4K?Xbox One X實際性能測試!
Infinidat發布對比測試數據,其HFA性能比Pure和EMC的AFA都好,但是……
《iOS APP 性能檢測》
DeepLearning4j 實戰:手寫體數字識別的 GPU 實現與性能對比
ApiTestEngine 集成 Locust 實現更好的性能測試體驗
iPhone 8P和7P性能測試對比 結果很意外
魅族PRO 7/PRO 7 Plus評測:性能優秀、畫屏實用!唯一缺點就是性價比不高?
最強性能 拍照!iPhone 8P評測:依然好用
內存大、SSD誰最能提升PC性能?實測意外
WebView性能、體驗分析與優化