第一個手機端分布式深度學習系統,設計自動化頂會 DATE 最佳論文
新智元報道
DATE——Design, Automation and Test in Europe,是歐洲最大的設計自動化會議。DATE 彙集的人群從研究者、開放商到終端用戶,幾乎覆蓋了整個生態。具體說,設計師和設計自動化的用戶、研究人員和供應商,以及電子電路和系統的軟硬設計、測試和製造的專家。此外,DATE 非常強調 IC/SoC,可重配置硬體,還有嵌入式系統。
2017 年的 DATE 本月 27 號在瑞士洛桑揭幕。在為期 5 天的會議中,除了常規的主旨演講、論文發表、講座和研討會,還有一個商業展出,展示的內容包括最先進的設計和測試工具、方法、IP 以及設計服務,還有可重構和其他的硬體平台,比如汽車、無線、電信和多媒體應用。可以說,相比其他頂會,DATE 的內容可能與我們的生活關係更為密切。
每屆頂會的論文都代表了領域「熱門研究方向」、「最新研究方法」,其中尤屬最佳論文值得關注。2017 年 DATE 評選出了 4 篇最佳論文,設計(D Track)、應用(A Track)、測試(T Track)和嵌入式軟體(E Track)四個分類各一篇。其中,2017 年 DATE 嵌入式軟體 E Track 的最佳論文獎被授予了杜克大學陳怡然教授組關於移動平台深度學習計算的文章——《MoDNN:用於深度神經網路的本地分布式移動計算系統》。
*投稿時陳怡然教授尚在匹茲堡大學,今年初已轉到杜克大學工作
在這篇論文中,研究人員提出了一個可以通過無線區域網(WLAN)工作的深度神經網路(DNN)的本地分布式移動計算系統,叫做 MoDNN。MoDNN 可以通過在多個移動設備之間引入執行的並行性,顯著加速 DNN 的計算。
DNN 的應用越來越廣,不僅是在大型的數據中心,現在,有些智能手機的功能也強大到能運行某些深度學習,舉幾個常見的例子,過濾掉麥克風裡的雜音,或者刪除加速計採集的數據里不必要的信號。
深度學習可以大幅提升手機 App 的性能,讓智能手機變得更加「智能」。這一切的基礎,就是在移動端也能運行 DNN。
研究人員表示,「據們所知,本文是第一篇利用WLAN中的各種移動設備作為DNN計算資源的論文,在執行並行性增強和數據傳輸方面有多項創新」。
下面我們就來具體看一下陳怡然教授組的這項研究成果。
論文 MoDNN:用於深度神經網路的本地分布式移動計算系統
作者:毛駕臣、陳翔、Kent W. Nixon、Christopher Krieger,陳怡然
摘要
雖然深層神經網路(DNN)在許多應用中被廣泛使用,但是通常難以在資源受限的設備(例如移動平台)上部署DNN。一些現有的嘗試主要集中在客戶端 - 伺服器計算模式或DNN壓縮模型中,這需要基礎設施的支撐或專門的訓練。本文提出了MoDNN——一個用於DNN應用的本地分布式移動計算系統。MoDNN 可以將已訓練的DNN模型分割到多個移動設備上,減輕設備級計算成本和內存使用,從而加速DNN計算。我們還設計了兩種模型分區方案以最小化非並行數據的傳遞時間,包括喚醒時間和傳輸時間。實驗結果表明,當工作節點數從2增加到4時,MoDNN可以加速DNN計算2.17-4.28×。除了並行執行之外,性能加速也部分來自於數據傳送時間的減少,例如對於傳統2D網格分區,減少了30.02%。
背景介紹
移動網路日益增長的帶寬激發了移動設備上多媒體互動式應用的快速增長,這涉及密集的對象識別和分類任務。深度神經網路(DNN)由於其高精度和自適應性而被廣泛地用於執行這些任務。然而,DNN的運行會佔用相當大的資源。一個代表性的例子是VGG,它代表了2014年 ImageNet 大規模視覺識別挑戰(ILSVRC14)的最先進性能。VGG具有15M的神經元、144M的參數和3.4B的連接。當部署在移動設備時,VGG花費大約16秒來完成一個圖像的識別過程,這在實踐中是不可容忍的。
DNN的巨大計算負載和移動設備的有限計算資源之間的鴻溝對用戶體驗產生了不利影響,並催生了一些研究工作來填補這一鴻溝。例如,客戶端 - 伺服器模式是一種直接的解決方案,可以有效地將高計算成本卸載到外部基礎設施上:Hauswald etal.(2014) 提出了一種流水線機器學習結構中的數據卸載方案; Li et al.(2014) 建立了DNN訓練的高效分布式參數伺服器框架。此外,也有許多研究致力於減少DNN的計算工作量,例如模型壓縮:Han et al.(2015)使用三級流水線深度壓縮DNN模型:剪枝,受訓量化和霍夫曼編碼;Chen et al(2015)引入了低成本哈希函數將權重分組到哈希桶中以用於參數共享。
我們發現,有一個重要的場景,在以前的研究中還沒有充分考察。那就是,在本地分布式移動計算系統上運行DNN。與由外部基礎設施支持單個移動設備的客戶端 - 伺服器模式相比,本地分布式移動計算系統有幾個重要的優勢,包括更多的本地計算資源、更高的隱私、對網路帶寬更少的依賴等等。
這篇論文的主要貢獻是:
調查了使用多個授權的、支持WiFi的、用於DNN計算的移動設備在WLAN中構建計算集群的方法。攜帶了測試數據(例如圖像)的移動設備充當 Group Owner(GO),其他設備充當工作節點;
基於兩類DNN層的特性(卷積層和完全連接層)和不同移動設備的計算能力,提出兩種分區方案以最小化移動設備之間的數據傳送時間;
在計算集群中的每個移動設備上使用中間件來調度整個執行過程。
據我們所知,本文是第一篇利用 WLAN 中的各種移動設備作為DNN計算資源的論文,在執行並行性增強和數據傳輸方面有多項創新」。實驗結果表明,當工作節點數從2增加到4時,由於實現了高執行並行性,以及數據傳輸時間顯著減少,MoDNN可以加速DNN計算2.17-4.28X。
MoDNN的系統框架
圖1是MoDNN的系統框架概述,包括三個主要組件:
1)由GO和多個工作節點形成的本地分布式網路集群;
2)將DNN模型分割到工作節點上的模型處理器;
3)執行DNN的數據傳遞和識別服務的中間件。
圖1
我們注意到卷積層(CL)的計算成本主要取決於其輸入大小。因此,我們引入了Biased One-Dimensional Partition (BODP)的方案來劃分CL。相反,完全連接層(FL)的內存使用主要由層中的權重數量決定。鑒於此,專門針對稀疏FL引入了由Modified Spectral Co-Clustering (MSCC)和Fine-Grain CrossPartition(FGCP)組成的權重分割方案。值得注意的是,一旦DNN被訓練,DNN模型分區只需要在應用程序中執行一次。因此,只要訓練的DNN保持相同,分區成本可以由系統的執行來分攤。
更多關於系統實現和實驗設置的技術細節,請查閱論文。
結語
在這篇論文中,作者提出了 MoDNN 本地分布式移動計算系統,以實現 DNN 在移動平台上的並行計算。由於卷積層和完全連接層被認為是影響總體執行時間的主要DNN組件,因此作者提出了幾種高級分區方案,即 BODP、MSCC 和 FGCP,以平衡每個工作節點的工作負載,最小化數據傳送時間。實驗表明,在DNN計算上,MoDNN 比線性性能加速表現更好,展現了DNN應用中移動平台的巨大潛力。
【進入新智元公眾號,在對話框輸入「170328」下載論文】
3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。
點擊閱讀原文,查閱文字版大會實錄
※宋繼強詳解英特爾AI戰略布局,三大引以為豪的技術優勢|新智元峰會演講PPT
※「獨家」百度朱凱華:智能搜索和對話式OS最新技術全面解讀(65PPT)
※貓狗大戰識別準確率直衝 Kaggle Top 2%,手把手教你在 Keras 搭建深度 CNN
※「乾貨」蘋果 AI 負責人 Russ Salakhutdinov 最新演講:深度生成模型定量評估(56 PPT)
TAG:新智元 |
※IBM發布新型分散式深度學習系統:結合軟硬體實現當前最優性能
※IBM聯合NVIDIA開發最快的商用深度學習系統
※從傳統 CAD 到深度學習驅動的影像系統:智能醫療落地三大技術挑戰
※蘋果 APFS 檔案系統專門為 SSD 最佳化,不相容傳統機械硬碟
※面向TDD系統手機的SAW濾波器的技術動向
※DARPA探索自主飛行控制系統技術
※蘋果APFS文件系統專門為SSD優化,不兼容機械硬碟
※ADAM-HVSD彈炮結合防空武器系統
※語音識別技術發展多年 VR系統的人機交互進階
※一種基於雙DSP的高精度AD採集系統
※美國DARPA與英國BAE系統公司合作推出RADICS計劃
※用 NMAP 探測操作系統
※「限時特供」HONMA PS 鐵木杆,更精密的角度調整系統!
※清華計算機系舒繼武 CCF-ADL 講習班下篇:持久性內存存儲系統的研究與挑戰
※VR系統的人機交互進階-語音篇
※重磅新品:SRAM發布全新 GX EAGLE 傳動系統
※NASA測試新型推進系統,速度秒掉旅行者號
※PHP文件系統管理
※新技術操控CRISPR基因編輯系統