英偉達Simon See:揭秘增加AI晶元能效的兩大法寶
3月9日,由智東西主辦,極果和AWE聯合舉辦的中國首場AI晶元峰會在上海浦東成功舉辦。本次大會共吸引近萬名觀眾參加,到場人數比預計翻了3倍。即使是下午場,依然爆滿,有的觀眾寧願站著也要聽完全場。在大會現場,近40位人工智慧及AI晶元業界翹楚共聚一堂,系統地探討了AI晶元在2018年的技術前景和產業趨勢。
在上午場的演講中,晶元巨頭英偉達AI技術中心亞太首席技術官Simon See博士發表了主題為《端到端的AI計算》的演講,深入探討了深度學習在越來越多的行業中落地應用的同時,數據量也隨之增加,由此對於AI晶元的打造者來說帶來了不少新挑戰;此外,Simon See博士還詳細解讀了兩種壓縮神經網路、增加晶元效率的方法:降低計算精度與剪枝網路(Purne)。
以下為Simon See博士演講的要點精析。
AI行業應用大幅鋪開,催生各類新興AI晶元
Simon See博士首先介紹道,從2012年的ImageNet比賽開始,深度神經網路開始逐漸走進人們的的視線當中,並從此之後一直不斷發展,以圖像分類為首的深度學習應用準確度越來越高、性能越來越強、應用領域也越來越廣。
基於這些技術,又逐漸衍生出來基於圖像的物體檢測、場景檢測、風格檢測等不同能力,併產生出智慧城市、智能醫療、安防監控等不同行業應用。
由於AI的廣泛鋪開,也催生了目前市場上一大批新興AI晶元創業公司的出現。PPT里的大多是國外代表公司,中國也差不多有幾十家公司在研發新型AI晶元。
深度神經網路日趨複雜,對晶元要求增加
那麼為什麼會需要這種晶元呢?第一我們需要看到演算法。剛剛魏老師也說過,這個演算法一直在改變,無論是CNN、DNN、GANs,還有其他Deep Q-Learning,尤其是用在AlphaGo這方面。
這些種種AI晶元興起的另一個原因,則是AI對於算力要求的不斷提升。在2014年的時候,10層神經網路的計算就需要30多個GPU;而AlphaGo的第一個版本(不是最新那個AlphaZero),在訓練時則需要50個GPU訓練超過三個星期才能做到。
而在這期間,CNN、RNN、GANs、Deep Q-Learning等演算法不斷變得複雜,更是對深度學習計算硬體提出了新挑戰。與2015年相比,翻譯神經網路的複雜度提高了10倍;與2014年相比,語音神經網路的複雜度提高了30倍;而與2012年相比,圖像深度神經網路的複雜度則提高了350倍。
除了深度神經網路日趨複雜之外,數據量也在不斷增加。舉個例子,一個採集225×225圖像、採用ResNet-50網路的無人駕駛車的攝像頭需要230Gops/30fps的計算量,需要運行77.2億次計算。而一台無人車需要12-24個攝像頭,其計算量以指數級增加。
以上種種原因,使得AI對於硬體計算的要求越來越高。不過如果我們仔細研究神經網路,就會發現深度學習中的基本處理是最簡單的矩陣運算,如果你可以把他們全部都放在一起的,你就可以高度並行化地計算。而最早由圖像處理起家的英偉達,其GPU晶元設計本就是為了矩陣運算而生的,隨後英偉達又在GPU中加入了深度學習相關加速。
神經網路壓縮的兩大發展方向
神經網路的壓縮與簡化則是一個學術界與工程界都在研究討論的重要問題。目前的深度神經網路普遍較大,無論是在雲端還是在終端,都會影響網路速度,增大功耗。
在演講中,Simon See博士提到了優化AI晶元效率的這兩大方向:一個是降低計算精度。圖中不同精度的數值的計算功耗,可以看到精度越高、功耗越大。為此,英偉達推出TensorRT,它是一款可編程推理加速器,能加速現有和未來的網路架構,包含一個為優化在生產環境中部署的深度學習模型而創建的庫,可獲取經過訓練的神經網路(32位或16位的數字),並通過降低精度來優化網路運算。
此外,還可以通過網路來進行網路剪枝(Purne),先構造好整個演算法網路,然後再嘗試消除多餘的節點,壓縮網路大小。
結語:從雲到端、從硬到軟
在演講中,Simon See博士對於AI晶元保持著十分積極的態度,他認為,從交通到健康,越來越多的行業開始擁抱AI;而隨著數據量的激增,AI晶元也變得越來越重要。
不過,由於AI晶元仍屬於一個技術早期的前沿科技產品,在有了晶元硬體之後,配套的軟體生態(如編譯器器、模擬器、開發者套件等)也需要配合跟上,打造從雲到端、從硬到軟的AI環境。
※被忽視的安防肥肉:觸景無限給傻瓜攝像頭安裝嵌入式AI板卡
※AI晶元華山論劍!26位大咖演講乾貨全在這
TAG:智東西 |