當前位置:
首頁 > 知識 > 廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽

廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽

機器之心原創

作者:路

內存單元可以執行計算嗎?物理學與深度學習會碰撞出哪些火花?本文將介紹 Qualcomm AI Research 的最新 AI 研究成果。

自 2007 年啟動首個 AI 項目之後,高通(Qualcomm)在人工智慧研發方面取得了很多進展。2018 年 5 月,高通成立 Qualcomm AI Research,進一步強化整合公司內部對前沿人工智慧研究。現在,高通不僅是一家移動通信公司,更是人工智慧領域的重要玩家。

那麼,在人工智慧基礎研發方面,高通做了哪些事情呢?高通技術工程高級總監、AI 研發負責人侯紀磊在近期舉行的高通人工智慧開放日上對此進行了介紹。

侯紀磊博士強調,針對 AI 和深度學習應用,Qualcomm AI Research 更加著重打造平台式創新,推動人工智慧在行業實現高效、規模化的應用,這主要體現在三個方面:能效、個性化和高效學習。

本文主要介紹了高通在能效和高效學習方面的研究進展,其中高效學習主要涉及結合物理學和深度學習創建的新型 CNN 模型——規範等變卷積神經網路(G-CNN)。

能效(power efficiency)

能效,即使應用能夠實時、低功耗、流暢地進行推理。隨著神經網路規模越來越大,它們所需的內存、計算量和能源也越來越多。如何提高能效,尤其是在終端側實現高能效是高通一直以來的研究方向。

侯紀磊博士介紹道,高通通過自動化技術,利用 AI 技術來優化 AI 模型 。比如將谷歌 AutoML 的概念引入壓縮、量化和編譯場景,結合硬體感知(hardware-aware)實現高能效。

高通在高能效 AI 計算方面的研究主要圍繞四個方向展開:神經網路壓縮、神經網路量化、內核優化和內存計算。

內存計算:有潛力、重要的 AI 加速計算髮展方向

針對內存和計算核心之間數據傳輸時所產生的能耗和計算成本,高通在進行一項革命性的試驗研究:把內存單元與計算單元重疊,在內存單元中引入計算功能,將傳統的計算架構進行重要的轉變,從而大幅提升能效。

侯紀磊博士在演講中強調,「內存計算」是未來有潛力、重要的AI加速計算髮展方向。

那麼,內存計算是如何實現的呢?

「存儲單元實際上都是通過半導體二極體來實現的。簡單來說,存儲單元(memory cell)是內存最基本的存儲單位。一個常見的存儲單元裡面有 6 個晶體管,也就是我們說的 6T 存儲單元。現在為了做內存計算,我們可以在 6T 存儲單元原有的 6 個晶體管之外再額外增加晶體管,通過新加晶體管來實現乘法或者是累積(accumulation)。不管是卷積還是其他模型,講到最後其本質就是乘法和加法,乘法在某種意義上也可以用加法來完成。如果在存儲單元中可以增加新的晶體管,那麼很多運算功能就可以在存儲單元里實現,這相當於把原來的存儲單元從純粹的存儲功能演進成既具有存儲又具有運算的功能。而這需要重新設計硬體。」侯紀磊博士介紹道。

神經網路壓縮和量化

神經網路壓縮和量化是降低計算時間和能耗的重要手段。

據介紹,高通目前考慮的壓縮方法包括張量分解和通道簡化。高通技術副總裁、全球知名深度學習學者韋靈思教授(Max Welling)在通道簡化方面創造性地引入了貝葉斯方法,即貝葉斯通道剪枝,在壓縮領域實現了很好的效果。高通將兩種方法結合起來,組合使用貝葉斯壓縮和空間奇異值分解(SVD),相比於基線模型,該方法實現了 3 倍的壓縮比,同時準確率降低小於 1%。

而模型量化有兩個方向:一個是對模型進行重新訓練的量化,另一個是不需要對模型重新訓練的量化。侯紀磊博士表示高通在兩個方向上都進行了相關研究。

關於後者,高通已經取得了一定成果。將模型從 32 位浮點到 8 位定點量化後,可實現幾乎相同的準確率,每瓦特性能提升超過四倍。在使用 MobileNetV2 系列網路進行分類或分割之類的任務時,如果只是做一個「所見即所得」的簡單量化,量化後的模型準確率會很差;但在不需要重新訓練的情況下通過data free quantization(DFQ)的方式進行量化,量化後的模型可以取得非常好的效果,達到和32位浮點幾乎相同的準確率。這將為生態鏈中廣泛客戶的量化需求提供強有力的支持。

而關於需要重新訓練的模型,侯紀磊博士表示,高通已有兩篇相關論文 [4, 5] 被 ICLR 2019 接收,其中 [4] 介紹了在訓練階段進行模型量化的新方法,[5] 使用的方法是對梯度反向傳播做優化。

內核優化

在內核優化方面,侯紀磊博士介紹了一個新的概念—— AI 優化代理(AI Agent):取出神經網路的某一層(如卷積層),要想使它在硬體層面上獲得最好的時延指標,需要依賴 data locality,使數據盡量在計算單元本地反覆使用,以降低功耗和計算成本。為了達到 data locality 的目標,則需要通過對圖塊大小重排序,展開並行化、向量化,從排列組合的角度找到最優的組合。

針對此,高通提出了面向自動化硬體編譯的強化學習和貝葉斯優化方法,可以應對數十億種潛在組合,從中找出相對最優解。

貝葉斯優化是一種近似逼近的方法。如果說我們不知道某個函數具體是什麼,那麼可能就會使用一些已知的先驗知識逼近或猜測該函數是什麼,這正是後驗概率的核心思想。貝葉斯優化可以簡單理解為黑箱的數據驅動技術,在搜索空間很大且每個樣本的效果評估成本很高的情況下,貝葉斯優化是非常高效的方法,因為它的樣本效率優於強化學習。

侯紀磊博士表示,高通和阿姆斯特丹大學共同建立的戰略合作實驗室 QUVA Lab 在貝葉斯優化上有很好的技術積累,發表了很多重要論文。高通把他們的技術引進公司內部放到內核優化這一問題上,並開展進一步的研發工作。

「總體來看,高通的 AI 研發有兩個重要的特點。第一,我們更側重於與硬體相關度更高的AI或機器學習。第二,我們非常關注終端側的用例,當然現在我們在雲端也有發力。我們正通過 AI 和數據驅動的方式,讓驍龍計算平台以及各個子系統有更好的性能、能效和用戶體驗,這是我們非常重要的方向。」

物理學和深度學習的碰撞

目前的深度學習技術能夠很好地分析 2D 數據,但是我們如何教會機器理解曲面物體的圖像數據呢?尤其是在終端側執行數據處理過程的情況。

高通技術副總裁韋靈思教授和另一位高通 AI 研究科學家 Taco Cohen 將廣義相對論和量子場論的數學原理應用於深度學習,提出了一種新型卷積神經網路:規範等變卷積神經網路(Gauge Equivariant CNN,G-CNN)。該模型可接受幾乎所有曲面物體數據,並將新型卷積應用其中。

侯紀磊博士詳細地介紹了 G-CNN 的原理和提出過程:

CNN 的平移不變性(shift invariance)使得它可以處理目標平移後的圖像,輸出結果與平移之前一致。比如一個小貓小狗出現在圖像上,不管它出現在圖像的任意位置,CNN 模型都能夠把它抓取並識別出來。然而 CNN 缺乏旋轉不變性(rotation invariance),即如果我們將小貓小狗的圖像旋轉一個角度,CNN 模型是無法有效識別出來的。

儘管 CNN 本身無法做到旋轉圖像的識別,但研究者可以通過數據增強方法來做到這一點。比如,在模型訓練過程中將圖像旋轉很多角度,使目標映射時能夠將旋轉後的圖像映射到原來的圖像上面。但這個方法存在兩個問題:一,需要大量的數據增強,導致訓練效率非常低;第二,即使做了數據增強,但數據增強的範圍是有限的,因此還存在著很多角度的死角。

針對旋轉不變性問題,高通 AI研發團隊的頂級學者——韋靈思教授以及 Taco Cohen 提出了一系列解決方法。

第一步:在平面上引進一個初步泛化的 CNN——即組等變 CNN(Group Equivariant CNN)[3],來解決平面上的二維旋轉問題。

第二步:在二維旋轉不變性解決以後,韋靈思教授和 Taco 又提出了球面 CNN(Spherical CNN)[1],用於解決三維的旋轉不變性問題,比如說在球面性物體或者三維 CT 圖像上的旋轉問題。相關研究《Spherical CNNs》獲得了機器學習頂會 ICLR 2018 的最佳論文獎。

第三步:球面 CNN 的旋轉不變性必須具備在給定空間內的整體對稱性(global symmetry),這對應於物理學中通常所指的時空不變性。因此韋靈思教授和 Taco 緊接著提出針對局域對稱性(local symmetry)的 G-CNN(規範等變 CNN,Gauge Equivariant CNN)[2]。

那麼局域對稱性跟整體對稱性有什麼不同呢?

簡單地說,19 世紀、20 世紀的物理學演進,從一定程度上可以理解為是從整體對稱性到局域對稱性的變化。狹義相對論可以理解成在整體對稱性框架之下的理論,例如電場跟磁場的等價性是時空不變的。但到了廣義相對論的時候,時空不變性已經不適用了,時空是彎曲的,很多時候對稱性只能是在局域上的一種屬性。將這樣的對應關係放在神經網路的場景里,如果一個三維物體是球狀的,那麼它就具備了球狀旋轉的整體對稱性,這個時候球面 CNN 模型是可行的;一旦這個三維物體不具備這種整體對稱性,而是一個尼曼三維任意曲面的時候,我們就必須通過規範等變 CNN 的方法來實現局部的旋轉等變性。

與球面 CNN 模型相比,規範等變 CNN 模型的最大優勢在於,它擺脫了前一種模型對於整體對稱性的假設,只要在局域上近似地具備對稱性,它就可以將廣義相對論規範場論(gauge theory)的數學工具及相應結論借用到這裡來。

「需要強調的是,規範等變 CNN 為幾何深度學習(Geometric DL)這一重要方向提供了合適的理論框架。」侯紀磊博士表示。

在流形 M 上定義卷積運算,使其對局域規範變換保持不變性 [2]。

基礎研究、應用研究兩手抓

Qualcomm AI Research 成立將近一年。據了解,其研發方向從平台式創新,即用 AI 的方法使 AI 更有效,轉向了全方位、全頻譜的 AI 研究,在基礎研究跟應用研究之間進行很好的平衡。因此高通在基礎研究上有了更多的投入,比如貝葉斯深度學習、幾何深度學習(G-CNN)、深度生成模型,以及一些新方向(無監督學習、圖 CNN、貝葉斯優化等)。

而在應用研究方面,高通的 AI 技術已經應用於手機、物聯網、汽車行業等多個領域。以自動駕駛為例,侯紀磊博士介紹了 AI 技術與自動駕駛具體產品線之間的結合。他表示從技術角度來看,目前 L2、L3、L4 級別的項目側重點有所不同。

L2 級別:無論是高通正在做的工作還是從合作方的角度,L2 項目更多處於成本優化階段,大家都希望能夠在高性價比的平台上承載更多運算功能。

L3 級別:高通目前做了大量的原型系統工作。在今年的 CES 大會上高通公布了這方面的新動態,高通開發了原型車系統,並通過路測進一步優化技術,原型車在路上獲得的數據可以幫助高通在晶元研發層面定義具體的規格參數,比如計算能力、與攝像頭和感測器對接需要什麼樣的界面等等。

從 L4、L5 的角度來看,高通認為將來如果要純粹依靠汽車自身的被動感測來實現任何時間、任何地點的自動駕駛,在很多時候會有很多極端情況是難以支持的。因此,高通認為 C-V2X 將是一項重要的技術。跟車載攝像頭相比,C-V2X 在一定程度上可以認為是一種主動感測,通過車和車之間的主動通信,即使其他車輛在視距之外,或者在天氣非常槽糕的情況下,司機依然可以通過 C-V2X 技術來獲知其他車輛處在周圍的什麼位置。從安全性的角度來看,L4、L5 要做到任何地方、任何時間都能夠安全穩定的自動駕駛,C-V2X 是一項非常重要的技術。侯紀磊博士表示,這是高通一直在業界推動的理念,也是從技術和產品路線上一直推動的重要方向。

而關於自動駕駛領域討論已久的激光雷達問題,侯紀磊博士表示:「不同晶元廠商的定位可能不太一樣。對於主流廠商來說,一套從計算到感測器都包含在內的模組,他們在每一輛車上能夠接受的成本範圍可能是在人民幣 2000—3000 元左右,這一成本範圍基本已經把激光雷達排除在外了。這種情況下,要做到 L3 級,無論是高速自動駕駛或者低速自動停車,我相信做好攝像頭跟雷達之間的融合可能會是更加直接的方式,這也是高通從技術演進路線來看更加著重投入的一個方向。」

目前,高通已經與阿姆斯特丹大學開展戰略合作,共建了 QUVA 實驗室,專註於發展面向移動領域和計算機視覺的先進機器學習技術。侯紀磊博士表示,Qualcomm AI Research 將不斷加強與大學之間的合作,將高通與阿姆斯特丹大學的戰略合作模式拓展到全球其它國家和地區。

參考文獻

[1] Cohen, T. S., Geiger, M., Koehler, J., and Welling, M. Spherical CNNs. In ICLR, 2018.

[2] Cohen, T. S., Weiler, M., Kicanaoglu, B., and Welling, M. Gauge Equivariant Convolutional Networks and the Icosahedral CNN. In ICML 2019.

[3] Cohen, T. S. and Welling, M. Group equivariant convolutional networks. In ICML, 2016.

[4] Louizos, C., Reisser, M., Blankevoort, T., Gavves E., and Welling, M. Relaxed Quantization for Discretized Neural Networks. In ICLR, 2019.

[5] Yin, P., Lyu, J., Zhang, S., Osher, S., Qi, Y., and Xin, J. Understanding Straight-Through Estimator in Training Activation Quantized Neural Nets. In ICLR, 2019.

本文為機器之心原創,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

寒武紀二代晶元發布在即,提前揭秘如何挑戰英偉達!
喬布斯十年前預言:Intel的十年之約已到,ARM將挑起大梁

TAG:機器之心 |