深度學習卡住了
作者簡介:William Vorhies是DataScienceCentral的編輯主任,曾擔任Data-Magnum公司的總裁兼首席數據科學家和EB5C公司的總裁。
深度學習的下一站是什麼?去年演算法領域沒有重大的突破。本文對有望在該領域獲得下一大突破的幾種領先技術作了一番調查。
我們被卡住了,或者至少我們處於瓶頸期。誰還記得演算法、晶元或數據處理領域上一次整整一年都沒有重大、顯著的進步是啥時候?幾周前我參加Strata聖何塞大會,卻沒有看到引人注目的新進展,這太不同尋常了。
我之前報道過,我們似乎進入了成熟期,現在我們的主要精力是確保所有強大的新技術很好地協同工作(融合平台),或者從那些大規模的風險投資獲得回報。
並非只有我一人注意到了這個問題。幾位與會者和參展商的看法與我非常相似。有一天我收到了幾位知名研究人員發來的研究紀要,他們一直在評估不同高級分析平台的相對優點,得出的結論是,沒有任何不一樣的地方值得報告。
我們為何卡住?卡在哪裡?
我們現在的處境實際上並非很糟糕。在過去的兩三年,我們取得的進展都在深度學習和強化學習這個領域。深度學習在處理語音、文本、圖像和視頻方面為我們帶來了出色的功能。加上強化學習,我們在遊戲、自動駕駛汽車筆機器人等方面取得了重大進展。
我們現處在基於這些技術的商業爆炸式發展的最初階段,比如通過聊天機器人大大簡化客戶互動、新的個人便利應用(比如個人助理和Alexa),以及私家車中的二級自動化(比如自適應巡航控制、避免事故制動和車道維護)。
Tensorflow、Keras及其他深度學習平台比以往更易於使用,而且得益於GPU,比以往更高效。
然而,已知的一系列缺點根本沒有解決掉。
需要太多標註的訓練數據。
模型需要花太長的時間或太多的昂貴資源來訓練,但仍有可能根本無法訓練。
尤其是節點和層方面的超參數依然很神秘。自動化或甚至被廣泛接受的經驗法則仍遙遙無期。
遷移學習只意味著從複雜遷移到簡單,而不是從一個邏輯系統遷移到另一個邏輯系統。
我確信問題還有更多。我們卡就卡在了解決這些主要的缺點上。
什麼讓我們止步不前?
以深度神經網路(DNN)為例,眼下的傳統觀點認為,如果我們繼續推進、繼續投入,那麼這些缺點就會被克服。比如說,從上世紀80年代到2000年代,我們知道如何使DNN工作,但根本沒有相應的硬體。一旦克服了這個難題,DNN結合新的開源理念就會打破這個新領域的瓶頸。
各種類型的研究都有自己的發展勢頭,尤其是,一旦你往某個特定的方向投入了大量的時間和財力,會一直往這個方向前進。如果你已花費數年來開發這些技能方面的專業知識,不會輕易改弦易轍。
即使並不完全確信什麼是正確的方向,也要改變方向
有時候我們需要改變方向,即使我們並不確切知道新的方向是什麼。最近領先的加拿大和美國AI研究人員就是這麼做的。他們認為自己被誤導了,需要實質上重新開始。
去年秋天,傑弗里?辛頓(Geoffrey Hinton)以實際行動詮釋了這番感悟,他因上世紀80年代在DNN領域的開創性工作而名聲大噪。辛頓現在是多倫多大學名譽教授和谷歌研究員,他表示,現在他對DNN的基礎方法:反向傳播「極其懷疑」。辛頓觀察到人腦不需要所有那些標記的數據就能得出結論,說「我的觀點是,扔掉反向傳播,從頭開始。」
描述的內容有意簡短,無疑會引導您進一步閱讀以求充分理解。
看起來像DNN、但實則不是的技術
有一系列研究力挺辛頓抨擊反向傳播的觀點,認為節點和層的基本結構有用,但連接和計算的方法需要大幅修改。
膠囊網路(CapsNet)
我們先從辛頓自己目前的研究新方向CapsNet開始說起。這與CNN的圖像分類有關;簡單地說,問題是卷積神經網路(CNN)對於對象的姿態(pose)並不敏感。也就是說,如果識別同一對象,但是位置、大小、方向、變形、速度、反射率、色調和紋理等方面有所不同,就需要為這每一種情況添加訓練數據。
在CNN中,這是通過大量增加訓練數據及/或增加可以泛化的最大池化層來處理的,但完全丟失了實際信息。
下列描述來自CapsNets方面眾多出色的技術描述之一,這個來自Hackernoon。
膠囊是一組嵌套的神經層。所以在普通的神經網路中,你不斷增加更多的層。在CapsNet中,你會在一個層裡面添加更多層。或者換句話說,將一個神經層嵌套在另一個神經層裡面。膠囊內神經元的狀態捕獲圖像內一個實體的上述屬性。膠囊輸出一個向量,表示實體的存在。向量的方向代表實體的屬性。該向量被發送給神經網路中所有可能的父節點(parent)。預測向量則通過自身權重和權重矩陣相乘來計算。無論哪個父節點有最大的標量預測向量乘積,都會加大膠囊鍵(capsule bond),其餘父節點減小膠囊鍵。這種採用協議路由機制(routing by agreement)的方法優於當前像最大池化這樣的機制。
CapsNet極大地減小了所需的訓練集,在早期測試中表明:在圖像分類方面,性能更勝一籌。
gcForest
今年2月,我們介紹了南京大學新軟體技術國家重點實驗室的周志華和馮霽的研究成果,他們展示了一種名為gcForest的技術。他們的研究報論文顯示,gcForest在文本分類和圖像分類方面都經常勝過CNN和RNN。優點相當明顯。
只需要一小部分訓練數據。
在普通的台式機CPU設備上就可以運行,無需GPU。
訓練速度一樣快,在許多情況下甚至更快,適合於分散式處理。
超參數少得多,在默認設置下表現良好。
依賴易於理解的隨機森林,而不是完全不透明的深度神經網路。
簡而言之,gcForest(多粒度級聯森林)是一種決策樹集成方法,深度網路的級聯結構保留下來,但不透明的邊緣和節點神經元被與完全隨機的樹森林配對的隨機森林組取而代之。請了解gcForest的更多信息,請參與我們的這篇原始文章(https://www.datasciencecentral.com/profiles/blogs/off-the-beaten-path-using-deep-forests-to-outperform-cnns-and-rnn)。
Pyro和Edward
Pyro和Edward是兩種新的編程語言,將深度學習框架與概率編程融合在一起。Pyro是優步和谷歌的傑作,而Edward脫胎於哥倫比亞大學,得到了美國國防高級研究計劃局(DARPA)的資助。結果是,框架讓深度學習系統可以測量它們對於預測或決策的信心有多大。
在經典的預測分析中,我們可能使用對數損失作為擬合函數,並懲罰自信但錯誤的預測(誤報),以此處理這個問題。到目前為止,對於深度學習而言沒有必然的結果。(So far there』s been no corollary for deep learning.)
比如說,這有望適用於自動駕駛汽車或飛機,好讓控制系統在做出重大的決定之前具有某種自信或懷疑的感覺。這當然是你希望優步的自動駕駛車輛在你上車前要知道的。
Pyro和Edward都處於發展的早期階段。
看起來不像深度網路的方法
我經常碰到一些小公司,它們開發的平台其核心使用不同尋常的演算法。我發現在大多數情況下,它們一直不願意提供足夠詳細的資料,好讓我可以為讀者描述平台演算法的概況。這種保密並不影響它們的效用,但是除非它們提供一些基準數字和一些細節,否則我無法真正告訴你內部發生了什麼。
目前,我研究過的最先進的非DNN演算法和平台如下:
分層時間記憶(HTM)
分層時間記憶(HTM)使用稀疏分散式表示(SDR)對大腦的神經元進行建模,並執行計算,它在標量預測(商品、能源或股價等方面的未來價值)和異常檢測方面的性能比CNN和RNN更勝一籌。
這是以Palm Pilot成名的傑夫?霍金斯(Jeff Hawkins)在其公司Numenta獲得的成果。霍金斯致力於搞出一種強大的AI模型,該模型基於針對大腦功能的基礎研究,它不是採用DNN中的層和節點那種結構。
HTM的特點是可以非常迅速地發現模式,只需要1000次觀測。相比之下,訓練CNN或RNN需要觀測數十萬次、甚至數百萬次。
此外,模式識別是無監督的,可以基於不斷變化的輸入實時識別模式中的變化,並推而廣之。因而獲得的系統不僅訓練起來非常快,還具有自學習和自適應的特點,不會被數據的變化或干擾信息(noise)所困擾。
我們在2月份的文章中介紹了HTM和Numenta,建議不妨閱讀一下(https://www.datasciencecentral.com/profiles/blogs/off-the-beaten-path-htm-based-strong-ai-beats-rnns-and-cnns-at-pr)。
值得一提的一些漸進式改進
我們力圖關注真正改變這個領域的技術,不過漸進式改進方面至少有兩個例子值得一提。這些顯然仍是典型的CNN和RNN(有著反向傳播的要素),但工作起來效果更好。
使用谷歌雲AutoML進行網路修剪
谷歌和英偉達的研究人員使用一種名為網路修剪(network pruning)的方法,去除了並不直接影響輸出的神經元,讓神經網路更小巧、運行起來更高效。最近取得的這一進步緣於谷歌新的AutoML平台在性能上有了重大改進。
Transformer
Transformer是一種新穎的方法,最初在CNN、RNN和LTSM擅長的領域:語言處理(比如語言到語言的翻譯)中很有用。去年夏天谷歌Brain和多倫多大學的研究人員發布了Transformer,它已在包括這項英語/德語翻譯測試在內的眾多測試中表明準確性有了顯著提高。
RNN具有順序處理的特性,因而更難充分發揮GPU等現代快速計算設備的性能,這類設備擅長並行處理而不是順序處理。CNN的順序處理特性比RNN弱得多,但在CNN架構中,組合來自輸入遠端部分的信息所需要的步驟數量仍隨距離加大而增多。
準確性方面的突破來自開發出「自注意力功能」(self-attention function),該功能將步驟顯著簡化為數量不多且恆定的步驟。在每個步驟,它都會運用自注意力機制,直接對句子中所有單詞之間的關係建立模型,不管它們各自的位置怎樣。
請閱讀此處的原始研究論文(https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf)。
結束語
一個不可忽視的事實是,中國正在大力投資於AI;設定的目標是,在幾年內超過美國,成為全球AI領導者。
斯蒂夫?萊文(Steve LeVine)是Axios的未來欄目編輯,並在喬治城大學任教。他在撰寫的一篇文章中認為,中國可能在迅速跟隨,但恐怕永遠趕不上。原因在於,美國和加拿大的研究人員可以隨時轉變方向、從頭開始。制度上受導向的中國人永遠沒法這麼做。以下內容來自萊文的那篇文章:
「在中國,那是無法想像的,」西雅圖Outreach.io的首席執行官曼尼?梅迪納(Manny Medina)說。他表示,像Facebook的雅恩?樂坤(Yann LeCun)和多倫多Vector Institute的傑夫?辛頓(Geoff Hinton)這些AI界的明星「不必徵得批准。他們可以開始研究,向前推進工作。」
正如風險投資家們所說,也許是時候轉變方向了。
※奧運會的毀滅者:Olympic Destroyer 惡意軟體
※7500萬預算「赤峰蒙東大數據公共服務平台服務項目」招標
TAG:雲頭條 |