前半生鑽研學術默默無聞，後半生因一篇論文成為「深度學習之父」

最新 10-14

文 | 麻粒兒

網址 | 51aistar.com

我們目前視之為黑科技的人臉識別、語音識別技術的井噴之勢，都得益於他的貢獻。這是人工智慧發展史上最有價值最有功勛的人之一，甚至有科學家稱他為人工智慧界的「愛因斯坦」。

事實上，你聽說過的幾乎每一個關於人工智慧的進步，都是由 30 多年前傑夫?辛頓的一篇闡述多層神經網路的訓練方法的論文演變而來。

人工智慧在最近十年里取得的幾乎每一個成就，包括語音識別、圖像識別，以及機器翻譯等，追溯到源頭上都跟傑夫?辛頓所做的研究成果相關。

他到底是做了什麼讓人們對他有如此高的評價？

靈感契機

傑夫1947年出生在英國，他的家族就有很深的學術淵源，他的曾祖父的岳父就是喬治·布爾（George Boole），是符號邏輯領域的先驅，這是促進計算機誕生與發展的重要基礎研究之一。

在傑夫?辛頓還是個中學生的時候，他就著迷於腦科學。

當時一個同學給他介紹關於大腦記憶的理論：大腦對於事物和概念的記憶，不是存儲在某個單一的地點，而是分散式地，存在於一個巨大的神經元的網路里。

傑夫回憶起來時表示：「聽到那個觀點時，我真的很興奮。」沒有基友的啟發，也就不會有深度學習的靈感來源。

傑夫本科階段在劍橋學習心理學，他意識到，科學家們並沒有真正理解大腦——不能完全掌握數十億神經元之間的交互以及如何提升智力。

科學家們雖然可以解釋神經元之間信息傳遞的方式，但是更深層次的神經元如何學習或計算無法被解釋。

後來，傑夫選擇繼續在劍橋大學和蘇格蘭愛丁堡大學深造神經網路，志在研究神經網路更好的模擬人腦某些工作方式。

他在神經網路方面的漫長學術生涯，幾乎與 AI 學科同齡。

1978年博士畢業後，他選擇在各個高校遊學，最後到加拿大多倫多大學任教。無論他走到哪裡，他的研究方向始終聚焦神經網路。

「開掛」的研究

1986年，傑夫聯合同事大衛·魯姆哈特（David Rumelhart）和羅納德·威廉姆斯（Ronald Williams），發表了一篇突破性的論文，詳細介紹了一種叫作「反向傳播」（backpropagation，簡稱backprop）的技術。

反向傳播演算法最主要的功能是允許一個神經網路在其實際輸出和其預期輸出不一致時，能夠主動進行自我調節。

簡單的來說，它意味著人們可以通過在每次神經網路犯錯誤時都及時糾錯來對他們進行訓練。

之後，反向傳播演算法就可以修改神經網路的拼接，從而保證它能夠在下一次遇到同樣問題是不會犯同樣的錯誤，把糾錯的運算量下降到只和神經元數目本身成正比。

這使得八十年代末計算機計算的運行速度，也比二十年前高了幾個數量級。神經網路的研究開始復甦。

普林斯頓計算心理學家喬恩·科恩（Jon Cohen）將反向傳播定義為，「所有深度學習技術的基礎。」

儘管演算法可以成功執行，但計算代價非常巨大。

那時的電腦性能還遠遠不能處理神經網路需要的巨大數據集，神經網路的訓練時間要長達3天之久，因而無法投入實際使用。

二十多年的冷板凳

早在1969年，麻省理工學院的馬文·明斯基（Marvin Minsky）和西摩·帕爾特（Seymour Papert）發表了著作《Perceptrons》，用數學的方法證明這種網路只能實現最基本的功能。

這種網路只有兩層神經元，一個輸入層和一個輸出層。如果在輸入層和輸出層之間加上更多的網路，理論上可以解決大量不同的問題，但當神經元數目增多，龐大的計算量是當時的硬體無法勝任的。而且也沒人知道如何訓練它們，所以這些神經網路在應用領域毫無作用。

大多數人看過這本書後都完全放棄了神經網路的研究。

在之後的二十幾年，雖然還是有一些研究人員堅持人工神經網路的研究，但整個學術界關於人工神經網路的研究基本都陷入了停滯，研究人員拿到不到科研經費的支持，與人工神經網路有關的優質論文也發表量極少。

與此同時，神經網路也受到了其他更加簡單模型的挑戰，比如支持向量機等模型在20世紀90年代到21世紀初成為更加流行的機器學習演算法。

為了解決這些問題，在1992年9月和1993年10月之間，傑夫高產撰寫了近200篇領域相關的文章，介紹他利用神經網路進行學習，記憶，感知和符號處理方法的研究。

固執的傑夫一直沒有放棄人工神經網路的研究。實在沒有進展或者壓力過大時，他通常會大吼：「我發現大腦是怎樣工作的啦！」來激勵自己，和他一起工作的同事也已經習以為常了。

學術圈的冷落其實不無理由，神經網路的很多成果，很難用數學予以解釋或者證明，大家只是在不斷調整參數，改善演算法，以得到更好的結果。

這中間熬過的歲月才知道他們是多麼的艱辛。

堅持的事業沒有突破性進展，每天都絕望的不斷調試參數，想想都覺得很陰鬱，對科學事業的熱愛讓他挺過了這些焦灼的歲月。

春天來了

事情的轉機出現在2006年，傑夫·辛頓(Geoffrey Hinton)聯合楊立昆(Yann LeCun)、約書亞·本吉奧(Yoshua Bengio)發表了具有突破性的一篇論文《A Fast Learning Algorithm for Deep Belief Nets》(深度置信網的快速學習方法)。

這篇文章從理論上解決了原有神經網路規模無法擴展，只能處理單一情況無法處理複雜情況的問題，直接推動深度學習理論取得突破。

他給多層神經網路相關的學習方法賦予了一個新名詞——「深度學習」。

那到底什麼是深度學習呢？