前半生鑽研學術默默無聞,後半生因一篇論文成為「深度學習之父」
文 | 麻粒兒
網址 | 51aistar.com
我們目前視之為黑科技的人臉識別、語音識別技術的井噴之勢,都得益於他的貢獻。這是人工智慧發展史上最有價值最有功勛的人之一,甚至有科學家稱他為人工智慧界的「愛因斯坦」。
事實上,你聽說過的幾乎每一個關於人工智慧的進步,都是由 30 多年前傑夫?辛頓的一篇闡述多層神經網路的訓練方法的論文演變而來。
人工智慧在最近十年里取得的幾乎每一個成就,包括語音識別、圖像識別,以及機器翻譯等,追溯到源頭上都跟傑夫?辛頓所做的研究成果相關。
他到底是做了什麼讓人們對他有如此高的評價?
靈感契機
傑夫1947年出生在英國,他的家族就有很深的學術淵源,他的曾祖父的岳父就是喬治·布爾(George Boole),是符號邏輯領域的先驅,這是促進計算機誕生與發展的重要基礎研究之一。
在傑夫?辛頓還是個中學生的時候,他就著迷於腦科學。
當時一個同學給他介紹關於大腦記憶的理論:大腦對於事物和概念的記憶,不是存儲在某個單一的地點,而是分散式地,存在於一個巨大的神經元的網路里。
傑夫回憶起來時表示:「聽到那個觀點時,我真的很興奮。」沒有基友的啟發,也就不會有深度學習的靈感來源。
傑夫本科階段在劍橋學習心理學,他意識到,科學家們並沒有真正理解大腦——不能完全掌握數十億神經元之間的交互以及如何提升智力。
科學家們雖然可以解釋神經元之間信息傳遞的方式,但是更深層次的神經元如何學習或計算無法被解釋。
後來,傑夫選擇繼續在劍橋大學和蘇格蘭愛丁堡大學深造神經網路,志在研究神經網路更好的模擬人腦某些工作方式。
他在神經網路方面的漫長學術生涯,幾乎與 AI 學科同齡。
1978年博士畢業後,他選擇在各個高校遊學,最後到加拿大多倫多大學任教。無論他走到哪裡,他的研究方向始終聚焦神經網路。
「開掛」的研究
1986年,傑夫聯合同事大衛·魯姆哈特(David Rumelhart)和羅納德·威廉姆斯(Ronald Williams),發表了一篇突破性的論文,詳細介紹了一種叫作「反向傳播」(backpropagation,簡稱backprop)的技術。
反向傳播演算法最主要的功能是允許一個神經網路在其實際輸出和其預期輸出不一致時,能夠主動進行自我調節。
簡單的來說,它意味著人們可以通過在每次神經網路犯錯誤時都及時糾錯來對他們進行訓練。
之後,反向傳播演算法就可以修改神經網路的拼接,從而保證它能夠在下一次遇到同樣問題是不會犯同樣的錯誤,把糾錯的運算量下降到只和神經元數目本身成正比。
這使得八十年代末計算機計算的運行速度,也比二十年前高了幾個數量級。神經網路的研究開始復甦。
普林斯頓計算心理學家喬恩·科恩(Jon Cohen)將反向傳播定義為,「所有深度學習技術的基礎。」
儘管演算法可以成功執行,但計算代價非常巨大。
那時的電腦性能還遠遠不能處理神經網路需要的巨大數據集,神經網路的訓練時間要長達3天之久,因而無法投入實際使用。
二十多年的冷板凳
早在1969年,麻省理工學院的馬文·明斯基(Marvin Minsky)和西摩·帕爾特(Seymour Papert)發表了著作《Perceptrons》,用數學的方法證明這種網路只能實現最基本的功能。
這種網路只有兩層神經元,一個輸入層和一個輸出層。如果在輸入層和輸出層之間加上更多的網路,理論上可以解決大量不同的問題,但當神經元數目增多,龐大的計算量是當時的硬體無法勝任的。而且也沒人知道如何訓練它們,所以這些神經網路在應用領域毫無作用。
大多數人看過這本書後都完全放棄了神經網路的研究。
在之後的二十幾年,雖然還是有一些研究人員堅持人工神經網路的研究,但整個學術界關於人工神經網路的研究基本都陷入了停滯,研究人員拿到不到科研經費的支持,與人工神經網路有關的優質論文也發表量極少。
與此同時,神經網路也受到了其他更加簡單模型的挑戰,比如支持向量機等模型在20世紀90年代到21世紀初成為更加流行的機器學習演算法。
為了解決這些問題,在1992年9月和1993年10月之間,傑夫高產撰寫了近200篇領域相關的文章,介紹他利用神經網路進行學習,記憶,感知和符號處理方法的研究。
固執的傑夫一直沒有放棄人工神經網路的研究。實在沒有進展或者壓力過大時,他通常會大吼:「我發現大腦是怎樣工作的啦!」來激勵自己,和他一起工作的同事也已經習以為常了。
學術圈的冷落其實不無理由,神經網路的很多成果,很難用數學予以解釋或者證明,大家只是在不斷調整參數,改善演算法,以得到更好的結果。
這中間熬過的歲月才知道他們是多麼的艱辛。
堅持的事業沒有突破性進展,每天都絕望的不斷調試參數,想想都覺得很陰鬱,對科學事業的熱愛讓他挺過了這些焦灼的歲月。
春天來了
事情的轉機出現在2006年,傑夫·辛頓(Geoffrey Hinton)聯合楊立昆(Yann LeCun)、約書亞·本吉奧(Yoshua Bengio)發表了具有突破性的一篇論文《A Fast Learning Algorithm for Deep Belief Nets》(深度置信網的快速學習方法)。
這篇文章從理論上解決了原有神經網路規模無法擴展,只能處理單一情況無法處理複雜情況的問題,直接推動深度學習理論取得突破。
他給多層神經網路相關的學習方法賦予了一個新名詞——「深度學習」。
那到底什麼是深度學習呢?
深度學習主要模擬了人腦對新事物的反應、例如學習行為,它粗略地構建了人腦中神經以及神經突觸的層級關係。
人腦有大量被稱為神經元的腦細胞,人之所以能夠進行思維,就是因為這些神經元互相聯結,處理各種信息。
同樣,如果用機器模擬神經元,並建立人工神經元聯結網路,這樣的人工神經網路就能夠進行思維。
機器學習就是讓計算機自動學習相關知識並解決實際問題。
實現機器學習有很多方法,深度學習即深度神經網路是其中重要的方法之一。
就拿圖像識別舉例來說吧,對於人類來說,識別一種物品很簡單。
比如讓一個沒有見過蘋果的兩歲的小孩認識蘋果so easy,給她一個大紅蘋果,過不了多久,她就能對蘋果產生很深的理解。
而想要代碼程序操縱的機器在未被「教育」的情況下學會識別蘋果,就需要給它投喂大量的蘋果圖片,在未被標註的情況下,機器自主學習,讓數據自己說話,系統會自動從數據中學習。
系統其實是自己發明或者領悟了「蘋果」的概念。
深度學習的概念在2006年被提出後,極大地推動了語音識別、視覺、自然語言處理等方面的進展。
一戰成名
讓傑夫被廣為人知的是在2012年,傑夫實驗室組建的一支參賽隊伍,在李飛飛舉辦的ImageNet圖像識別大賽一舉奪魁。
他們使用的深度學習軟體,在對上千種不同物品識別的測試中,不僅識別出猴子,而且區分出蜘蛛猴和吼猴,以及各種各樣不同品種的貓。
均在5次以內就可以完成識別,且正確率達到85%,創下最高準確率。
競賽中,他們採用深度學習的識別結果,準確率超過使用傳統計算機圖像識別方法的第二名東京大學10%以上。
與傳統的圖像識別方法不同的是,傑夫的團隊利用深度學習技術把圖像識別的準確率提高了一個數量級,在計算機視覺領域產生了極大的震動,並迅速波及到整個 AI 界和產業界。
谷歌收購
這麼轟動的大事當然成功的吸引了巨頭的注意力。
2013年,Google花費數千萬美元收購了多倫多大學的一家初創公司DNNResearch,實際上,這家公司包括傑夫只有三個成員。谷歌的小算盤明眼人一看便知。
收購後,傑夫很自然地成為谷歌公司AI顧問。傑夫大感意外:「我以為他們對我們的知識產權感興趣,結果他們對我們這幾個人感興趣。
傑夫現在是多倫多大學的榮譽教授,大部分時間在谷歌工作,一門心思的撲向了科研研究,不再憂心經費。
關於未來的研究方向,傑夫直言道:「還有一個我們沒解決的問題是,如何將神經網路從小規模的數據推廣開,我懷疑這可能需要我們現今採用的神經元類型發生根本性的變化。」
深度學習的商業領域吸金能力大家有目共睹,巨頭們也紛紛湧入其中,吸引了大量的人才和豐富的資源,以這樣的趨勢發展,深度學習沒有理由不繼續強盛下去。
※30歲辭去副總裁職務去創業,他將書籍零售公司打造成今天的AI商業化榜樣
※別喪氣滿滿啦!十月最值得期待的AI智能手機即將發布!
※Google:AI First大秀「肌肉」的背後是商業化的迷失
※還有這種操作?再也不用在機場「挺屍」了
※與 Google簽下合作協議,HTC離賣身還遠嗎?
TAG:AI星球 |