深度學習還是之前的神經網路嗎?
人的命運看個人努力,但主要的還是看歷史的進程。
文因互聯鮑捷博士的一篇文章將人工智慧分為三個門派。
符號主義
在四十年代、五十年代叫它邏輯,後來叫它知識,再後來叫語義網,這兩年叫它知識圖譜。這個門派的宗旨就是:邏輯推理。
經驗主義(統計主義)
最經典的代表就是機器學習。機器學習可能有一萬個變種,但可以歸結為:通過數據和學習演算法得到一個函數。就是有了一堆輸入的數據,聲音也好、圖像也好、文本也好,然後把它變成一個數學上可以精準描述的,可以去預言的一種東西。通常這種東西就是概率,一個概率分布,這是機器學習目前這個階段最常用的方法。
深度學習
在2005年左右,大家是看不起神經網路的,就是存在一個鄙視鏈:
因為神經網路有明顯的缺點:沒有辦法解決所謂的局部最優問題、速度慢、泛化能力差、黑箱。
局部最優問題是什麼?比如說,尋找屋子裡最高的位置在哪兒,這樣一個問題。可能在天花板某一個位置上,但是在人工智慧裡面,去尋找這樣一個所謂全局最優問題的時候,是看周圍哪一個點比現在這個點高,如果這個點高,就往前走一步。假設說這兒有一個小螞蟻,它在找這個屋子最高的點,它看到這裡有一瓶礦泉水,它看這個點比現在高,那麼就往上爬,爬爬爬,爬到礦泉水瓶頂上去了,它再沒有辦法往上爬了。BP等神經網路演算法一直無法解決這樣的局部最優問題。
什麼叫黑箱呢?每一個人的大腦可以說就是一個黑箱,你看到我在說話,但是其實你並不知道我腦子裡是怎麼想事情的。看一本書的時候是不一樣的,這一本書每一個字我們都是能看得到的,這個東西就叫白箱。但是神經網路是一個黑箱,所以一個黑箱演算法你只知道它行。為什麼行?如果它不行怎麼改一點?一點辦法都沒有,它沒有真正的結構在裡頭。這就是90年代遇到的困難,當時誰也找不到辦法,上萬的人去找這個解決方案,誰都沒有找到。
下面回顧一下神經網路的歷史。
模擬神經網路的原創文章,「A Logical Calculus of Ideas Immanent in Nervous Activity」,1943年發表於「數學生物物理期刊」,這篇文章成了控制論的思想源泉之一,兩位作者都是傳奇人物:麥克洛克和皮茨。皮茨打小就喜歡數學和哲學,初中時就度過羅素的《數學原理》,還和羅素通過信,後來成為維納的學生,但皮茨秉性怪異,和師傅鬧翻後拒絕了麻省理工學院給他的研究生學位,從此對學問心灰意冷,離世時年僅46歲。
1949年,神經心理學赫布出版了「行為組織學」。在該書中,赫布提出了被後人稱為「Hebb規則」的學習機制,該規則認為:如果兩個細胞總是同時激活的話,它們之間就有某種關聯,同時激活的概率越高,關聯度也越高。後來的各種無監督機器學習演算法或多或少都是Hebb規則的變種。
神經網路研究的後一個大突破是在1957年。康奈爾大學的實驗心理學家羅森布拉特在一台IBM-704計算機上模擬實現了一種他發明的加做「感知機」的神經網路模型。這個模型可以完成一些簡單的視覺處理任務,這在當時引起了轟動。羅森布拉特在理論上證明了單層神經網路在處理線性可分的模式識別問題時,可以收斂,並以此為基礎做了若干感知機有學習能力的實驗,並於1992年出了本書「神經動力學原理:感知機和大腦機制的理論」
明斯基,人工智慧的奠基人之一,達特茅斯會議的組織者。他在一次會議上和羅森布拉特大吵,認為神經網路不能解決人工智慧的問題。隨後,明斯基和麻省理工學院的另一位教授佩珀特合作,企圖從理論上證明他們的觀點。他們合作的成果就是那本影響巨大、「是也非也」的書:「感知機:計算幾何學」。在書中,明斯基和佩珀特證明單層神經網路不能解決XOR(異或)問題。異或是一個基本邏輯問題,如果連這個問題都解決不了,那神經網路的計算能力實在有限。
在信息科學和神經科學的結合部的失敗,並沒有影響到神經生物學內部。哈佛神經生物學家胡貝爾和威瑟爾對視網膜和視覺皮層中神經細胞的信息處理模式做了深入研究,他們為此獲得了1981年的諾貝爾醫學獎。隨後,麻省理工學院的馬爾為視覺信息處理建立數學模型,影響了後來連接主義運動。
1974年,哈佛大學的一篇博士論文證明了在神經網路多加一層,並且利用「後向傳播」學習方法,可以解決XOR問題。這篇論文的作者是沃波斯,他後來得到了IEEE神經網路學會的先驅獎。沃波斯這篇文章剛發表時並沒引起多少重視,那時正是神經網路研究的低估,文章不合時宜。
神經網路在20世紀80年代的復興歸功於物理學家霍普菲爾德。1982年,那時在加州理工學院擔任生物物理教授的霍普菲爾德,提出了一種新的神經網路,可以解決一大類模式識別問題,還可以給出一類組合優化問題的近似解。然而,這次復興和生物學沒啥關係,它既不是來自生物學的刺激,也沒有給生物學送去任何慰藉。一幫早期神經網路研究的倖存者,在生物學家克里克和認知科學家大佬偌曼的鼓勵下,以加州大學聖地亞哥分校為基地,開始了連接主義運動,這個運動的領導者是兩位心理學家魯梅爾哈特和麥克利蘭德外加一個計算機科學家辛頓,辛頓現在可是神經網路領域最牛的人了。
神經網路在20世紀80年代的光芒被後來的互聯網掩蓋了。但這幾年恰恰又是互聯網產生的海量數據給了神經網路更大的機會。我們知道神經網路其實就是三層:輸入層、輸出層、隱層。在80年代的時候,就曾經證明了像這樣的一個神經網路模型,是世界上最強大的計算模型。大家肯定聽說過圖靈機,它就是現在最強大的計算模型,而這樣一個非常簡單的神經網路模型跟圖靈機是等價的,這在數學上可以嚴格地證明。發現了這個等價性之後,人們剛開始只用三層,就是我們所說的神經網路,後來到了2006年前後,開始說其實可以把這個層數加深了,這就變成了深度學習了。
辛頓是深度學習的先驅,他和學生在2006年發表的兩篇文章開闢了這個新領域,其中登在「科學」上的那篇提出了降維和逐層預訓練的方法,使得深度網路的實用化成為可能。深度神經網路最後幾層的每個節點都可對應於某些概念。這是神經網路的一大進度,貌似為神經網路找到了科學根據。
我們現在看到,有很多的新聞都在報道人工智慧在深度學習上所取得的一些成功,這已經聽說過很多了。這些成果涉及人工智慧各個方面,如語音、文本和自動駕駛等,深度學習似乎正在改變我們的生活,的確也是如此。但這是一個人工智慧全面復興的時代,互聯網讓我們能低廉地獲取數據,而機器學習就是數據+學習演算法,所以統計主義(經驗主義)也有了長足的發展。
人工智慧的統計派或神經網路派和邏輯派或符號派之爭是從1956年達特茅斯會議開始的,明斯基的合作者佩珀特曾說神經派和符號派的區別就像分子生物學和進化生物學的區別,甚至有人因此而爭論大學的數學課應該以微積分為主還是以統計為主。誠然現在深度學習這個名詞最為火熱,但我們其實還有其他系統,比如IBM的Watson,它在一個美國很著名的綜藝節目裡面獲勝了,他們沒有進行任何深度學習,它可以掌握大量的結構化的知識,將非結構化知識當作結構化知識使用。
谷歌的研發總監諾維格說過:簡單的模型不能解決複雜問題,人工智慧的進一步發展必須兩條腿走路。因此,在將AI落地到行業應用中時,我們可以嘗試各種方法,每一種方法都不是完美的。
參考來源:文因互聯、人工智慧簡史
TAG:全球大搜羅 |