當前位置:
首頁 > 新聞 > 深度學習黑匣問題迎來新發現,谷歌大牛Hinton說可能這就是答案

深度學習黑匣問題迎來新發現,谷歌大牛Hinton說可能這就是答案

儘管所謂「深度神經網路」已經幫助機器學會如何利用自然語言進行交談、駕駛汽車、遊玩電子遊戲並奪取圍棋賽冠軍,甚至繪製夢境、畫畫並推動科學發現,但其同時亦給創造者們帶來新的挑戰——因為研究人員從未想到深度學習技術能夠擁有如此出色的運作效果。除了從人類大腦架構中得出的模糊靈感之外,時至今日,我們仍不清楚到底是怎樣的基本原則指導著這些學習系統的實際設計(也沒人能夠真正理解其運作原理)。

深度學習黑匣問題迎來新發現,谷歌大牛Hinton說可能這就是答案

與大腦一樣,深度神經網路擁有大量神經元——人工神經元正是計算機記憶的象徵。當某一神經元被激活時,其會將信號發送至上層與之連接的另一神經元。而在深度學習過程中,網路中的連接會根據需要進行加強與減弱,從而使得系統能夠更好地發送來自輸入數據(例如一張小狗圖片中的各像素)的信號,並經由各層最終通過神經元將內容關聯至正確的高級概念處——例如「狗」。在深度神經網路對成千上萬張小狗圖片樣本進行「學習」之後,其即可像人類一樣準確從新圖片中發現狗這一對象。在學習過程中,這種由特殊情況到一般性概念的奇蹟般認知提升正是深度神經網路的力量所在,這意味著其真正在與人類一樣憑藉著推理、創造力以及其它被統稱為「智力」的能力得以解決實際問題。專家們現在很想知道深度學習到底是什麼,而大腦又是否在以同樣的方式理解現實事物。

上個月,在柏林舉辦的一場YouTube視頻會議也許能夠為人工智慧研究人員帶來潛在的答案。講座當中,耶路撒冷希伯來大學計算機科學家兼神經科學家Naftali Tishby提出了證據以支持一面新的理論,希望能夠藉此對深度學習的工作原理作出解釋。Tishby認為,深度神經網路是根據一種所謂「信息瓶頸」的流程來進行學習的,而他早在1999年就曾與兩位合作者利用純理論術語首次描述了這一概念。其想法在於,神經網路會從輸入數據中排除無關細節與干擾信息,類似於擠壓信息以通過瓶頸,最終僅保留與一般性概念相關性最強的特徵。Tishby和他的學生Ravid Shwart-Ziv設計出新的計算機實驗,希望至少立足其實驗環境展示這一擠壓過程究竟是如何在深度學習過程當中實現的。

深度學習黑匣問題迎來新發現,谷歌大牛Hinton說可能這就是答案

耶路撒冷希伯來大學計算機科學家兼神經科學家Naftali Tishby

Tishby的發現很快在人工智慧領域引起轟動。谷歌公司的Alex ALemi表示:「我認為信息瓶頸這一概念在未來的深度神經網路研究中可能將扮演非常重要的角色。」他開發出多種新的近似方法,旨在對大型深層神經網路進行信息瓶頸分析。Alemi解釋稱:「這一瓶頸不僅能夠作為理解神經網路實際工作原理的理論性工具,同時也可作為構建新型網路與架構的輔助方案。」

一部分研究人員仍然懷疑該理論究竟是否能夠解釋深度學習所獲得的成功,不過曾利用機器學習技術分析大型繩子對撞機內粒子碰撞狀態的紐約大學粒子物理學家Kyle Cranmer認為,單純從學習的一般性原則角度來看,這一理論「聽起來挺有道理」。

同時在谷歌公司與多倫多大學任職的深度學習技術先驅Geoffrey Hinton在觀看了此次柏林演講之後向Tishby發出一封電子郵件。他寫道「這非常有趣,我必須重聽一遍才能真正理解其中的內容。現在我們終於聽到了真正具有原創性的思維,這很可能代表著一個重大難題迎來了正確答案——可喜可賀!」

根據Tishby的觀點,信息瓶頸為機器學習背後的一項基本原則——無論是對於演算法、昆蟲抑或是任何其它有意識的存在,甚至包括對緊急行為的物理計算,我們長久以來所期盼的答案應該是「學習當中最重要的部分其實在於遺忘」。

瓶頸

Tishby最初投身於信息瓶頸研究工作時,其他研究人員才剛剛開始鑽研深層神經網路——不過當時這兩項技術概念還沒有被正式定名。那時候是上世紀八十年代,Tishby正在考慮人類在語音識別方面的實際表現——這對當時的人工智慧還是一項巨大的挑戰。Tishby意識到,這個問題的核心在於相關性——語音辭彙中相關性最高的特徵究竟是什麼?我們如何從與之相關的變數當中剔除某些特徵,例如噪音、雜音以及語調?一般來講,在面對現實世界中的數據海洋時,我們應選擇保留哪些信號?

Tishby在上個月接受採訪時表示,「這種與信息相關的概念曾在歷史上被多次提及,但從來沒能得到正確的表述。多年以來,人們一直認為信息理論並不是解讀相關性的正確途徑,而只是Shannon本人長久以來一廂情願的想法。」

信息理念的締造者Claude Shannon在某種意義上解放了信息研究工作的力量。從上世紀四十年代開始,信息理論開始將信息視為純抽象產物——類似於數學意義上的0和1。Shannon認為,「信息與語義無關」。不過Tishby對此抱不同看法。利用信息理論,他意識到「我們可以精確地對『相關性』作出定義。」

我們首先想像X是一套複雜的數據集,例如小狗圖片中的全部像素,而Y則是一個能夠代表這些數據的簡單變數,例如單詞「狗」。我們可以儘可能地壓縮X,同時保證不失去預測Y的能力,這樣即可在X中捕捉到全部「相關性」信息。在1999年發表的論文當中,Tishby與聯合作者Fernando Pereira(現效力於谷歌公司)以及William Bialek(現任職於普林斯頓大學)將其描述為一個數學優化問題。很明顯,這只是一種理論性思想,無法支持有力的現實應用。

Tishby指出,「我已經在各種背景之下對這個問題思考了三十年。幸運的是,如今深層神經網路開始變得如此重要。」

場景中的人,人的臉,以及臉上的眼睛

雖然深度神經網路的基本概念早在數十年前就已經誕生,但隨著訓練方案的逐步改進與計算機處理器的日益強大,其在語音與圖像識別領域的表現直到2010年才嶄露頭角。Tishby在閱讀了物理學家David Schwab與Pankaj Mehta於2014年發表的一篇令人驚訝的論文之後,最終意識到其與信息瓶頸原理之間存在著潛在聯繫。

兩位作者發現,Hinton所發明的所謂「深度信念網路」這一深度學習演算法能夠在特定情況下(特別是重整化)被應用於物理系統,即通過對細節進行粗粒度轉化來放大物理系統,從而計算其整體狀態。當Schwab與Mehta將深層信念網路應用到磁體模型的「臨界點」場景中時,系統在各個衡量尺度之上皆存在分形性或自相似特徵,而該網路會自動利用類似於重整化的過程來識別模型狀態。正如生物物理學家Ilya Nemenman當時所言,這是一種驚人的跡象,「在統計物理這一背景之下提取相關特徵,與在深度學習背景下提取相關特徵已經成為同一類操作。」

不過唯一的問題在於,一般來講現實世界中的分形性較為罕見。Cranmer表示,「自然世界大多不會體現出類似重重疊疊的狀態,而更多體現為場景、人、臉、眼睛這樣的差異化排布。因此我無法斷言重整化程序就是深度學習技術在自然圖像識別方面表現良好的原因。」不過當時正在接受胰腺癌化療治療的Tishby認識到,深度學習與粗粒度轉化程序應可被納入更為廣泛的思路當中。他指出,「思考科學以及思考我舊有思維的作用,是幫助我實現康復的重要支柱。」

2015年,他和他的學生Noga Zaslavsky將深度學習假設為一種信息瓶頸流程,其會儘可能地壓縮干擾數據,同時保留關於數據的代表性信息。Tishby與Schwartz-Ziv利用深度神經網路建立的新實驗,提示了瓶頸程序如何實際發揮作用。在其中一個案例中,研究人員利用可訓練的小型網路通過1或0(代表有狗或無狗)標記輸入數據,並給出282個神經連接隨機初始優勢。在此之後,他們開始持續追蹤深度學習網路如何利用一套包含3000份樣本的輸入數據集進行訓練。

深度學習黑匣問題迎來新發現,谷歌大牛Hinton說可能這就是答案

Noga Zaslavsky(左)、Schwartz-Ziv(右)

在大多數深度學習程序當中,用於調整神經連接以響應數據內容的基本演算法被稱為「隨機梯度下降」:每當訓練數據被饋送至網路當中時,即有一連串激活活動向上經過各人工神經元層。當信號到達頂層時,最終的激活模式將能夠與圖像的正確標籤進行比較——即1或0,有狗或無狗。這種激活模式與正確模式之間的任何差異都都會以「反向傳播」形式被發往下層,這意味著類似於老師批改試卷一樣,該演算法能夠增強或減弱每條連接,使得網路層能夠更好地產生正確的輸出信號。在訓練雨刮器 ,訓練數據中的常見模式將反映在連接的強度之上,且網路本身也將通過訓練提升數據標記的正確率——包括識別小狗對象、單詞或者1。

在實驗當中,Tishby與Shwartz-Ziv追蹤了深度神經網路中每一層的輸入數據信息量,以及各輸入數據中有多少信息得到保留。科學家們發現,神經網路會逐層向信息瓶頸理論界限收斂:Tishby、Pereira與Bialek的原始論文中設定了一個理論上限,其代表著系統能夠在進行相關性信息提取時獲得的最佳結果。在這一臨界點上,神經網路能夠儘可能壓縮輸入數據,同時不會影響到其作出準確預測的能力。

深度學習黑匣問題迎來新發現,谷歌大牛Hinton說可能這就是答案

階段:一個簡短的「擬合」階段,在此階段中,神經網路學習對其訓練數據進行標記; 接下來為更長的壓縮階段,在此階段中其獲得更強大的泛化能力,且這種能力實際體現在對新測試數據的標記效果上。

當深度神經網路通過隨機梯度下降來調整其連接時,首先其存儲的關於輸入數據的比特數字會保持大致恆定或略微增加,與此同時連接調整以對輸入中的模型進行編碼,神經網路本身也將更好地與正確標籤相契合。部分專家將這一階段比喻為人類的記憶過程。

接下來學習過程切換至壓縮階段。神經網路開始丟棄與輸入數據有關的信息,而追蹤其中最強大的特徵——包括與輸出標籤相關性最高的特徵。之所以會發生這種情況,是因為隨機梯度下降的每一次迭代當中,訓練數據中都或多或少存在意外的相關性告知神經網路做出不同的判斷,這將隨機引發上下層調用以調整神經連接的強度。這種隨機化與壓縮系統輸入數據的表現效果完全一致。舉例來說,某些小狗照片中可能存在背景房屋,而某些則並不包含。當一套神經網路循環播放這些訓練照片時,可能會「遺忘」某些照片中房屋與狗之間的相關性,這是因為其它照片中的不相關性會抵消這種關聯。Tishby與Shwartz-Ziv認為,正是這種對細節信息的遺忘操作使系統形成一般性概念。事實上,他們的實驗結果表明,深層神經網路在壓縮階段提高了泛化能力,從而改善其在測試數據標記方面的成效(一套經過訓練的小狗圖像識別深層神經網路將能夠利用新照片進行測試,並準確判斷其中是否包含狗這一對象)。

信息瓶頸究竟是否適用於所有深度學習機制,以及除壓縮之外還存在著哪些其它泛化途徑,目前仍有待觀察。一部分人工智慧專家認為,Tishby的理論是近期出現的與深度學習相關的眾多極為重要的指導性原則之一。哈佛大學AI研究員兼理論神經科學家Andrew Saxe指出,某些規模非常龐大的深度神經網路似乎並不需要經歷這樣的壓縮階段。相反,研究人員立足所謂「早期停止」方法進行編程,這樣能夠有效減少訓練時間並防止網路編碼中存在過多相關性。

Tishby認為,Saxe和他的同事所分析的網路模型不同於標準深度神經網路架構,而且無論如何,信息瓶頸提出的理論界限決定了此類網路的泛化效能要比其它方法更好。Tishby與Shwartz-Ziv的最新實驗在一定程度上解釋了瓶頸是否適用於較大規模神經網線的問題。儘管相關結果未被納入原始論文當中,但他們在這些實驗雖訓練了規模更為可觀的包含33萬個連接的深度神經網路,用以識別來自國家標準與技術研究院的6萬幅手寫數字圖像——這套數據集正是衡量深度學習演算法性能的著名基準素材。科學家們發現,神經網路的實際表現與信息瓶頸的理論界限存在趨同性; 他們還發現與小型網路相比,這套大規模深度學習網路的兩個階段更加清晰。Tishby指出,「我現在完全相信信息瓶頸屬於一種普遍現象。」

人類與機器

大腦是如何從我們的感官當中篩選信號的?又如何將其納入我們自覺的意識水平當中?這一神秘課題推動了人工智慧先驅們研究深層神經網路的早期興趣,即以逆向方式設計出大腦的學習規則。人工智慧從業者在很大程度上已經放棄了這條鑽研之路,轉而開始利用其它途徑小幅提升效能表現。儘管如此,隨著智能機器所取得的成就日益升級——甚至讓某些人開始擔憂人工智慧終有一天將構成嚴重威脅,許多研究人員希望此類探索能夠揭示出關於機器學習與智能實現的一般性結論。

紐約大學心理學與數據利潤總額助理教授Brenden Lake在研究人類與機器學習間的異同時表示,Tishby的發現代表著「打開神經網路黑匣的重要一步」,但他同時強調大腦代表著一個更大、更黑的黑匣子。我們成年人的大腦擁有860億個神經元,其彼此間的連接更是多達數百萬億條,這一切可能都需要憑藉某些技巧來增強泛化能力,從而實現超越嬰兒期的基本圖像與聲音識別學習過程。在這方面,其很可能與目前的深度學習技術相當類似。

舉例來說,Lake認為Tishby所發現的擬合與壓縮階段似乎與兒童的手寫字母學習過程並不相似。孩子們並不需要觀察成千上萬個字母並利用很長時間對其表徵進行壓縮; 相反,他們能夠快速識別出同一字母的其它實例並學習如何書寫。實際上,人類甚至能夠利用單一例子進行學習。Lake和他同事們的模型表明,大腦能夠將新字母解構成一系列筆畫——即以往 已經存在的心理結構,從而立足原有認知建立字母概念。Lake解釋稱:「我不會把信件上的圖像想像成一個個像素,並像標準機器學習演算法那樣對這些特徵加以映射。我的目標在於建立一套更為簡單的因果模型,」即實現一條更短的泛化路徑。

這樣的智能實現方式可能會給AI行業帶來指導,並促使兩個領域實現相互往來。Tishby認為,儘管人類學習比人工智慧學習更為普遍,但他的信息瓶頸理論最終將在兩大學科當中發揮作用。從理論層面可以得出的直接見解,能夠幫助人們更好地理解哪些問題類型能夠為神經網路業解決,而哪些需要人工介入。Tishby表示:「其對於可學習的問題作出了完整的描述。這些都屬於『我可以消除輸入數據中的干擾信息而不損害分類能力』的問題。這一點體現在自然視覺與語音識別當中,也同樣屬於我們的大腦能夠解決的實際任務。」

與此同時,真實與人工神經網路也都面臨著同樣的挑戰,即每個問題的細節與微波差別都可能影響最終綶。舉例來說,大多數人無法快速完成兩個大數字的相加計算。Tishby指出,「這類問題長期困擾著我們,事實上邏輯問題很容易受到某一變數的影響。分類、離散乃至密碼問題皆是如此。我認為深度學習無法幫助我破解密碼。」

泛化——即對信息瓶頸進行遍歷,意味著丟棄部分細節信息。這對於實時代數運算不太友好,但此類運算顯然不是大腦的主要任務。大腦的工作在於幫助我們從人群中尋找熟悉的面孔、認識混亂中的秩序,並發現嘈雜世界中的其它顯著信號。

來源:QuantamaGazine

作者:Natalie Wolchover

編譯整理:科技行者

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技行者 的精彩文章:

5G第三階段技術研發試驗開始了 運營商們要從哪忙起?

TAG:科技行者 |