三問 Christopher Manning:超越模型存在的語言之美
機器之心原創
作者:邱陸陸
「深度學習的波浪在計算語言學的海岸線上往複經年,而今已如海嘯一般向所有的自然語言處理(NLP)會議發起衝擊」。兩年前,在北京,Christopher Manning 如是展開了 ACL 2015 的結語。
事實上,自然語言處理領域就像一個處於環太平洋地震帶上的島國,地震與海嘯來了又去,島上的常住民已經習以為常。Manning 就是自然語言領域裡的這樣一位「常住民」。1993 年,《計算機語言學》雜誌發行了一本特刊,專門討論如何應用勢頭強勁的「經驗式方法」(empirical methods)。當時,取得了三個(!)學士學位(數學、計算機和語言學)的 Manning 正在斯坦福攻讀語言學博士學位。1999 年,《計算機語言學》雜誌里,至少一半的工作採用了經驗式的方法。這時候,Manning 帶著他油墨未乾的、重達 1.66 千克教科書《統計自然語言處理基礎》,作為斯坦福自然語言處理組(Stanford NLP Group)的創始成員回到了母校。這一待就是 18 年。18 年後的今天,當年的方法又被深度學習「拍死在沙灘上」成了前浪,但在學者之中,Chris Manning 與他的研究熱度絲毫不減。從樹形 RNN 到基於神經網路的依存句法分析,Manning 毫無疑問是一位深度學習在 NLP 領域的開拓者。
然而,這位著作等身的學者對待深度學習的態度十分矛盾。一方面他對「神經網路的統治地位」毫不諱言:「2017 年 NLP 領域的共識是,無論研究什麼問題,丟個雙向 LSTM 模型一定能搞定它,不行再加個注意力模塊。」而另一方面,作為一位對語言的結構性深信不疑的研究者,他時常為簡單粗暴的神經網路所取得的「令人驚訝的效果」感到「感傷」:「人類能夠理解彼此,不是因為我們會對聽到的詞做局部加權平均。然而在很多自然語言處理任務上,我們無法做出比使用加權平均效果更好的模型,這讓我非常擔心。」
圖:Manning 一份演講 PPT 里的哭臉
欣慰也好,擔心也罷,深度學習已經不可避免地捲起驚濤,拍上堤岸,波及的範圍不止於學界,也到了業界,甚至公眾範圍中。在剛剛過去的七月里,Facebook 由於多輪對話引擎效果欠佳而選擇關停,卻讓英國鏡報和福布斯這樣的老牌媒體翻出了壓箱底的黑客帝國劇照,祭出了《FB 人工智慧發明自己語言引發工程師恐慌,緊急拔電源》這樣的標題,很是喧騰了一陣。
圖:引發恐慌的兩個小結巴
在嘈嘈切切的背景里,自然語言之島上的「原住民」們過著怎樣的生活?八月,Manning 時隔兩年再次來到北京,機器之心帶著三個問題,與他談了談他的欣慰與擔心,他受到的影響與影響到的人,以及他的語言夢想與當下的選擇。
第一問:深度學習的流行有沒有改變自然語言處理的初衷?
一直以來,人們對「自然語言」寄予厚望,將其與「圖像」和「語音」並提,視作深度學習有望顛覆的第三個領域。然而自然語言與另外二者存在著顯著的不同:
圖像和語音領域都存在一個公認的主要任務:我們可以「解決」物體識別問題,可以「降低」詞錯誤率,領域裡的目標明確清晰。而自然語言的問題從一開始就超越了感知層面進入了理解層面。即使是最「客觀」的機器翻譯,也不存在一個唯一的、百分之百正確的答案。
此外,由於語言的複雜性,語言學家花了大量的精力把語言這個大問題拆解成若干諸如詞性標註、句法依存分析這樣的子任務(component task),以便計算機理解。但是這些建立在大量規則和假設之上的子任務或許會幫助機器理解人類語言,卻不見得是人類大腦使用語言的方法。因此,如果神經網路是一個模擬大腦的結構,那麼為了讓它發揮出更大的作用,是不是應該重新定義需要解決的問題?
Manning 認為,總的來說研究者還是把深度學習視為工具在解決原來問題,畢竟深度學習的好用性就體現在,它幾乎能無差別提高所有自然語言任務的效果。而任務層面的思路轉變主要存在於兩方面:一是自然語言生成課題有了熱度。在過去至少十年的時間裡,研究者對語言生成都沒有什麼興趣,因為太難了。而神經網路提供了一個做特定場景下自然語言生成的機會。二是確實存在研究興趣從子任務到端到端整體任務的遷移,如今熱門的機器翻譯、閱讀理解,都是典型的端到端任務。
而在任務的定義上,深度學習圈當下最大的疑惑是,分散式表示里,語素表示(component representation)究竟有沒有作用,有多大作用。過去,自然語言學者在開始一項任務時會默認,學習詞性和句子語法結構是通向自然語言理解的必經之路。然而現在的端到端任務上,最好的深度學習模型幾乎都沒有利用任何語素知識。
學者們一直在就「使用語素表示是否必要」展開辯論。樂觀主義者選擇相信深度學習的學習機制可以學到所有。只要提供更多文本,它就可以默默學會學習分散式表達、句法,然後完成端到端任務。另一群人,包括 Manning 自己,認為把額外信息提供給深度學習模型是有用的,問題只是怎麼做能達到最好的效果:是進行多任務學習,讓模型同時嘗試完成不同的子任務,從而引導它學習結構更好的、對語法更敏感的表達;還是仍然做一個流水線模型(pipeline model),像傳統的系統一樣,先學會句子結構,再接上後續的深度學習模型。「我確信會有把子任務結果合理融合進深度學習模型的機會。」Manning 這樣總結道。
第二問:聯結主義(connectionism)是否有可能與符號主義(symbolism)攜手並行?
「有!」他的回答毫不猶豫。
符號主義者認為人腦的認知過程和計算機的符號計算過程類似。信息就像存儲在計算機里的一串串的字元,而認知就像按照程序的指令依序生成字元串。然而聯結主義者認為,信息是以非符號化的形式存在在神經網路的神經元間權重里的。認知是一個動態的分層的過程,每個神經元的激活與否取決於神經元間的權重和與其相連的神經元的活動情況。
當然,這兩派看似水火不容的觀點,也並非全無交點。Manning 就提到了一位試圖調和兩種範式的「實現型」聯結主義者: Paul Smolensky。Smolensky 是一位有物理背景的機器學習研究者,由於對語言學過於感興趣,最終成為了一名認知科學家。他覺得,人類大腦的「硬體」構造可能和現行的神經網路不太一樣。它像神經網路一樣,存在眾多分散式的、具有連續值的表示。但是很多高級的認知過程是在符號層面完成的。這個符號體系可能稍顯凌亂,比如隨著時間推移,一個詞的意思乃至詞性都可能發生很大變化,但是大腦的語言、視覺以及其他很多工作(比如數學推理),可以說基本上是符號層面的。比如,人的眼睛接受到一個連續的畫面,但是出現在大腦里的卻是小孩、椅子、桌子這樣的符號。所以 Smolensky 認為,你在你的大腦里編碼了大量符號化的表達,然後,如同邏輯表達式的生成過程,你可以在腦海里把符號表示結合在一起組成更大的表示,然後在這個層面完成計算。「我覺得這個大方向是對的」,Manning 說。
那麼,聯結主義和貝葉斯學派呢?
Manning 思索了一下,列舉了兩種可能的結合方式。一種是用分散式的表示代替先驗和證據,得到向量,計算似然率,然後在此之上完成類似貝葉斯網路中的符號計算。但是,「坦白講,我總覺得這不太靠譜。」另一種則更多借鑒了貝葉斯網路或者說貝葉斯統計的概念(你的心裡首先有一個先驗分布,然後會根據所見的證據更新你的認知),把神經網路的結構看做一種先驗。例如,打算採用卷積神經網路解決特定問題時,卷積結構就是要學習的模型的先驗。
此外,還有學者認為,人類的大腦可能具有貝葉斯風格的結構,但是這種模型放在機器上會變得非常昂貴而低效。考慮到神經網路的效用,你可以把它看做一個可以近似貝葉斯網路,可以用來快速地做推斷。Manning 對這種觀點的評價是,「我不知道這是不是一種正確的思考人類大腦結構的方式,但是它確實是一個能夠很好結合二者優點的思路。」
第三問:語言是不是序列的?序列模型是不是描述語言的最好方式?
Ted Chiang 在他榮獲 2000 年星雲獎的短篇小說《你一生的故事》里,描述了一類被我們命名為「七肢桶」的外星人和他們的語言。他們的書面語言是一個完全獨立於口語存在的體系,不受「序列」這個條件的束縛,充分地利用了二維的空間。一個字就是一個小墨團,一段話就是一個大墨團,「順序」這個概念被拋棄了,從任意地方讀起都不會影響你的理解。語言的表象之下,是七肢桶不同於人類的思維方式。
人類的語言又真的是序列的嗎?後一個詞真的是由前幾個詞確定的嗎?如果說,雖然我們的表達是時序的,但思維是全局的,那麼序列模型真的是理解語言最好的模型嗎?
Manning 給出的答案是:語言不是序列的,但序列模型可能是當下綜合各種因素之後,最好的語言描述方式。
語言不是序列的。語言有一些序列的場景,人們在和彼此溝通的時候傳達的信息是序列的,聲音是序列的,把字和片語成句子的過程是序列的。但是,解讀序列的方法不一定是序列的。片語成短語,短語又組成子句,語素間隱藏的聯繫引出了代名詞,有了指代關係。一個句子宛如一棵樹,茂密的枝幹代表著繁多的結構,想要獲得最好的模型,就要捕捉這些結構。
事實上,Manning 早期的深度學習工作一直致力於構建樹形模型,因為在他看來,樹形模型是捕捉語言不同於線性的視覺或者信號處理的結構特點的最簡途徑。然而近兩三年間,我們不難發現,他重點關注的的工作都基於序列模型。「聽起來很奇怪,因為好像在走回頭路。從某種意義上來講,也確實是在走回頭路。」他坦誠地承認了這一點。
走回頭路的原因則有很多。首先,純粹的序列模型對大數據而言非常有吸引力。想像一下:一個一條路走到底的、無需引入其他任何結構就能學習千萬級別的文本數據。二是它非常適合當下的硬體技術,樹形模型里,任何「組成短語 A 還是短語 B」的選擇與嘗試都會損失 GPU 的高效性。反之,如果同時對大量數據進行同種運算,GPU 會非常快。因此,給定現有的硬體條件和數據情況,有非常多理由支持研究者選擇使用序列模型。
還有一些技術原因有待解決,比如,如果引入了句子結構就必然要做硬決策,硬決策沒法很好結合目前的學習演算法(例如反向傳播)。結合不了就只能用強化學習這樣的技巧,雖然近年研究強化學習的熱情很高,但是獲得一個好用的強化學習模型可比反向傳播模型難多了。
此外,關於是否要在深度學習模型中明確地將語言結構表達出來這一點,最近也有不少發現。儘管在序列模型里,隨著時間步長的推移你得到的只是一個又一個大型的向量,但是深度學習模型非常高效的一點就在於,它給了研究者很大的靈活性去利用這些向量。在模型內部,它可以習得如何表達並利用特定的語言結構。
「因此,我認為序列模型很有效,但同時我不覺得它會是最終的自然語言解決方案。無論如何,最終我們會回到非序列模型,表達很多比序列更有趣的結構。」Manning 說。
結構,結構…… 如果讓一個足夠智能的關鍵詞提取模型分析我們的對話,「結構」這個詞無疑會排名關鍵詞第一。就連 Manning 自己最近的研究課題,關係抽取,也正瞄準了「從文本中到結構化信息」這一主題。
「我們試圖從文本中建立知識庫。從科學期刊到娛樂雜誌,把那些用來給『人』提供信息的文章變成機器可用的結構化的知識庫形態。現在知識庫的構建還是一個純手工過程,還沒有技術能讓計算機『讀懂』文章然後自己建立知識庫。這和機器閱讀理解或者自動問答不同,不是一個『文本到文本』的過程。在知識庫的構建過程里,信息的匯總是無法通過瀏覽純文本完成的,我們總要把人類語言變成結構化知識。」
而以結構為線索,我們也終於理解了 Manning 看似矛盾實則非常統一而堅定的態度:他肯定神經網路和序列模型的現在,因為它們在捕捉結構方面相比於其他模型確實有可取之處;他否定神經網路和序列模型的未來,因為天然的局限性決定了它們就是無法捕捉到那些必不可少的結構;他在還沒有可行方法出現前相信聯結主義和符號主義的結合,因為大腦的結構、人類思維的結構就是這樣做結合的…… 我們也談到了中文在自然語言處理中的特殊性,「同樣做句子成分分析或者翻譯,中文就是比其他語言困難。因為它更模糊,沒有明確的時態變位、沒有語法性別,而且是少有的、可以自由地省略任何句子成分的語言。」正是這些變化無常的結構,讓再昂貴的語言模型也變得不完美,卻同時帶給人類無與倫比的美。
「我們的面前還有太多需要完成的工作」,談及模型與語言本身的差距,他嚴肅到近乎焦慮。「現在我們僅僅能夠用自然語言理解模型做一些非常非常簡單的小事。它們可能很好用,例如谷歌的自動回復,七分之一想要簡短回復對方的人會選擇用它來生成回答了。但是更為複雜的嘗試大多數都不成功。我們的技術還遠遠不夠好,大部分對話機器人仍然在使用非常簡單的機器學習文本分類器來確定對話的主題,然後用非常簡單的手寫規則完成一些填空工作給出一個回答,這個系統一點也不複雜,因此也做不了什麼非常有用的事情。雖然領域裡熱情很高,但我覺得在未來幾年裡,會有大部分努力宣告失敗吧。」
「我們的面前還有太多需要完成的工作」,他重複了一遍,停頓了一下,或許腦海里逐一浮現了他樹狀的模型,圖狀的文本信息,所有已完成的未完成的精妙結構…… 然後,他又變成了那個親和到近乎老頑童的 Chris Manning:「看樣子,短時間內我不會失業了。」
References:
[1] Chiang T. Story of your life. Arrival[M]. New York: Vintage Books, 2016:91-145.
[2] Domingos P. Master Algorithm[M]. Penguin Books, 2016.
[3] Garson J. Connectionism. California: Edward N. Z (ed.), 2016. [2017-08-25]. https://plato.stanford.edu/entries/connectionism/#ShaConBetConCla.
[4] Manning C D. Computational linguistics and deep learning[J]. Computational Linguistics, 2016.
[5] Manning C D, Schütze H. Foundations of statistical natural language processing[M]. Cambridge: MIT press, 1999.
[6] Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.
And multiple keynotes of Christopher Manning: Tsinghua 2017, CIPS Summer School 2017, Simons Institute 2017, SIGIR 2016, ACL Tutorial 2016, Workshop on Vector Space Modeling for NLP 2015.
※超少量數據訓練神經網路:IEEE論文提出徑向變換實現圖像增強
※PyTorch和TensorFlow:九項對比讀各自長項短板
※英特爾發布Movidius Myriad X VPU:提出神經計算引擎
※斯坦福大學《語音與語言處理》第三版:NLP必讀書籍
TAG:機器之心 |
※Letting the Heart Go Beyond 讓心超越
※是超越還是平平無奇?Vetements x Swear London 公布
※LeBron James超越Michael Jordan?!連續867場霸氣表現的歷史第一!
※LeBron James超越Michael Jordan!連續867場霸氣表現的歷史第一!
※Netcraft 6月Web 伺服器排名:Nginx有望超越Microsoft,Apache持續走低
※Tesla ModelS美國或是歐洲銷售量超越了S-Class與7-Series
※iPhone X Plus基準測試 性能大幅超越Android產品
※Mark Zuckerberg 超越「股神」Warren Buffett 成全球富豪榜第三名
※Spotify美國用戶數量已被蘋果Apple Music超越
※操作系統安全哪家強?Linux超越Windows和macOS
※Sainsbury和Asda合併 超越Tesco成最大超市
※NBA 交易消息 ? Bleacher Report 公布「湖人球星排行」中 LeBron 超越 Kobe
※防彈SUGA、RM、J-Hope超越愛豆等級的rap實力,請稱之為artists
※超越 Pixel 2、iPhone X,三星 S9 Plus獲DXOMark 史上最高分
※超越 Pixel 2、iPhone X,三星 S9 Plus 獲 DXOMark 史上最高分
※藍染版的ACRONYM? x NIKE Air Force 1美到超越Virgil Abloh聯名!
※藍染版的ACRONYM x NIKE Air Force 1美到超越Virgil Abloh聯名!
※LV超越時代審美的Monogram
※Facebook雄風不再:在美訪問量被Reddit超越
※《Black Panther》超越《Titanic》奪得美國電影史上最高票房第三名