當前位置:
首頁 > 新聞 > 深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?

深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?

選自Nautil

作者:Christopher D. Manning

機器之心編譯


機器翻譯、聊天機器人等自然語言處理應用正隨著深度學習技術的進展而得到更廣泛和更實際的應用,甚至會讓人認為深度學習可能就是自然語言處理的終極解決方案,但斯坦福大學計算機科學和語言學教授 Christopher D. Manning 並不這麼看,他認為深度學習確實能在自然語言處理領域有很大作為,但卻並不能取代計算語言學。

深度學習浪潮

這些年來,深度學習浪潮一直衝擊著計算語言學,而看起來 2015 年是這波浪潮全力衝擊自然語言處理(NLP)會議的一年。然而,一些專家預測其帶來的破壞最後還會更糟糕。2015 年,除了法國里爾召開的 ICML 大會,還有另外一個幾乎同樣大的事件:2015 深度學習研討會(2015 Deep Learning Workshop)。該研討會以一個 panel 討論結束,正如 Neil Lawrence 在該 panel 上所說的:「NLP 有點(kind of)像是深度學習機器車燈前的一隻兔子,等著被壓扁。」很明顯,計算語言學界需要慎重了!它會是我的道路的終點嗎?這些壓路機般的預測來自哪裡?

2015 年 6 月,巴黎 Facebook 人工智慧實驗室開幕上,負責人 Yann LeCun 說:「深度學習的下一大步是自然語言理解,不只是給機器理解單個詞的能力,而是理解整個句子、段落的能力。」

在 2014 年 11 月的 Reddit AMA(Ask Me Anything/隨便問)問答上,Geoff Hinton 說:「我認為接下來 5 年,最令人激動的領域將會是理解文本和視頻。如果 5 年內我們還沒有在看過 YouTube 視頻後能說出發生了什麼的東西,我會感到很失望。數年內,我們將會把深度學習安置到能夠放進耳朵那樣的晶元上,並造出像巴別魚(《銀河系漫遊指南》中出現的:如果你把一條巴別魚塞進耳朵,就能立刻理解以任何形式的語言對你說的任何事情。)那樣的英語解碼晶元。」

此外,現代深度學習的另一位泰斗 Yoshua Bengio,也逐漸增加了他們團隊在語言方面的研究,包括最近在神經機器翻譯系統上令人激動的新研究。

深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?

從左到右:Russ Salakhutdinov(卡耐基梅隆大學機器學習系副教授)、Rich Sutton(阿爾伯塔大學計算機科學教授)、Geoff Hinton(在谷歌工作的認知心理學家和計算機科學家)、Yoshua Bengio(因在人工神經網路和深度學習的工作而知名的計算機科學家)和 2016 年討論機器智能的一個 panel 的主持人 Steve Jurvetson,機器之心當時對此論壇進行了現場報道,參閱:《獨家 | Hinton、Bengio、Sutton 等巨頭聚首多倫多:通過不同路徑實現人工智慧的下一個目標 》

不只是深度學習研究者這麼認為。機器學習領軍人物 Michael Jordan 在 2014 年 9 月的 AMA 問答上被問到「如果在研究上你獲得了 10 億美元投入一個大項目,你想做什麼?」他回答說,「我會使用這 10 億美元建立一個專註於自然語言處理的 NASA 級項目,包括所有的方面(語義、語用等)。」他繼續補充說,「我非常理性地認為 NLP 如此迷人,能讓我們專註於高度結構化的推斷問題上,在『什麼是思想』這樣的問題上直入核心,但明顯更實際。它無疑也是一種能讓世界變得更好的技術。」嗯,聽起來不錯。那麼,計算語言學研究人員應該害怕嗎?我認為,不!回到 Geoff Hinton 前面提到的巴別魚,我們要把《銀河系漫遊指南》拿出來看看,其封面上用大而友好的字寫著「不要驚慌」。

深度學習的成功

過去幾年,深度學習無疑開闢了驚人的技術進展。這裡我就不再詳介,但舉個例子說明。谷歌最近的一篇博客介紹了 Neon,也就是用於的 Google Voice 新的轉錄系統。在承認舊版的 Google Voice 語音郵件轉錄不夠智能之後,谷歌在博客中介紹了 Neon 的開發,這是一個能夠提供更準確轉錄的語音郵件系統,例如,「(Neon)使用一種長短期記憶深度循環神經網路(長舒一口氣,whew!),我們將轉錄的錯誤率降低了 49%。」我們不都在夢想開發一種新方法,能夠將之前頂級結果的錯誤率降低一半嗎?

為什麼計算語言學家不需要擔心

Michael Jordan 在 AMA 中給出了兩個理由解釋為什麼他認為深度學習不能解決 NLP 問題,「儘管現在的深度學習研究傾向於圍繞 NLP,但(1)我仍舊不相信它在 NLP 上的結果強於視覺;(2)我仍舊不相信在 NLP 的案例中強於視覺。這種方法就是將巨量數據和黑箱的學習架構結合起來」在第一個論點上,Jordan 很正確:目前,在高層語言處理問題上,深度學習還無法像語音識別、視覺識別那樣極大降低錯誤率。儘管也有所成果,但不像降低 25% 或 50% 的錯誤率那樣驟然。而且可以很輕鬆地遇見這種情況還將持續。真正的巨大收穫可能只在信號處理任務上有可能。


語言學領域的人,NLP 領域的人,才是真正的設計者。

另一方面,第二個 我。然而,對於為什麼 NLP 不需要擔憂深度學習,我確實有自己的兩個理由:(1) 對於我們領域內最聰明、在機器學習方面最具影響力的人來說 NLP 才是需要聚焦的問題領域,這很美妙; (2) 我們的領域是語言技術的領域(domain)科學;它不是關於機器學習的最佳方法——中心問題仍然是領域問題。這個領域問題不會消失。Joseph Reisinger 在其博客上寫道:「我經常在初創公司做通用機器學習,坦誠講,這是一個相當荒謬的想法。機器學習並不是毫無差別的累活,它沒有像 EC2 那樣商品化,並比編碼更接近於設計。」

從這個角度看,語言學領域的人、NLP 領域的人,才是真正的設計者。近期的 ACL 會議已經過於關注數量、關注突破頂級成果了。可稱之為 Kaggle 競賽。該領域的更多努力應該面向問題、方法以及架構。最近,我同合作者一直專註的一件事是開發普遍依存關係(Universal Dependencies)。目標是開發出通用的句法依存表徵、POS 和特徵標記集。這只是一個例子,該領域還有其他的設計努力,比如抽象含義表徵(Abstract Meaning Representation)的思路。

語言的深度學習

深度學習到底在哪些方面幫助了自然語言處理?從使用分布式詞表徵,即使用真實值向量表徵詞與概念來看,到目前為止,NLP 並沒有從深度學習(使用更抽象的層級表徵提升泛化能力)獲得較大的提高。所有詞之間的相似性如具有密集和多維度表徵,那麼將在但不僅限於 NLP 中十分有用。事實上,分布式表徵的重要性喚起了早期神經網路的「分布式並行處理」浪潮,而那些方法更具有更多的認知科學導向性焦點(Rumelhart 和 McClelland 1986)。這種方法不僅能更好地解釋類人的泛化,同時從工程的角度來說,使用小維度和密集型詞向量允許我們對大規模語境建模,從而大大提高語言模型。從這個角度來看,提高傳統的詞 n-gram 模型順序會造成指數級的稀疏性並似乎會在概念性上破產。


智能需要能從知道小的部分理解整個大的事物。

我確實相信深度模型會很有用的。在深度表徵中發生的共享在理論上可以給出指數級的表徵優勢,並在實際上提升學習系統的性能。構建深度學習系統的一般方法是優秀而強大的:在端到端學習框架中,研究人員定義了模型的架構和最好的損失函數(loss function),然後對模型的參數和表徵進行自組織學習以最小化該損失。我們接下來會了解最近所研究的深度學習系統:神經機器翻譯(neural machine translation/Sutskever, Vinyals, and Le 2014; Luong et al 2015)。

最後,我一直主張更多地關注模型的語義合成性,特別是語言和一般人工智慧方面上。智能需要能從知道小的部分理解整個大的事物。尤其是語言,理解小說和複雜句子的關鍵在於能否從較小的部分(單詞和短語)構建整體的意義。

最近,許多論文展示了如何從由「深度學習」方法的分布式詞表徵來提升系統性能的方法,如 word2vec (Mikolov et al. 2013) 或 GloVe (Pennington, Socher, and Manning 2014)。然而,這並不是構建深度學習模型,我也希望未來有更多的人關注強語言學的問題,即我們能否在深度學習系統上構建語義合成功能。

連接計算語言學和深度學習的科學問題

我不鼓勵人們為了使用詞向量來增長一點性能而努力研究,我建議我們可以回到一些有趣的語言學和認知性問題上,這些問題將促進非分類表徵和神經網路方法的發展。

自然語言中非分類現象的一個例子是動名詞 V-ing 形式(如 driving)的 POS。這種形式在動詞形式和名詞性動名詞之間的經典描述是具有歧義的。事實上,真實情況是更複雜的,因為 V-ing 形式能出現在 Chomsky (1970) 的四種核心類別中:

深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?

更有趣的是,有證據表明其不僅有歧義,同時還混合了名詞-動詞的狀態。例如,作為名詞的經典語言學文本和限定詞一同出現,而作為動詞的經典語言學文本採用的是直接對象。然而,眾所周知動名詞名詞化可以同時做到這兩件事情:

1. The not observing this rule is that which the world has blamed in our satorist. (Dryden, Essay Dramatick Poesy, 1684, page 310)

2. The only mental provision she was making for the evening of life, was the collecting and transcribing all the riddles of every sort that she could meet with. (Jane Austen, Emma, 1816)

3. The difficulty is in the getting the gold into Erewhon. (Sam Butler, Erewhon Revisited, 1902)

這通常是在短語結構樹形圖的層次中通過某種類別的變更操作進行分析,但有證據表明,這個其實是語言中非分類行為的一種情況。

確實,這個解釋早期用於 Ross (1972) 的「squish」案例。歷時的(Diachronically),V-ing 形式表現出動詞化的增長歷史,但在許多時期,它表現出非常離散的狀態。如我們在這個領域找到的明確評估判斷:

4. Tom"s winning the election was a big upset.

5. This teasing John all the time has got to stop.

6. There is no marking exams on Fridays.

7. The cessation hostilities was unexpected.

限定詞和動詞對象的眾多組合聽起來並不是很好,但還是比通過派生詞素(如-ation)名詞化對象好多了。Houston (1985, page 320) 表明,V-ing 形式到離散詞性分類的分配要比連續型解釋在-ing 和-in 的語言交替性差得多(預測意義上)。他還認為「語法類別存在於一個連續統一體,它們在類別之間沒有明確的邊界。」

我的一個研究生同學 Whitney Tabor 探討了一個不同而有趣的案例。Tabor (1994) 研究了 kind of 和 sort of 用法的不同,我在 1999 年的教科書(Manning and Schutze 1999)介紹性章節中使用了該案例。名詞 kind 或 sort 能構成名詞性短語,或者作為副詞性修飾語的限制:

8. [That kind [of knife]] isn"t used much.

9. We are [kind of] hungry.

有趣的是,歧義性形式存在重新分析的路徑,如下面的語料對,它們展示了一種形式是如何從另一種形式出現的。

10. [a [kind [of dense rock]]]

11. [a [[kind of] dense] rock]

Tabor (1994) 討論了古典英語為什麼存在 kind,但極少或根本沒有 kind of 的用法。從中世紀英語開始,為再分析提供生長地的歧義語境開始出現(案例 (13) 中的是 1570 年的語句),隨後的非歧義案例限制性修飾語出現了(案例(14)是 1830 年的語句):

12. A nette sent in to the see, and of alle kind of fishis gedrynge (Wyclif,1382)

13. Their finest and best, is a kind of course red cloth (True Report,1570)

14. I was kind of provoked at the way you came up (Mass. Spy,1830)

這是一段沒有同步性(synchrony)的歷史。

讀者們,你們留意到了我在第一段中引用的那個例子嗎?

15. NLP is kind of like a rabbit in the headlights of the deep learning machine (Neil Lawrence, DL workshop panel, 2015)

Whitney Tabor 使用一個小型的深度循環神經網路(具有兩個隱藏層)對這個演化過程進行了建模。他在 1994 年利用與斯坦福的 Dave Rumelhart 一起工作的機會完成了該項研究。

就在最近,開始有一些新的研究工作旨在駕馭用於建模和解釋語言差異與變化的分布式表徵的力量。事實上,Sagi, Kaufmann, and Clark (2011) 使用了更加傳統的研究方法——潛在語義分析(Latent Semantic Analysis)來生成分布式語詞表徵,展現分布式表徵如何能捕捉到某個語義變化:隨著時間的推移,被指稱的對象範圍的擴大和縮小。比如,在古英語(Old English)中,deer 是指任一動物,但在中世紀以及現代英語中,這個單詞被用來清楚指稱某科動物。dog 和 hound 的意思調了個個兒:在中世紀英語中,hound 被用來指稱任何一種犬科動物,但是現在卻被用來指稱某特定子類,dog 的使用情況正好相反。

現在 NLP 對於機器學習和產業應用問題是如此關鍵,生活在這樣一個時代我們應該感到興奮和高興。

深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?

圖 1:cell 與四個其它單詞的餘弦相似度隨時間變化而變化(其中 1.0 表示最大相似度,0.0 表示無相似度)。

Kulkarni et al. (2015) 使用神經詞嵌入(neural word embeddings)建模詞義的轉變,例如,過去一個世紀來 gay 的含義的轉變(根據 Google Books Ngrams 語料庫)。在一個最近的 ACL 研討會上,Kim et al. (2014) 採用了一個相似方法——使用 word2vec——查看詞義的最近變化。例如,圖 1 中,2000 年左右他們表明 cell 的詞義如何從接近於 closet 和 dungeon 迅速改變為接近於 phone 和 cordless。在這一語境中一個詞的含義是超出詞的所有含義的平均值,並通過使用頻率加權。

分布式表徵的科學應用越來越多,利用深度學習為語言現象建模,是神經網路之前興起的兩大特點。後來,由於網路上引用和確定深度學習研究工作上有些混亂,我認為有兩個幾乎不再被提及的人:Dave Rumelhart 和 Jay McClelland。從聖地亞哥的並行分布式處理研究小組開始,他們的研究項目就旨在從更加科學和認知的角度研究神經網路。

利用神經網路來解決規則統領下的語言行為(rule-governed linguistic behavior)問題是否妥當?現在,研究人員對此提出了一些好的質疑。資歷老一些的研究人員應該還記得,多年前有關這一問題的論戰讓 Steve Pinker 聲名鵲起,也奠定了他六位研究生職業生涯的基石。篇幅有限,我就不在這裡展開了。但是,從結果上來看,我認為那一場爭論富有成效。爭論過後,Paul Smolensky 進行了大量研究工作,研究基礎分類系統如何出現,以及如何在一個神經基質中表徵出來(Smolensky and Legendre 2006)。實際上,人們認為 Paul Smolensky 在兔子洞里陷得太深,他將大部分精力投入到研究一種新的音系分類模型——最優化理論(Optimality Theory)((Prince and Smolensky 2004)中。很多早期的科研工作被忽略掉了。在自然語言處理領域,回過頭來強調語言的認知和科學調查重要性,而不是幾乎完全使用研究工程模型,這是有好處的。

總而言之,我認為我們應該為生活在自然語言處理被視為機器學習和工業應用問題核心的時代而感到激動。我們的未來是光明的,但每個人都應該更多地思考問題、架構、認知科學和人類語言的細節。我們需要探討語言是如何學習、處理,又是如何產生變化的,而不是一次次在基準測試中衝擊業內最佳。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

改進卷積神經網路,你需要這14種設計模式
通過高效的子像素卷積神經網路實現實時的單一圖像和視頻超解析度
ML系統與架構小組:如何在單塊GPU上訓練超大型深度學習模型

TAG:機器之心 |

您可能感興趣

深度學習不是魔法妖怪,只是數學計算而已
計算語言學的尷尬
量子計算時代,首先獲利的竟然是「化學家」!
量子計算時代,首先獲利的竟然是化學家!
DNF 地下城與勇士 合成成本計算 不要不知道哦
進化演算法可以不再需要計算集群,開普敦大學的新方法用一塊GPU也能刷新MNIST記錄
防盜計算器、高智商鐘錶,學校這些奇葩設計,讓學生嗨了!
計算機科學、經濟學交叉的時代,不懂計算經濟學理論談何應用?
還在用BMI計算肥胖程度?現在都流行BVI了
科學家們竟然用DNA攻擊了一台計算機!
用人類DNA成功入侵計算機系統,這就是科學的神奇力量
現代人有計算器,古代竟然也有,而且如此的神奇,讓科學家都震撼
王者榮耀 MVP計算方式有什麼好處,以及到底該不該拿MVP?
「AICC」AI將需要超百萬倍計算力,三因素決定深度學習模型計算
這不是科幻片!科學家稱未來計算機或能刪除你的思想
為什麼我們不是生活在計算機模擬中?科學家:違背自然規律
歐美人沒學過乘法口訣表,他們都是直接用計算器?
數學不止是枯燥計算,《美麗數學》:一本探索數學之美的塗色書
不是計算機專業,如何轉行寫代碼、到企業做 AI?聽聽這位機器學習科學家的經驗與建議