當前位置:
首頁 > 新聞 > 專訪深度好奇創始人呂正東:通向理解之路

專訪深度好奇創始人呂正東:通向理解之路

機器之心原創

作者:虞喵喵

「理解應該是對應於某一個特定場景下的語用」。

在斯坦福大學計算機科學與語言學教授 Christopher Manning 2015 年的文章《Computational Linguistics and Deep Learning》中,他提到無論 Yann LeCun、Geoff Hinton 還是 Yoshua Bengio,都在這一年將關注點轉移到自然語言。Yann LeCun 認為自然語言理解是深度學習接下來要解決的重要問題,Geoffrey Hinton 則認為未來五年最令人興奮的領域將是文本和視頻理解。

2016 年,斯坦福推出了閱讀理解數據集 SQuAD,希望成為「NLP 領域的 ImageNet」。在翻譯、多輪對話之外,人們開始關注 NLP 的更多任務,如文本生成、摘要、甚至與圖像結合的看圖答題等等。龐雜多樣的任務是否真的通向我們想要達到的「理解」?在深度好奇的創始人兼 CTO 呂正東博士看來,答案似乎並不樂觀。

專訪深度好奇創始人呂正東:通向理解之路

深度好奇創始人呂正東

呂正東博士曾任職於微軟亞洲研究院、華為諾亞方舟實驗室,長期從事機器學習及人工智慧的研究,在自然語言理解、自動推理、語義匹配、問答、對話等方面卓有建樹,是深度學習領域(尤其是 NLP 方向)具有世界頂尖水平並享有國際聲譽的科學家和技術專家。

在採訪前的溝通中,呂正東博士希望著重談論聯結主義和符號主義,並認為「這種結合有多個層面的含義,是通向理解的必由之路」。故本文圍繞神經符號系統展開,同時也詢問了呂正東博士對 NLP 領域理解、評判標準、接下來的突破將出現在哪一細分方向的看法,讀者可依上、中、下篇題目酌情閱讀。

上篇:符號主義與神經符號系統

機器之心:您為什麼希望談論符號主義?

呂正東:首先符號主義是之前的一個潮流,大家對深度學習產生最初的熱情後,很快發現需要用符號主義才能解決一些困難。符號主義超越了比較初級的感知層面,而 NLP 的任務一直是在認知層面,所以在我看來,認為符號主義重要是很自然的事。我吃驚的是為什麼深度學習 community 對符號主義關注得這麼晚,一個可能的原因是之前不斷有人嘗試(符號主義),但是一直沒有特別成功的經驗。

機器之心:符號主義誕生得非常早,我們當下語境中的符號主義與早期談論的符號主義有哪些區別?

呂正東:本質上大家對「符號」本身的理解沒有太大區別,差異更多是體現在找到有希望實現聯結主義和符號主義結合的路徑,也就是神經網路與符號智能的結合。之前大家看到的更多是困難,在萬能的「基於神經網路」的方法取得成功後,找到了一些新的可能。之前機器學習領域很少有人用 representation 這個詞,更多是在傳統的符號意義上使用 knowledge representation 等詞語。後來大家討論神經網路的 vector representation、distributed representation,開始發現神經網路可能會通向偏符號式的表示和執行。由此,二者的結合有了新的可能、新的思想和新的成功嘗試,這大概是最近 5 年左右的變化。

機器之心:最近 5 年符號主義和聯結主義的融合有哪些進展?

呂正東:從泛化的角度來說,我們開始用神經網路來表示符號本身。基於深度學習的自然語言處理基本上都在做這件事,它帶來的視角是用聯結主義可以實現一定程度的符號智能。在此之後,大家開始意識到這種表示方式會有一定的問題,併產生了一些新的結合方式。

第一個結合點在表示層面上。在純粹的深度學習領域所有東西都是向量或矩陣,即我們通常所說的 distributed representation。我們的一些想法和工作是在表示層面上納入符號,讓 distributed representation 和 symbolic representation(符號表示)共存。符號表示可以代表一個 entity 或者其他不太適合用 distributed representation 表示的東西。

第二個結合點在操作層面上。我們可以把神經網路性質的「操作」和符號的操作結合。比如我們提出一個問題,用這個問題去操作知識庫或資料庫,會有類似 SQL 語句查詢的動作。這個動作本身是比較清楚的符號行為,但它可以被神經網路化(neuralize)。「Neuralize」這個詞是我們之前發明的,像資料庫查詢這類曾經被認為是非常符號化的東西都可以被 neuralize。你可以把整個資料庫和操作語句嵌入其中,然後通過某種複雜的作用得到最後的結果,我們去年的文章《Neural Enquirer》就是在做這件事。某種形式上,我們走向了符號主義和聯結主義結合的另外一面,即用聯結主義去完全代替或者說實現符號主義,包括它的表示和它的執行。

專訪深度好奇創始人呂正東:通向理解之路

圖示來自論文《Neural Enquirer: Learning to Query Tables with Natural Language》(IJCAI-16),地址:https://arxiv.org/abs/1512.00965

但我們部分放棄了這個想法(即基於神經網路的操作代替符號的操作),原因是它會帶來很多的問題。我們將符號再次引入,這類模型包括我們今年在 ICML 的工作以及在此之前如 Neural Programmer 這樣的工作。系統用一個神經網路不斷地調用符號化操作,這個過程可以看成是一個 sequential、 類似 MDP(馬爾可夫決策過程)的過程,每個時刻它都會決定是否採用一個符號化的操作。這是一個「軟硬結合」的思路,即用神經網路來做最終的中樞控制,但是它的局部操作是可以完全符號化的。尤其有意思的是,我們今年 ICML 的工作在同一系統中允許兩條通路,一條通路是完全神經網路化的操作,另外一條通路是神經網路控制符號化操作。它讓 distributed view 和 symbolic view 不停地交換信息,可以實現學習效率和執行效率的兼得。

專訪深度好奇創始人呂正東:通向理解之路

圖表來自深度好奇 ICML 2017 工作《Coupling Distributed and Symbolic Execution for Natural Language Queries》,該方法在理解 Query 上表現出高準確度、高效率及強可解釋性

第三個結合點是在知識層面上。我們一直孜孜以求的一個方向,就是怎樣把符號的知識直接教給神經網路。2014 年初,我一直在做的一件事是「規則的消化」,就是和神經網路交換非常 dry 或者說抽象的知識,比如「如果……就……」這樣的邏輯表達式。包含神經網路的統計學習模型比較擅長從實例中學習,但實例都是個例,需要模型去做歸納。如果我們把一個已經總結好的東西交給它,意味著可以繼續推出很多很多例子。目前神經網路學習抽象知識還比較笨拙,至少目前就沒有非常好的路徑去做這麼一件事情。但這又是極端重要的,因為人在建立了初級的知識結構後是會進行抽象交流的。抽象交流一句話意味著雙方可能掌握了需要一萬個例子才能學會的知識。這種知識非常符號化,它的每一個符號後面都非常抽象地代表了各種不同的東西。因此,神經網路式的知識表示和符號化知識表示的結合,是神經網路和符號智能結合的第三個重要的點。

在語言理解技術的發展過程中,大家應該會從上述三個層面去解決問題。在實際任務中,能發揮重要作用的將是一個足夠可靠的模型,這可能會是三者結合的產物。

機器之心:符號主義誕生於基於規則的時代,但規則是無法窮盡的,或者說是模糊的、模稜兩可的,這個問題應該怎麼樣去解決?

呂正東:之所以很難建立一個非常靈活的規則系統,是因為規則往往有例外。自然語言處理中的規則處理有三個難題:第一是自然語言的靈活性及模糊性;第二是規則知識上的各種例外;第三是很多規則很難表達,比如要完整地表達常識邏輯,需要收集和建立一個非常龐雜的規則系統。這三點都導致至今沒有成功的規則系統。

我們的野心在於把兩個方面的優勢結合起來,一方面是規則性知識的抽象性及表達的效率,另一方面是神經網路的靈活性及可學習性,但這種結合是非常困難的。人類在交流知識時默認會有一定的例外,比如「鳥會飛」代表的是「大部分鳥會飛」。但在什麼時刻去應用這個規則?大家常說的一個例子是「樹上五隻鳥打了一隻」,大多數人在處理這個問題的時候,要麼默認在常見的語境下鳥是會飛的,要麼用一個複雜的推理去推斷,鳥已經在樹上則它一定是會飛的。兩條路徑中的任何一條,在演算法層面上都是非常複雜的。

規則和神經網路結合的困難還體現在另外一個角度。首先是怎麼把知識嵌入進去,即使它是一個百分之百正確的知識也是棘手的。其次是把不確定性嵌入其中,這同樣也是困難的。我們在這個方向嘗試過十幾個不同的模型,也有過一些特定方向的成功,但總體來說還未找到讓自己滿意的方法。不過我仍認為這種結合是一件極度重要的事。

機器之心:神經符號系統與我們通常意義上提到的神經網路有哪些區別和聯繫?

呂正東:區別是在神經符號系統中,我們有意識地在神經網路裡面植入了符號的部分,因為符號一定是需要設計的。通常情況下對神經網路的設計是給一個架構,其中可能會加入 attention 等稍微複雜一點的機制;而神經符號系統需要更多在 representation 和 execution 意義上的設計,也需要規則性知識在存儲意義上的設計。在這裡,神經網路表示的形式、符號存在的形式以及符號和神經網路交互的形式,每一點都需要去人為設計。我們的理想是系統對數據沒有任何要求,它很可能是跟普通的神經網路在解決同一個問題,但是有更好的模型能力和泛化能力。

中篇:自然語言的「理解」與方向

機器之心:去年斯坦福大學去年推出了閱讀理解數據集 SQuAD,它的測試結果是否能代表演算法有一定的自然語言理解能力?

呂正東:我對閱讀理解的看法其實是偏負面的。這兩年我經常會說,現在一些看起來跟語義相關的任務其實是 pretend-to-understand,也就是「裝作懂語義」。之所以這麼說,是因為我覺得這種說法表達了一個很重要的視角——Pretend-to-understand 可以做很好的事情(比如翻譯),但不應該認為這條道路會通向我們所追求的「理解」。正確的路徑應該是退回來,去做更接近問題本身結構的任務,這可能在垂直領域才能實現,所以我不建議在前期盲目地進入開放領域。事實上,在開放領域唯一能做的事情就是 pretend-to-understand,因為實在沒有辦法建立一個有足夠高覆蓋度和足夠低複雜度的 ontology 或者是「理解的範式」。建立一個能夠解決某一閱讀理解任務的 ontology 所需要的時間,遠遠超過去刷一個分數。大家目前的處理只是在很淺的層面上,形式上已經很快就會接近天花板。後面的推進可能更多地是依靠遠離本質的奇淫巧技。

機器之心:如果我們不依靠數據集,該如何判斷一個演算法有自然語言理解能力?

呂正東:從兩個層面看,第一是「理解」這件事本身的定義就很模糊。我比較認同的看法是:「理解應該是對應於某一個特定場景下的語用」。以此為基礎,理解一定是投射到某一個固定領域才可能有一定意義。第二,如果要為「理解」找到一個可檢測的、但不一定具備可操作性的定義,「理解等價於這個表示(representation)能夠通過一個一般性的裝置回答所有相關問題」,這就是真正意義上的理解。所以翻譯不是理解,它相當於只回答了一種形式的問題;它並不追求理解的表示,也不追求普遍回答問題的形式。我們隨便看到的一句話,想給它一個普遍的表示都近乎不可能,即使是只提煉出比較主幹的語意都相當困難。所以更現實的目標是在一個限定領域裡,試圖去構建和這個領域相關的事實的 representation,它可以是一個知識圖譜或是其他形式。

機器之心:人類的對話在語言之外有語境和背景知識,才能互相理解。如果理解存在於領域中,通用對話系統的前進方向在哪裡?

呂正東:首先我認為通用對話系統並不是一個正確的方向(包括通用的多輪對話),因為它的 methodology 和對效果的評價都是沒有道理的。在通用領域進行一個真正有意義的對話,模型需要最起碼 billion 級別的參數。如果想達成我們希望的某種靈活性(例如對知識的靈活運用),目前的架構和訓練數據都不夠用,所以只能「裝作很懂你」。大家在閑聊時會有天然的寬容,只要回復碰觸到某個點就可以,但事實上並沒有達到我們想要的理解和創造。作為產品這或許沒有問題,但不能被當成智能的標誌。某種意義上,目前出現的通用對話系統是一個小小的里程碑,但不標誌著正確的道路,也不應該過度解讀。

機器之心:與圖像識別四大主任務不同,NLP 的任務很龐雜(分詞、看圖說話、機器翻譯、閱讀理解、文本生成等等),您認為近期 NLP 的哪些任務會有一些技術上的突破?

呂正東:現在的翻譯和看圖說話用的是差不多類似的技術,大家缺乏一套比較系統的方式去表示語言層面的知識,造成像「摘要」這種對知識要求比較高的任務就會難以解決。翻譯之所以能夠取得成功,首先是因為它有非常強的源端信號和非常清楚的任務中的特定結構(如對齊)可以利用,這使得它在很多時候不依靠理解就可以做得比較好。其次是因為翻譯本身「有用性」的標準不是很高,即使是很糟糕的逐字翻譯也會有所幫助。現在開始,我們已經進入了自然語言處理的新階段,不太可能複製機器翻譯式的成功。Semantic parsing 已經成為繞不開的事情,不管它多近或多遠,都應該是下一個任務。NLP 接下來的突破應該還是會在比較淺顯的解析類任務上,如問答等特定語境下的 semantic parsing。

機器之心:NLP 哪一個方向落地或者產品化會更有前景?

呂正東:直觀地說,是離錢比較近、數據比較豐富、知識結構梳理得比較好的領域。以 Kensho 為例,大家會願意掏錢去買,程序員也比較有願望去做。再比如法律和醫療,它們是接近同構的兩個領域,都有大量和用戶交互的專家以及規範的領域知識。類似這類有富集的文本、領域知識、交互記錄的領域,比較容易取得自然語言理解和相關任務的突破。

下篇:關於深度好奇

機器之心:深度好奇的技術特點和優勢,主要是神經符號系統的應用嗎?

呂正東:我們並不是一開始就一定做神經符號系統,而是大家逐漸發現需要這樣的新方法來完成某些任務。之前我在華為時就和李航老師一起探討了很多神經網路和符號智能結合的方式,我們都認為這是人工智慧的未來,但那時我們還沒有那麼多清晰的想法,也沒有那麼多具體的任務需要這樣做。後來在深度好奇,我發現所做的任務越來越偏理解,並且發現在理解這個大的技術任務上,神經網路和符號智能的結合是必須的。因為理解到了一定的深度之後,就要去處理基於理解的各個概念和實體之間的關係,這種關係只有靠符號智能才能梳理得清楚,這是我們選擇去做神經符號系統的原因之一。第二個原因,是我們在做的法律相關的任務需要可解釋性。可解釋性與符號性非常相關——先用了哪個法條、哪個知識或者事實,得出了什麼結論,在法律領域都需要給出推理的過程。這一切會需要一種既貼近人的思維方式,又準確描摹實際問題內部結構的技術,即神經符號系統。正因為兼具了這些重要特質,神經符號系統可以被認為是深度學習的一個新的高級形式。

機器之心:深度好奇在法律方面所做的工作具體表達為什麼樣的產品和形態?在法律之外你們還會涉足其他領域嗎?

呂正東:我們在做的大部分工作,可以認為是在為文本找到一個合適的表示方式。不同類型的文本,面向不同的任務會有不同的表示方式,這些表示方式存在的目的是為了與後續任務相結合,具體來說可以是庭審的建議,也可以是對某一事情的預測。目前我們在做法律相關領域,同時對其他領域持開放的態度,但我們不會貿然進入一個新領域。對領域的選擇要基於一些基本的原則,第一是做的事情要對這個領域至關重要,應該是雪中送炭而非錦上添花;第二要考慮熟悉領域邏輯和建立領域 ontology 的成本。因為我們的做法不是向新領域應用一套技術,而是去深入研究這個領域。雖然這個過程中一定有很多東西可以遷移,但也有很多東西必然要重新去做,導致成本可能會很高。如果這對於該領域的重要性和經濟利益都高到某一個層面上,我們就可以去做。

機器之心:深度好奇的人員構成是怎樣的?

呂正東:在深度好奇大家都會非常開放地交流想法,但做的事情還是有明確分工的。我們團隊中有人以演算法研究為主,但要基於某一個現實問題,不是單純為了發文章而做的。同時我們也有一群離現實項目更近的工程師,他們同樣也可以不斷跟其他偏研發的小夥伴們交流。我們有點像 Google 的模式,某種意義上每個人都是演算法工程師,只是一部分會偏現實的項目,一部分更偏向項目中抽象出來的演算法任務。

最後,深度好奇團隊隨時歡迎大家的加入!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

百度開源新一代深度學習硬體測試工具:覆蓋Titan Xp到iPhone7
螞蟻金服發布「定損寶」,推動圖像定損技術在車險領域的應用
認知心理學解釋DNN:DeepMind新研究破解AI黑箱問題
加入巨頭競爭之列,索尼開源可在Windows中運行的神經網路庫NNabla

TAG:機器之心 |

您可能感興趣

深度剖析,中興渡劫,創始人侯為貴赴京
專訪菲朴創始人廖燕純
杜嘉班納兩位創始人通過視頻正式道歉:在文化理解上有偏差
年輕的耳東明樾,如何創造未來?丨專訪創始人吳樾
專訪商湯聯合創始人楊帆:「從半山腰開始跑」做手機人臉解鎖
真正成功的遊戲都是因為有愛:專訪武漢火游網路創始人童洋
專訪長樂未央創始人劉東:做最不正經的IT教育
小紅書創始人瞿芳:無法判定廣告 正加大治理力度
構成威脅 維基解密創始人阿桑奇被禁止與外界通訊
鈦媒體創始人趙何娟狂撕劉強東的命理原因
專訪圖瑪深維創始人鍾昕:做醫療 AI 要心懷敬畏感
線上直播!索道投資創始合伙人石東華《智能機器人行業落地的探索之路》
麗緹萊創始人邱總接受廣東衛視採訪
愛樂祺創始人陳靖做客CCTV《超越》欄目朱迅專訪,暢談托幼早教新發展
外媒:富士康創始人郭台銘最快本周五離職 新管理層缺核心領導人
創始人「跑路」,但卻還在更新系統,網友:國產手機良心之作
創說創始人吳曉亮:河流與商業文明
暴走漫畫創始人烈士林園致歉,網友:態度能誠懇點嗎 不接受
索道投資創始合伙人石東華《智能機器人行業落地的探索之路》
華為創始人任正非:為智能世界服務