當前位置:
首頁 > 最新 > 李航:深度學習與自然語言處理—優勢和挑戰「全文翻譯」

李航:深度學習與自然語言處理—優勢和挑戰「全文翻譯」

編者按:《國家科學評論》於2018年1月發表「機器學習」特別專題,由周志華教授組織並撰寫文章。專題內容還包括對AAAI前主席Tom Dietterich的訪談,徐宗本院士、楊強教授、朱軍博士、李航博士、張坤博士和Bernhard Scholkopf等人的精彩文章。

前華為諾亞方舟實驗室主任、現今日頭條人工智慧實驗室主任李航博士介紹了在自然語言處理的五大任務——分類、匹配、翻譯、結構預測和序貫決策過程——中應用深度學習技術的優勢和挑戰。

「關注本公眾號,回復「李航」獲取英文版PDF」

深度學習與自然語言處理:優勢和挑戰

作者:李航

翻譯:劉市祺

校譯:葉奎

引言:

深度學習是指基於「深度」神經網路的機器學習技術,如深度神經網路(DNN),卷積神經網路(CNN)和遞歸神經網路(RNN)。目前,深度學習已成功應用在自然語言處理方面並且取得了重大進展。本文總結了深度學習在自然語言處理方面的最新進展,並討論了它的優勢和挑戰。我們認為自然語言處理主要有五個任務,即分類、匹配、翻譯、結構預測和序貫決策過程。對於前四個任務,深度學習方法已經超越或明顯超越了傳統方法。端到端的訓練和表徵學習是深度學習的關鍵特徵,這使深度學習成為自然語言處理的強大工具。 然而,深度學習並不是萬能的。 深度學習仍不足以解決多輪對話等複雜的推理和決策問題。此外,如何將符號處理和神經處理相結合、如何處理長尾現象等也是深度學習在自然語言處理方面所要解決的挑戰。

自然語言處理的進展:

我們認為,自然語言處理有五大主要任務,分別是分類、匹配、翻譯、結構預測和序貫決策過程。 如表1所示,自然語言處理中的大多數問題都可以形式化地歸到這五個任務中。在這些任務中,單詞、短語、句子、段落甚至文檔通常被視為一系列標記(字元串)進行處理, 儘管它們的複雜性不盡相同。 但是實際上,句子是使用最廣泛的處理單元。最近研究表明,深度學習可以提高前四項任務的性能,並成為了解決這些任務的最先進技術(例如[1-8])。

表2展示了深度學習方法在自然語言處理方面超越傳統方法的實例。 在所有自然語言處理(NLP)問題中,機器翻譯的進步尤其顯著。神經網路機器翻譯,即基於深度學習的機器翻譯,其性能已經顯著著優於傳統的統計機器翻譯。 最先進神經翻譯系統採用包含RNN的序列到序列(sequence-to-sequence)學習模型[4-6]。深度學習也首次使某些應用成為可能。 例如,深度學習已成功應用於圖像檢索(也稱為文本到圖像),其中待查詢文本和圖像首先經過卷積網路(CNN)轉換為向量,然後用DNN去匹配對應的向量,最後計算圖像與待查詢文本的相關性 [3]。 在基於生成的自然語言對話中也採用了深度學習,即給定一個語句,系統會自動產生一個應答,模型是以這種序列到序列的學習方式進行訓練的[7]。

第五項任務,即如馬爾科可夫決策過程這樣的序貫決策過程,是多輪對話中的關鍵問題。 然而,還沒有完全證實,深度學習可以如何為這項任務發揮作用。

優勢和挑戰:

如表3所示,深度學習在自然語言處理方面確實優勢與挑戰並存。

優勢:

我們認為,端到端的訓練和表徵學習的優勢正是將深度學習與傳統機器學習方法區分開來的主要因素,使深度學習在自然語言處理方面變成了一個強大工具。

深度學習通常可以在應用程序中進行端到端的訓練。這是因為模型(深度神經網路)具有強大的表徵能力,同時數據中的信息可以在模型中進行有效編碼。例如,在神經機器翻譯中,模型完全由平行語料庫自動構建,並且通常不需要人為干預。與統計機器翻譯的傳統方法相比,這顯然是一個優勢,因為在統計機器學習中特徵工程是至關重要的。

通過深度學習,不同形式(如文本和圖像)的數據都可以學習並表示為實值向量。這使得跨模態進行信息處理成為可能。例如,在圖像檢索中,可以將查詢(文本)與圖像進行匹配並找到最相關的圖像,因為所有這些信息都是以向量表示。

挑戰:

深度學習存在一些比較普遍的挑戰,例如缺乏理論基礎、模型缺乏可解釋性、需要大量的訓練數據和巨大的計算資源。 當然在自然語言處理方面也存在其獨特的挑戰,即難以處理長尾問題,無法直接處理符號,以及無法有效推理和決策。

自然語言中的數據總是服從冪律分布(power law distribution)。其結果是,比如說隨著數據量的增加,辭彙量也會增加。這意味著無論訓練數據有多少,總是存在訓練數據無法覆蓋的情況。 如何處理長尾問題對深度學習構成重大挑戰。 僅僅靠深度學習,長尾問題可能很難解決。

語言數據是天生的符號數據,它與深度學習通常使用的向量數據(實值向量)不同。 目前,語言中的符號數據被轉換為向量形式的數據,然後輸入到神經網路,在神經網路的輸出進一步轉換為符號數據。 實際上,對於自然語言處理的大量知識都是以符號的形式存在的,包括語言知識(例如語法),辭彙知識(例如WordNet)和世界知識(例如維基百科)。 目前,深度學習方法尚未能有效利用這些知識。 符號表示可以很容易解釋和運算,另一方面,向量表示對歧義和雜訊具有魯棒性。 如何組合符號數據和向量數據,以及如何利用這兩種數據類型的優勢仍然是自然語言處理的一個懸而未決的問題。

在自然語言處理中有許多複雜的任務,僅僅是靠深度學習是不容易實現的。 例如,像多輪對話這樣相當複雜的一個過程。 它涉及語言理解、語言生成、對話管理、知識庫訪問和推理。對話管理可以形式化為一個序貫決策過程,同時強化學習可以在其中發揮關鍵作用。 顯然,這個任務超出了深度學習本身所能解決的範疇,深度學習和強化學習的結合對於解決這個任務是具有巨大的潛力。

總而言之,深度學習在自然語言處理方面仍存在一些開放性挑戰。深度學習與其他技術結合 (強化學習,推理,知識),可能會進一步推動該領域前沿的發展。

文中數字註明的引用文章,詳見英文版PDF。

《國家科學評論》(National Science Review, NSR)是我國第一份英文版自然科學綜述性學術期刊,定位於全方位、多角度反映中外科學研究的重要成就,深度解讀重大科技事件、重要科技政策,旨在展示世界(尤其是我國)前沿研究和熱點研究的最新進展和代表性成果,引領學科發展,促進學術交流。NSR的報道範圍涵蓋數理科學、化學科學、生命科學、地球科學、材料科學、信息科學等六大領域。基於科睿唯安發布的2016年度的期刊引證報告(Journal Citation Reports,JCR),NSR的最新影響因子達到8.843,穩居全球多學科綜合類期刊的第五名(8%,Q1)。NSR發表的所有論文全文可以在線免費閱讀和下載。

本文經《National Science Review》(NSR,《國家科學評論》英文版)授權翻譯,「機器學習」專題的更多翻譯文章將陸續刊出。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 人工智慧前沿講習班 的精彩文章:

張宇 楊強:多任務學習概述「全文翻譯」
紀榮嶸:深度神經網路壓縮及應用

TAG:人工智慧前沿講習班 |