當前位置:
首頁 > 最新 > 讓機器「好好說話」:自然語言處理新進展

讓機器「好好說話」:自然語言處理新進展

今日聚焦

自然語言處理技術經歷了從過去的基於規則和統計到如今大範圍地使用深度學習技術。日前,自動化所自然語言處理組基於動態融合、人腦成分語義表徵、強化學習多語注意力機制辭彙表示信息抽取方面取得了一些新進展。

自然語言處理(NLP)被譽為人工智慧皇冠上的明珠,是計算機科學領域與人工智慧領域中的一個重要方向,在應用方面有著廣闊的空間。自然語言理解和自然語言生成是十分困難的。造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。那麼,如何有效的學習辭彙表示和抽取信息和關係就顯得尤為重要。

日前,自動化所自然語言處理組多模態辭彙表示模型、大規模關係抽取、時間檢測事件識別方面取得了一些新進展。

1.基於動態融合方法的多模態辭彙表示模型

相比基於文本的模型,多模態模型可以學習到更好的辭彙表示。之前的多模態辭彙表示模型平等地對待不同模態的信息。但是,不同模態的信息對於不同類型的辭彙的貢獻程度是不同的。比如對於抽象詞如「快樂」,文本模態對詞義的貢獻要大於感知覺模態的貢獻;而對於具象詞如「桌子」,文本和感知覺模態都會極大地影響辭彙的含義。這啟發團隊成員建立可以根據不同類型的辭彙對不同模態的信息加以區分的多模態辭彙表示模型。因此,團隊成員(王少楠、張家俊、宗成慶)提出了三種動態融合機制,可以分別針對模態、詞類和辭彙對不同模態賦予不同的權重。由於標準答案並不為人所知,因此,團隊成員提出可以通過間接利用相關或相似詞對作為弱監督信號,讓模態在學習辭彙是否是相關辭彙的過程中自動學習不同模態的權重。

在多個辭彙相關相似性數據集上進行了測試,結果表明動態融合方法可以極大地提高辭彙表示的質量。定性的結果分析表示,該模型可以針對不同類型的辭彙賦予不同的權重。該研究表明,利用計算模型對數據的規律進行挖掘可以幫助認知科學的相關研究。

GIF

2.基於人腦成分語義表徵的多模態辭彙表示和組合模型

已有研究表明多模態模型在學習辭彙表示方面可以得到相比單模態模型更好的效果。多模態辭彙表示模型指利用多種模態的信息(如視覺,聽覺,文本等)去學習辭彙的語義向量表示。但是,多模態辭彙表示中到底編碼了什麼信息,它們在什麼方面可以超過單模態的模型,以及不同模態的語義組合過程有什麼區別和聯繫,這些問題目前都沒有清晰的認知。由於多模態模型的研究最初是受到人腦概念表徵啟發而來,因此團隊成員(王少楠、張家俊、宗成慶等)假設與人腦的辭彙表徵進行相關性研究來回答上述問題。

團隊成員提出一種簡單的基於人腦成分語義表徵的相關性方法。首先通過與人腦成分語義表徵進行相關性分析,調查了不同類型的辭彙表示中蘊含了什麼樣的信息。基本假設是,如果兩個不同語義空間的距離矩陣具有高相關性,那麼這兩個空間的語義向量編碼了相似的信息。因此,結果得到的高相關性意味著計算模型中更多的編碼了這種屬性信息。接著將計算模型得到的辭彙語義表徵映射到人腦的成分語義表徵空間中,去探討組合模型究竟如何組合不同類型的辭彙的屬性。為了解釋不同類型的短語組合模型在組合辭彙向量的過程中發生了什麼,團隊成員設計了一種映射方法以直觀的比較不同類型的組合模型。這個方法的基本思想是通過將辭彙和短語向量映射到可解釋的成分語義空間中,來觀察辭彙在組合成短語的過程中不同的屬性是如何變化的,以此解釋不同類型組合模型的工作機制。

該工作探討了自然語言理解中最基礎的問題,就是如何表徵辭彙的含義以及如何將辭彙的含義進行組合構成更大粒度文本單元的含義。這是結合最新的認知心理學的研究成果和自然語言處理任務的一個初步嘗試。

相關性分析方法示意圖

GIF

3.基於強化學習的大規模關係抽取

關係抽取是自然語言處理領域的一個重要任務,它致力於從文本句子中抽取關係事實,即關係及其對應的兩個實體。傳統的有監督關係抽取方法雖然能在關係抽取任務上取得很好的效果,但是它們都依賴人工標註的數據,因此難以擴展到大規模的場景中。近年來學者提出使用弱監督的方法,利用現有大規模知識庫對文本進行自動回標,可以容易的得到大規模的弱監督數據。弱監督的數據以包為單位,一個實體對的包包含了所有同時提及這兩個實體的句子,因此存在噪音。弱監督的數據中單個句子沒有關係標籤,而包有直接的關係標籤。因此傳統的有監督模型無法直接應用到弱監督數據中。

為了突破傳統有監督方法無法在弱監督數據中應用的限制,團隊成員曾祥榮、何世柱、劉康、趙軍提出了一種利用強化學習在弱監督數據中進行句子級關係抽取的方法。該方法首先對一個包中的所有句子進行關係抽取,然後根據「expressed-at-least-once」假設用包中所有句子所抽取的關係來預測包的關係:如果包中所有句子的關係都是NA關係,則預測包的關係為NA,否則將包的關係預測為非NA關係類別中概率最大的那個。接著將包的預測結果與標註結果進行比較,從而得出獎賞值,最後利用該獎賞值對句子關係抽取器進行訓練。在公開的New York Times數據集的兩個不同版本上進行的實驗表明,該方法可以有效提升句子關係抽取器的性能。相比於基線方法,本文提出的方法取得了13.36%的提升。同時,該項工作將強化學習引入到關係抽取任務中,為如何進行大規模的關係抽取提供了新思路,並在自然語言處理的其它任務(比如開放式關係抽取、事件抽取等)中具有很大的應用潛力。

GIF

4.基於門控多語注意力機制的事件檢測

事件檢測和識別是信息抽取的一個重要任務,它致力於從非結構化文本中檢測出事件觸發詞並識別出其觸發的事件類型。目前這項任務的大多數方法僅僅專註於從單一語言中提取線索,忽略了其他語言所蘊含的大量信息。這些單語方法中存在的數據稀缺性以及單語歧義性問題,會在一定程度上影響事件的檢測識別效果。為了緩解單語方法中的這些內在問題,綜合考慮多語信息對單語方法進行改進和擴充是一種相對來說行之有效的解決途徑。

為了聯合多語信息進行事件的檢測與識別,團隊成員劉健陳玉博劉康、趙軍開發出一種多語方法(稱之為門控多語言注意(GMLATT)框架)來同時處理前述兩種問題。該方法採用上下文關注機制,利用多語數據的一致性信息緩解了數據稀缺的問題;同時提出了跨語言的門控注意力機制,利用多語數據所蘊含的互補信息,一定程度上緩解了單語歧義的問題。此框架首先採用機器翻譯獲得單語數據所對應的多語平行語料,然後利用無監督方法學習得到雙語數據的辭彙對齊信息。在此基礎之上,在每種單語數據中利用注意力機制對單個句子的文本內容進行建模,不同的辭彙依據其指示性被給予不同的權重,因而可以學習得到更具表示性的語言特徵。這些特徵大大擴充了單語線索,一定程度上緩解了單語方法所面臨的數據稀缺性問題。為了融合多語線索,此框架通過門控多語注意力機制對多語置信度進行建模。對於每種語言,採用門控神經網路得到其置信權重。通過平衡多語的組合係數,把多語特徵融合到一起。多語融合特徵中涵蓋了多語互補性信息,從而一定程度上緩解了單語方法中的單語歧義性問題。該方法在ACE 2005的數據集上進行實驗驗證,結果表明這種方法優於當前的處理方法。同時,該項工作所提出的門控多語言注意框架為如何聯合多語信息輔助單語任務提供了新的解決思路,並且在自然語言處理的其他任務(比如命名實體識別,實體關係消歧,實體關係抽取)中具有極大的應用潛力。

參考資料(將發表於AAAI2018)

Learning Multimodal Word Representation via Dynamic Fusion Methods

Shaonan Wang*, jiajun zhang, Chengqing Zong

Investigating Inner Properties of Multimodal Representation and Semantic Compositionality with Brain-based Componential Semantics

Shaonan Wang*, jiajun zhang, nan lin, Chengqing Zong

Large Scaled Relation Extraction with Reinforcement Learning

Xiangrong Zeng, Shizhu He, Kang Liu, Jun Zhao

Event Detection via Gated Multilingual Attention Mechanism

Jian Liu, Yubo Chen, Kang Liu, Jun Zhao

研究團隊簡介

模式識別國家重點實驗室自然語言處理組主要從事自然語言處理基礎、機器翻譯、信息抽取和問答系統等相關研究工作,力圖在自然語言處理的理論模型和應用系統開發方面做出創新成果。目前研究組的主要方向包括:自然語言處理基礎技術(漢語詞語切分、句法分析、語義分析和篇章分析等)、多語言機器翻譯、信息抽取(實體識別、實體關係抽取、觀點挖掘等)和智能問答系統(基於知識庫的問答系統、知識推理、社區問答等)。其研發的多語言機器翻譯系統已覆蓋10多種語言對,並已在國家相關部門得到實際應用。同時,研究組研發的漢語自動分詞系統、詞性標註和實體識別一體化工具、句法分析器、百科知識服務平台和餐館美食問答系統等,已在中國大百科全書出版社等國家多個企事業單位得到實際應用。

GIF


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |