AAAI 2018 論文預講：當強化學習遇見自然語言處理有哪些奇妙的化學反應？

最新 01-11

AI科技評論按：隨著強化學習在機器人和遊戲 AI 等領域的成功，該方法也引起了越來越多的關注。在近期 GAIR 大講堂上，來自清華大學計算機系的博士生馮珺，為大家介紹了如何利用強化學習技術，更好地解決自然語言處理中的兩個經典任務：關係抽取和文本分類。本文根據視頻直播分享整理而成，內容若有疏漏，以原視頻嘉賓所講為準。

在關係抽取任務中，嘗試利用強化學習，解決遠程監督方法自動生成的訓練數據中的噪音問題。在文本分類任務中，利用強化學習得到更好的句子的結構化表示，並利用該表示得到了更好的文本分類效果。本次分享的兩個工作均發表於 AAAI2018。

馮珺，清華大學計算機系博士五年級，師從朱小燕和黃民烈教授，主要研究方向為知識圖譜，強化學習。目前已在 AAAI，COLING，WSDM 等國際會議上發表多篇文章。

分享內容

大家好，我是來自清華大學的馮珺，分享的主題是當強化學習遇見自然語言處理，分享內容主要是以下三方面：

強化學習基本概念簡要介紹

基於強化學習的關係抽取方法，解決遠程監督方法自動生成的訓練數據中的噪音問題

基於強化學習的句子結構化表示學習方法

強化學習的基本概念

狀態，是 agent 從環境中得到的動作；agent，是基於它得到的當前狀態後做出相應的動作。reward ，是環境給agent 的一個反饋，收到這個reward就知道做的這個動作是好還是不好。agent 的目標就是選動作，將全部reward最大化。

agent會和環境做很多的交互，環境每次做的動作可能會有一個長期的影響，而不僅僅是影響當前的 reward。reward 也有可能延遲。在這裡簡單介紹一下 policy 的概念。policy 是決定一個 agent 的動作的一個函數。

如果讀者對上述概念還不清楚可以觀看視頻中的迷宮例子。

我們組做的兩個工作是關係抽取和文本分類。

首先是第一個工作：利用增強學習從雜訊數據中進行關係抽取（Reinforcement Learning for Relation Classification from Noisy Data）

任務背景

關係分類任務需要做的是，判斷實體之間是什麼關係，句子中包含的實體對兒是已知的。關係分類任務是強監督學習，需要人工對每一句話都做標註，因此之前的數據集比較小。

之前也有人提出 Distant Supervision 方法，希望能利用已有資源對句子自動打上標籤，使得得到更大的數據集。但這種方法是基於已有知識圖譜中的實體關係來對一句話的實體關係進行預測，它的標註未必正確。

這篇文章就是用強化學習來解決這個問題。之前也有一些方法是基於 multi-instance learning 的方法來做的。

這樣做的局現性是不能很好處理句級預測。

基於以上不足，我們設定了新模型。包括兩個部分: Instance Selector 和 Relation Calssifier。

這個模型有兩個挑戰，第一是不知道每句話的標註是否正確『；第二個挑戰是怎麼將兩個部分合到一塊，讓它們互相影響。

Instance Selector 和 Relation Calssifier 的結構圖

在 Instance Selector 中的「狀態」就表示為，當前的句子是哪一句，之前選了哪些句子，以及當前句子包含的實體對兒。

Relation Classifier 是直接用了一個CNN的結構得到句子的表示。

模型訓練步驟

實驗部分關於數據集和baseline來源

總結

我們提到一個新的模型，在有雜訊的情況下也能句子級別的關係分類，而不僅僅是 bags 級別的關係預測。

第二個任務

任務背景

如果做一個句子分類，首先要給句子做一個表示，經過 sentence representation 得到句子表示，把「表示」輸入分類器中，最終就會得到這個句子屬於哪一類。

傳統的 sentence representation 有以下幾個經典模型：

bag-of-words

CNN

RNN

加入注意力機制的方法

以上幾種方法有一個共同的不足之處，完全沒有考慮句子的結構信息。所有就有第五種 tree-structured LSTM。

不過這種方法也有一定的不足，雖然用到了結構信息，但是用到的是需要預處理才能得到的語法樹結構。並且在不同的任務中可能都是同樣的結構，因為語法都是一樣的。

所以我們希望能夠學到和任務相關的結構，並且基於學到的結構給句子做表示，從而希望能得到更好的分類結構。但面臨的挑戰是我們並不知道什麼樣的結構對於這個任務是好的，我們並沒有一個結構標註能夠指導我們去學這個結構。但我們可以根據新的結構做出的分類結果好不好從而判斷這個結構好不好。

這個任務同樣可以建模為強化學習問題，用強化學習的思想來解。同樣的，在這個任務中的 reward 也是有延遲的，因為需要把整個結構都學到後，才能得到句子的表示，才能用句子的表示做分類，中間的過程是不知道這個結構是好的還是不好的。

實驗部分的數據集來源

實驗的分類結果；最後兩行是我們的方法。

總結

在這個工作中，我們學習了跟任務相關的句子結構，基於句子機構得到了不同的句子表示，並且得到個更好的文本分類方法。我們提出兩種不同的表示方法，ID-LSTM 和 HS-LSTM。這兩個表示也得到了很好的分類結果，得到了非常有意思的和任務相關的表示。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技評論 的精彩文章:

TAG:AI科技評論 |