當前位置:
首頁 > 科技 > ACL 2018:華盛頓大學:學習使用協同判別器進行寫作

ACL 2018:華盛頓大學:學習使用協同判別器進行寫作

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。

這是讀芯術解讀的第115篇論文

ACL 2018 Long Papers

學習使用協同判別器進行寫作

Learning to Write with Cooperative Discriminators

華盛頓大學

University of Washington

本文是華盛頓大學發表於 ACL 2018 的工作,本文提出了一個統一的學習框架,通過採用一個判別器組合來解決RNN生成長格式文本時重複、自相矛盾的問題,該組合可以指導一個基本的RNN生成器得出更加全局、一致化的生成結果。人類評價表明,我們模型生成的文本比基線模型更好,大大提高了文本生成的整體連貫性、風格性和信息量。

引言

基於遞歸神經網路(RNN)的語言模型在許多語言任務中都取得了長足的進步。然而,當用於長格式文本生成時,RNN常常會導致退化文本,這種退化文本是重複、自相矛盾的,並且過於通用的,如下圖所示。

我們提出了一個統一的學習框架,通過組成一個判別器組,每個判別器專門研究不同的交流原則,可以應對長文本生成的幾個挑戰。從RNN語言模型開始,我們的框架學習通過訓練多個能夠共同解決基本RNN生成器局限性的判別模型,來構造更強大的生成器,然後學習如何對這些判別器進行加權以形成最終的解碼目標。這些「協同」的判別器與基本語言模型相輔相成,形成一個更強、更全局的解碼目標。

我們的判別器的設計靈感來自Grice關於數量、質量、關係和方式的Grice格言。判別器通過選擇訓練數據來學習編碼這些質量,該模型包括部分模型的生成結果。系統然後學習平衡這些判別器,首先將它們均勻地加權,然後通過比較系統給它自己生成的延續和參考延續的分數來不斷更新它的權重。

實驗結果表明我們的學習框架在將一般的RNN語言模型轉換為更強大的生成模型方面是高效的。人類評價證實,由我們的模型生成的語言在兩個不同的領域都顯示出較優的結果,並且顯著地提高了生成文本的整體連貫性、風格和信息內容。自動評估表明,與基線相比,我們的系統既不那麼重複,也更加多樣化。

模型

我們提出了一個通用的學習框架,用於給定固定上下文x生成條件語言y。

其中每一個sk是一個打分公式。提出的目標將RNN語言模型概率Plm和由經過判別訓練的通信模型產生的一組附加得分sk(x,y)相結合,該通信模型用學習混合係數λk加權。當分數sk是日誌概率時,這相當於專家產品(PoE)模型。

使用波束搜索進行生成,在每個時間步驟i對不完整的候選生成y1:i進行評分。然而,為了允許在遠程上下文中有更高的表達能力,我們不需要區分模型分數來對y的元素進行刻畫,這解決了RNN的一個關鍵限制。更具體地說,我們使用一個估計得分,它可以針對y=y1:n的任何前綴來計算,以便在波束搜索期間對目標進行近似匹配,例如,

。為了確保訓練方法儘可能地匹配這個近似值,訓練計分器以區分相同長度(從預先挖掘的前綴長度集合中選擇)的預固定,而不是完整的延續。在每個時間步長重新估計前綴得分,而不是通過波束搜索累積。

基本語言模型:RNN語言模型將上下文x和延續y視為單個序列s:

協作通信模型:我們引入一組判別器,每個判別器可以編碼RNN通常無法捕獲的正確寫作的一個方面。每個模型都經過訓練以區分好和壞的生成;我們改變模型參數和訓練示例,以指導每個模型關注Grice的不同方面。判別器得分被解釋為分類概率(在必要時用logistic函數縮放),並且在目標函數中內插為對數概率。

設D={(x1,y1),...(xn,yn)}為條件生成的訓練示例集。DX表示所有上下文和DY表示所有的連續性。在y的前綴上訓練評分函數,以模擬它們在推理時對部分連續的應用。

在所有模型中,第一層將每個單詞w嵌入到用GloVe預處理嵌入初始化的300維向量e(w)中。

重複模型:該模型通過有偏生成器來處理數量準則,以避免重複。重複判別器的目的是通過利用我們的經驗觀察來學習區分RNN生成的和黃金內涵。然而,我們不想完全消除重複,因為單詞在英語中確實經常重複出現。

為了對自然重複水平進行建模,基於單詞嵌入在前k個單詞的固定窗口內的成對餘弦相似度,計算關聯中每個位置的分數di,其中

連續打分定義為:

其中RNrep(d)是單向RNN在相似性得分d=d1……dn上運行的最終狀態。wr是一個學習到的向量。該模型被訓練以最大化排序對數似然,

蘊含模型:判斷文本質量可以與識別文本蘊涵的自然語言推理(NLI)任務相關:我們希望引導生成器既不與它自己的之前的生成(質量準則)相矛盾,也不能輕易地從上下文(數量準則)出發陳述一些東西。後一種情況是由RNN在生成過程中解釋自己的習慣導致的。

我們訓練一個分類器,它以兩個句子a和b為輸入,預測它們之間的關係是矛盾、蘊涵還是中性。我們使用句子對的中性類概率作為判別器得分,以抑制矛盾和蘊涵。作為蘊涵分類器,我們使用可分解的注意力模型,該分類器在兩個大的蘊涵數據集,SNLI和MultiNLI上訓練,這兩個數據集合在一起。R有超過940,000個訓練實例。我們基於用於評估的每個數據集的辭彙表來訓練獨立的模型。

設t(a, b)為中立類的對數概率。設S(y)是y中的完句組,Slast(y)是最後一個完句組,Sinit(y)是最後一個完句前的句組。我們針對x和y中所有前面的句子計算Slast(y)的蘊涵得分,並使用我們在中性分類中具有最小置信度的句子對的得分:

關聯模型:關聯模型通過預測候選延續的內容是否與給定上下文相關來編碼關係準則。我們訓練該模型以區分真實延續和隨機延續,這些延續是根據給定的上下文從語料庫中的其他(人寫)結尾中抽樣的。

首先,上下文序列和連續序列都通過卷積層,然後maxpooling以獲得序列的向量表示:

maxpooling的目標是獲得表示每個維度中最重要的語義信息的向量。然後將評分函數定義為:

我們優化排序對數似然:

其中,yg是金結尾,yr是隨機抽樣的結束。

辭彙風格模型:在實踐中,RNNs生成文本與訓練數據相比,具備較少的辭彙多樣性。為了克服這種影響,我們引入了一個基於觀察辭彙分布的簡單判別器,它捕捉通過詞選擇表達的寫作風格。因此,該分類器對方式準則進行編碼。

評分函數定義為:

混合權重學習:一旦所有的通信模型都經過訓練,我們學習組合解碼目標。特別地,我們學習權重係數λk,以使用判別損失線性組合評分函數。

在線學習混合權重:基於當前λ值執行每一連續生成,然後基於預測執行梯度下降步驟。這就使得目標函數在訓練過程中動態變化:由於來自模型的當前樣本用於更新混合權重,它通過區別地應用生成模型來創建自己的學習信號,並為每個數據集分別調整SGD學習率。

波束搜索:由於貪婪解碼的局限性以及評分函數不跨時間步長分解的事實,我們使用波束搜索過程執行生成,演算法如下。

實驗與分析

我們使用兩個英語語料庫進行評估。第一個是TripAdvisor語料庫,一個酒店評論的集合,總共有3.3億字。第二個是BookCorpus,一個由未出版的作家收集的9.8億字的小說集。SEQ2SEQ和SEQGAN基線,我們將兩個語料庫分割成十個句子長度的片段,並使用前5句作為上下文,後5句作為延續。

我們在給定初始上下文的情況下生成延續的任務上進行模型評估。在我們的開放式生成設置中,延續不需要是特定的長度,因此我們需要模型和基線來生成5句延續,這與構造判別器和seq2seq基線數據集的方式是一致的。

前人工作指出,當用於長句或創造性文本生成時,諸如BLEU和Meteor的自動測量評估意義不大,其中可接受的生成輸出之間可能存在高差異。然而,我們仍然將這些措施作為我們評估的一個組成部分。此外,我們報告了一些定製度量,它們捕獲生成文本的重要屬性:長度——每個示例的平均序列長度;圖表——每個示例的特有圖表的百分比;Vocab——每個示例特有單詞的百分比。由我們的模型和基線生成的結尾與原文中的參考結尾進行比較。結果見下表。

對於人類評價,人們根據幾個準則來評估文本,這些準則受到Grice準則的啟發:重複性、矛盾性、關聯性和清晰度。人類評價在100個從每個語料庫的測試集中選擇的樣本上進行,用於比較每對生成器的效果。我們將這些示例呈現給Amazon Mechanical Turk的工作人員,每個示例使用三個標註器。結果見下表。對於Likert量表,我們報告每個標準的平均得分,而對於總體質量判斷,我們只匯總所有示例的投票

下表通過我們的模型(L2D)和各種基線(與參考延續相比,TripAdvisor都給出了相同的上下文)生成的示例延續。有關更多的例子,請訪問https://ari-holtzman.github.io/l2w-demo/。

為了研究個體判別對整體性能的影響,下表報告了我們模型的消融結果。對於每個消融,我們只包括一個通信模塊,並訓練一個單一的混合係數來組合該模塊和語言模型。表中的對角線只包含正數,表明每個判別器有助於其設計的目的。有趣的是,大多數判別器有助於寫作的大部分方面,但除了重複以外,實際上無法提高ADAP-TiVLM的整體質量。

總結

我們提出了一個統一的學習框架來生成長而連貫的文本,它克服了RNNs作為文本生成模型的一些共同局限性。我們的框架通過子模型的學習組合來學習適合生成的解碼目標,這些子模型捕獲了優秀範文的語言驅動特性。人類評價表明,我們的模型產生的文本質量大大超過其他基線。

論文下載鏈接:

http://aclweb.org/anthology/P18-1152

留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

想提高預測精度?7步教你微調機器學習模型

TAG:讀芯術 |