當前位置:
首頁 > 科技 > 西北大學:RNN語言模型的重要訓練數據抽樣

西北大學:RNN語言模型的重要訓練數據抽樣

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。

這是讀芯術解讀的第138篇論文

ACL 2018 Student Research Workshop

RNN語言模型的重要訓練數據抽樣

Sampling Informative Training Data for RNN Language Models

西北大學

Northwestern University

本文是西北大學發表於 ACL 2018 的工作,在這項工作中,針對遞歸神經網路(RNN)語言模型訓練數據的選擇,我們提出了一種無監督重要性抽樣方法。為增加訓練集所包含的信息量,本文方法優先抽樣由易於查詢的n-gram語言模型確定的,具有更高困惑度的句子。我們評估了用各種重要性抽樣分布訓練模型的heldout困惑度,實驗結果表明,本文方法在抽樣數據上訓練的語言模型,優於在Billion Word和Wikitext-103基準語料庫的隨機抽樣子集上訓練的模型。

引言

統計語言建模的任務是學習自然語言單詞序列上的聯合概率分布。近年來,遞歸神經網路(RNN)語言模型在句子級語言建模中產生了很多困惑度(perplexity),遠遠低於傳統的n-gram模型。在大型、多樣化的基準語料庫上訓練的模型,如Billion Word Corpus和Wikitext-103,困惑度分別低至23.7和37.2。

然而,由於訓練步驟的數量與訓練語料庫中的token數量成線性關係,因此在大型語料庫上建立模型受計算成本的限制。這些大型語料庫的句子級語言模型可以通過對從原始語料庫中抽取的一組句子進行訓練來學習。我們試圖確定是否可能選擇一組訓練句子,這些訓練句子比隨機抽取的訓練句子信息內容大得多。我們假設通過訓練更高信息和更難的訓練語句,RNN語言模型可以比在類似大小的隨機抽樣訓練集上訓練的模型更準確地學習語言分布,並且產生更低的困惑度。

針對句子級RNN語言模型,我們為選擇訓練數據提出了一種無監督重要性抽樣技術,利用n-gram語言模型的快速訓練和查詢時間,這通常只需要遍歷一次訓練數據。我們通過計算每個句子的平均詞義困惑度來確定每個句子的重要性和信息內容。本文使用離線n-gram模型對句子進行評分,然後以增加的概率對更高困惑度的句子進行採樣。然後用選擇句子訓練糾正權重,以消除採樣偏差。由於熵和困惑具有單調關係,選擇具有較高平均n-gram困惑度的句子也會增加平均熵和信息內容。

實驗評價了多種重要性抽樣分布在RNN語言模型訓練數據選擇中的有效性。我們比較了在One Billion Word和Wikitext-103語料庫上用隨機抽樣和重要抽樣訓練數據訓練模型的heldout困惑度。我們證明我們的重要性抽樣技術比在相似大小的隨機樣本上訓練的模型產生更低的困惑度。通過使用n-gram模型確定抽樣分布,限制了重要性抽樣方法的附加計算成本。我們還發現,應用基於困惑度的重要性抽樣要求對低困惑度句子保持較高的權重。我們假設這是因為低困惑的句子經常包含公共的子序列,這對於其他句子建模是很有用的。

方法

首先,我們從訓練語料庫中訓練離線N-gram模型的句子進行隨機抽樣。我們使用n-gram模型對訓練語料庫中剩下的句子進行困惑度評分。

針對RNN語言模型訓練序列的選擇,提出了多種重要性抽樣和似然加權方法。我們提出的抽樣分布偏向於選擇更高困惑度的訓練句子,以增加訓練集的信息內容。然後,我們將訓練RNN語言模型在抽樣句子上的權重,設置為選擇句子概率的倒數。

Z-Score抽樣(Zfull)

該抽樣分布根據Z值直接選擇句子,這是根據n-gram困惑度進行計算的。序列S的選擇概率設置為:

其中,ppl(s)是句子s的n-gram困惑,μppl是平均n-gram困惑,σppl是n-gram困惑的標準偏差,kpr是確保適當概率分布的歸一化常數。

限制Z-Score抽樣(Zα)

對低困惑度句子的訓練有助於學習如何對共享公共子序列的高困惑度句子進行建模。然而,純z-score抽樣導致選擇了少數低困惑度句子。

為了平均權重空間中的分布,選擇概率僅使用其困惑度大於平均值的句子的z-scores來確定。因此,句子S的選擇概率為:

其中,α是常數參數,該常數參數在計算序列的選擇概率時,確定z-score的權重。

平方 Z-Score抽樣 (Z 2 )

為了研究從更複雜的分布中抽樣的效果,我們還評估了重要性抽樣方案,其中根據句子的平方Z-Score對句子進行抽樣。

實驗分析

我們實驗評估了Zfull和Z 2抽樣方法的有效性,以及Zα方法對於參數α的各種值的有效性。

採用Wikitext-103和One Billion Word Benchmark語料庫樣本進行句子級模型訓練和評估。為了創建獨立句子的數據集,對Wikitext-103語料庫進行了解析。對訓練和heldout集進行組合、清洗,然後進行拆分,以創建新的250k token測試和驗證集。其餘的序列被設置為一個新的訓練集,約9900萬token。在Billion Word的實驗中,從發布訓練片段的5億個子集採樣訓練序列。從發布的heldout分割中隨機抽樣的25k個token的測試集和驗證集上,評估了Billion Word模型。

為了計算抽樣分布,在帶有相同數目token的Heldout集上訓練一個n-gram模型,用於訓練每個RNN模型。例如,用於構建100萬個token 的RNN訓練集的抽樣分布,是使用由也在100萬個token上訓練的n-gram模型計算的困惑度來確定的。N-gram模型被訓練為5-gram模型,使用SRILM對KneserNey discount。RNN模型採用兩層長短期記憶(LSTM)神經網路。

在以下兩個表中,我們分別總結了對來自Wikitext-103和Billion Word語料庫的樣本進行訓練的模型的性能。

我們報告了隨機抽樣數據訓練RNN和n-gram語言模型的隨機和n-gram基線困惑度。我們還指出了每個訓練集的μngram和σngram,它們是由離線n-gram模型評估的句子困惑度的平均值和標準偏差。

在所有的實驗中,使用我們的抽樣方法訓練的RNN語言模型與在相似大小的隨機抽樣集上訓練的RNN模型相比,模型困惑度更小。隨著訓練集大小的增加,在重要採樣數據集上訓練的RNN也比在隨機採樣訓練集上訓練的n-gram模型產生顯著更低的困惑度。正如預期的一樣,對於使用我們提出的採樣方法,μngram和σngram生成的訓練集顯著增加。

總結

為了從大型語料庫中選擇RNN語言模型訓練數據,我們引入了加權重要性抽樣方案,實驗證明了用此方法生成的數據訓練的模型與用相似大小的隨機抽樣訓練集訓練的模型相比,產生高達24%的困惑度降低率。這種技術利用更高困惑度的訓練句子來學習更精確的語言模型,同時限制了重要性計算的額外計算成本。

在以後的工作中,我們將在附加參數設置中檢查我們提出的選擇技術的性能,在限制的z-score方法Zα中具有不同的α值和閾值。我們還將評估基於句子序列和唯一n-gram內容計算的抽樣分布的性能。此外,我們計劃將這種重要性抽樣方法應用在與RNN語言模型一起訓練的在線n-gram模型上,來確定重要性抽樣分布。

論文下載鏈接:

http://aclweb.org/anthology/P18-3002


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

聯合國193個國家的17個目標,AI可以完成
Quora的數據科學主管是如何面試的?

TAG:讀芯術 |