ACL 2018|最佳短論文:斯坦福大學發布機器閱讀理解問答數據集
近日,ACL 2018 公布最佳論文名單,《Know What You Don"t Know: Unanswerable Questions for SQuAD》榮獲這次大會的最佳短論文,Percy Liang等研究者介紹了機器閱讀理解問答數據集 SQuAD 的新版本 SQuAD 2.0,其引入了與 SQuAD 1.1 中可回答問題類似的不可回答問題,難度高於 SQuAD 1.1。
代碼、數據、實驗地址:https://worksheets.codalab.org/worksheets/0x9a15a170809f4e2cb7940e1f256dee55/
機器閱讀理解已成為自然語言理解的中心任務,這得益於大量大規模數據集的創建(Hermann 等,2015;Hewlett 等,2016;Rajpurkar 等,2016;Nguyen 等,2016;trischler 等,2017;Joshi 等,2017)。反過來,這些數據集又促進各種模型架構的改進(Seo 等,2016;Hu 等,2017;Wang 等,2017;Clark 和 Gardner,2017;Huang 等,2018)。近期研究甚至在斯坦福問答數據集(SQuAD)上產生了超越人類水平精確匹配準確率的系統,SQuAD 是應用最廣泛的閱讀理解基準數據集之一(Rajpurkar 等,2016)。
儘管如此,這些系統還遠沒有真正地理解語言。最近的分析顯示,通過學習語境和類型匹配啟發式方法,模型可以在 SQuAD 數據集上實現良好的性能,而在 SQuAD 上的成功並不能保證模型在分散句子(distracting sentence)上的穩健性(Jia 和 Liang,2017)。造成這些問題的一個根本原因是 SQuAD 的重點是確保在語境文檔中有正確答案的問題。因此,模型只需要選擇與問題最相關的文本範圍,而不需要檢查答案是否實際蘊涵在文本中。
在本論文研究中,研究者構建了一個新的數據集 SQuAD 2.0,它將以前版本的 SQuAD(SQuAD 1.1)上可回答的問題與 53775 個關於相同段落的、無法回答的新問題相結合。眾包工作人員精心設計這些問題,以便它們與段落相關,並且段落包含一個貌似合理的答案——與問題所要求的類型相同。圖 1 展示了兩個這樣的例子。
圖 1:兩個無法回答問題的示例,與貌似合理(但並不正確)的答案。藍色字是關聯性關鍵詞。
研究者證實 SQuAD 2.0 既有挑戰性又有高質量。一個當前最優的模型在 SQuAD 2.0 上訓練和測試時只獲得 66.3% 的 F1 得分,而人的準確率是 89.5% F1,高出整整 23.2 個百分點。同樣的模型在 SQuAD 1.1 上訓練時得到 85.8% F1,僅比人類低 5.4 個百分點。研究者還證明,無法回答的問題比通過遠程監督(Clark 和 Gardner,2017)或基於規則的方法(Jia 和 Liang,2017)自動生成的問題更具挑戰性。研究者公開發布 SQuAD 數據集新版本 SQuAD 2.0,並使之成為 SQuAD 排行榜的主要基準。他們樂觀地認為,這個新數據集將鼓勵開發閱讀理解系統,以了解其不知道的內容。
4 SQuAD 2.0
4.1 創建數據集
研究者在 Daemo 眾包平台招募眾包工作者來寫無法回答的問題。每個任務包括 SQuAD 1.1 中的一整篇文章。對於文章中的每個段落,眾包工作者需要提出五個僅僅基於該段落不可能回答的問題,同時這些問題要引用該段落中的實體,且確保有一個貌似合理的答案。研究者還展示了 SQuAD 1.1 中每個段落的問題,這進一步鼓勵眾包工作者寫出與可回答問題看起來類似的不可回答問題。要求眾包工作者在每個段落上費時 7 分鐘,他們的時薪是 10.5 美元。
若工作者在一篇文章上只寫出 25 個或者更少問題,研究者將刪除這些問題,以去除不理解任務、並在完成整篇文章前就已經放棄的工作者所產生的雜訊。研究者將這一過濾機制應用於新數據和 SQuAD 1.1 中的已有可回答問題。為了生成訓練、開發和測試集,研究者使用和 SQuAD 1.1 相同的文章分割方法,並在每次分割時都結合已有數據和新數據。對於 SQuAD 2.0 開發集和測試集,研究者刪除了沒有收集到無法回答問題的文章。這導致在開發集和測試集分割中產生的可回答問題和不可回答問題的比例大致為 1:1,而訓練數據中可回答問題與不可回答問題的比例大致為 2:1。SQuAD 2.0 數據統計結果見表 2:
表 2:SQuAD 2.0 的數據集統計結果及其與 SQuAD 1.1 的對比。
5 實驗
表 3:在 SQuAD 1.1 和 2.0 上的精確匹配(EM)和 F1 得分。人類與最優模型的表現在 SQuAD 2.0 上差距更大,這表明該模型有很大改進空間。
表 4:在 SQuAD 2.0 開發集上的精確匹配(EM)和 F1 得分,及其與在具備兩種自動生成負樣本的 SQuAD 1.1 上的 EM 和 F1 得分對比。對於當前模型來說,SQuAD 2.0 更具挑戰性。
論文:Know What You Don"t Know: Unanswerable Questions for SQuAD
論文鏈接:https://arxiv.org/pdf/1806.03822.pdf
摘要:提取式閱讀理解系統(Extractive reading comprehension system)通常在語境文檔中定位問題的正確答案,但是它們可能會對正確答案不在語境文檔內的問題進行不可靠的猜測。現有數據集要麼只關注可回答的問題,要麼使用自動生成的無法回答的問題,這些問題很容易識別。為了解決這些問題,我們創建了 SQuAD 2.0——斯坦福問答數據集(SQuAD)的最新版本。SQuAD 2.0 將已有的 SQuAD 數據和超過 5 萬個對抗性的無法回答的問題結合起來,後者是通過眾包工作者根據與可回答問題類似的方式寫成的。為了在 SQuAD 2.0 上實現良好的性能,系統不僅必須回答問題,還要確定何時語境段落中沒有答案、可以放棄回答問題。SQuAD 2.0 對現有模型來說是一個很有難度的自然語言處理任務:一個在 SQuAD 1.1 上得到 86% 的 F1 得分的強大神經系統在 SQuAD 2.0 上僅得到 66% 的 F1 得分。
※DeepMind首次披露旗下AI專利申請情況,引發熱議
※生產級深度學習的開發經驗分享:數據集的構建和提升是關鍵
TAG:機器之心 |