讓AI學會刨根問底和放飛自我，斯坦福最新問答數據集CoQA

知識 09-11

選自arXiv

作者：Siva Reddy、Danqi Chen、Christopher D. Manning

機器之心編譯

參與：白悅、王淑婷

以往的對話問答數據集，大多把答案限定在了給定段落的範圍內，這種答案有時候不僅不自然，而且還要依賴問題與段落之間的辭彙相似性。導致機器有時答非所問，顯得有點笨拙。本文提出的一種新型對話數據集 CoQA，囊括來自 7 個不同領域的文本段落里 8000 個對話中的 127,000 輪問答，內容豐富。而且該問答系統支持自由形式的答案，使機器回答問題不再那麼一板一眼，而是靈活多樣。

我們通常以提問的方式來向別人求解或測試對方。然後根據對方的回答，我們會繼續提問，然後他們又基於之前的討論來回答。這種循序漸進的方式使對話變得簡潔明了。無法建立和維持這種問答方式是虛擬助手無法成為可靠對話夥伴的部分原因。本文提出了 CoQA，一個衡量機器參與問答式對話能力的對話問答數據集。在 CoQA 中，機器必須理解文本段落並回答對話中出現的一系列問題。研究人員開發 CoQA 時主要考慮了三個主要目標。

圖 1：CoQA 數據集中的一個對話。每個回合都包含一個問題（Qi），一個答案（Ai）和支持答案的理由（Ri）。

首先要考慮的是人類對話中問題的性質。圖 1 顯示了正在閱讀文章的兩個人之間的對話，其中一個為提問者，另一個為回答者。在此次對話中，第一個問題之後的每個問題都是基於之前的對話。例如，Q5（Who？）只有一個單詞，如果不知道之前的對話是不可能回答的。提出簡短的問題對人類來說是一種有效的溝通方式，但對機器來說卻是一種痛苦。眾所周知，即使是最先進的模型在很大程度上也要依賴於問題與段落之間的辭彙相似性（Chen et al., 2016; Weissenborn et al., 2017）。而目前，包含基於對話歷史的問題的大規模閱讀理解數據集（見表 1）仍未出現，而這正是 CoQA 的主要開發目的。

表 1：CoQA 與現有大型閱讀理解數據集的比較（約 10 萬多個問題）。

CoQA 的第二個目標是確保對話中答案的自然性。很多現有的 QA 數據集把答案限制在給定段落的連續範圍內，也被稱之為可提取答案（表 1）。這樣的答案有時候不是很自然，例如，圖 1 中 Q4（How many？）就沒有可提取答案。在 CoQA 中，答案可以是自由形式的文本（抽象答案），而提取跨度則作為實際答案的參照。因此，Q4 的答案雖然只是簡單的『Three』，但卻是參照多句話所得出的結論。

CoQA 的第三個目標是構建跨域穩定執行的 QA 系統。當前的 QA 數據集主要集中在單個域上，所以難以測試現有模型的泛化能力。因此，研究人員從七個不同的領域收集數據集——兒童故事、文學、中學和高中英語考試、新聞、維基百科、科學和 Reddit。最後兩個用於域外評估。

總而言之，CoQA 具有以下主要特徵：

通過文本段落從 8000 個對話中收集了 127，000 輪問答（每段約一個對話）。平均會話長度為 15 回合，每回合包含一個問題和一個答案。

自由形式的答案。每個答案都有一個提取理由，在段落中突出顯示。

文本段落來自七個不同的領域——五個用於域內評估，兩個用於域外評估。

幾乎有一半的 CoQA 問題使用共指關係回溯到會話歷史，並且很大一部分需要語用推理，這導致僅依賴辭彙線索的模型更具挑戰性。研究人員對生成抽象答案和可提取答案（第 5 節）的深度神經網路模型進行了基準測試。表現最佳的系統是一種可以預測提取原理，並將原理進一步輸入生成最終答案的序列到序列模型中的閱讀理解模型，該閱讀理解模型獲得 65.1％的 F1 分數。相比之下，人類實現了 88.8％的 F1，比模型高出了 23.7％，這表明它有很大的提升空間。此外，人類的強勁表現表明，與閑聊對話（它支持更可靠的自動評估）相比，CoQA 的回答空間要小得多（Ritter et al., 2011; Vinyals and Le, 2015; Sordoni et al., 2015）。

論文：CoQA: A Conversational Question Answering Challenge

論文地址：https://arxiv.org/abs/1808.07042

摘要：人類通過參與一系列問題和答案相互關聯的對話來收集信息。因此協助我們收集信息的機器，也必須能夠回答對話問題。我們介紹了一個用於構建對話問答系統的新數據集 CoQA。該數據集包含來自 7 個不同領域的文本段落里 8000 個對話中的 127,000 輪問答。問題是會話形式，而答案是自由形式的文本，並在段落中突出顯示相應的依據。我們深入分析了 CoQA，發現會話問題具有現有閱讀理解數據集所沒有的挑戰性現象，例如共指關係和實用推理。我們在 CoQA 上評估強大的對話和閱讀理解模型。表現最佳的系統獲得了 65.1％的 F1 分數，與人類相比低了 23.7%，這表明它有很大的改善空間。作為一種挑戰，我們在_this http URL (http://stanfordnlp.github.io/coqa/)_社區上推出了 CoQA。

任務定義

對於圖 2 中的示例，對話從問題 Q1 開始。我們根據段落中的依據 R1 用 A1 回答 Q1。在這個例子中，回答者只寫了 Governor 作為答案，但選擇了很長的依據——「The Virginia governor』s race」。

下面來看 Q2（Where？），我們必須回顧對話歷史，否則它的答案可能是 Virginia 或 Richmond 或其它。在我們的任務中，回答很多問題都需要對話歷史。我們使用對話歷史 Q1 和 A1，基於依據 R2 用 A2 回答 Q2。按公式來講，回答問題 Qn 要根據對話歷史 Q1，A1 ……Qn-1，An-1。對於一個無法回答的問題，我們將未知作為最終答案，並且不選擇任何理由。

在這個例子中，我們觀察到焦點實體（entity of focus）隨著對話的進行而改變。提問者使用 his 指代 Q4 中的 Terry，he 指代 Q5 中的 Ken。如果這些問題得不到解決，我們最終將會得到錯誤答案。問題的對話性質要求我們根據多個句子（當前問題和之前的問題或答案，以及段落中的句子）來推理。通常，單個問題的參照可能會跨越多個句子（例如，圖 1 中的 Q1，Q4 和 Q5）。我們在第 4 節中描述了其它問答類型。

圖 2：用不同的顏色表示共指關係鏈的對話。焦點實體在 Q4，Q5，Q6 中發生變化。

表 2：CoQA 中域的分布

數據集分析

圖 3：SQUAD 和 CoQA 里問題中前三個詞的分布情況。

表 3：SQUAD 和 CoQA 中段落、問題和答案的平均單詞數。

表 4：SQuAD 和 CoQA 中答案類型的分布。

表 5：CoQA 問題中的語言現象。

表 6：模型和人類在開發數據和測試數據上的表現（F1 得分）。

表 6 列出了模型在開發數據和測試數據上的結果。根據測試集上的結果，seq2seq 模型表現最差，有些答案不管有沒有出現在段落中，都會頻繁出現，這是一種眾所周知的對話模型行為（Li et al., 2016）。PGNet 通過關注文章中的辭彙來緩解反應頻繁的問題，優於 seq2seq 17.8 個百分點。然而，它仍然落後於 DrQA 8.5 個百分點。原因可能是 PGNet 在回答問題之前必須記住整個段落，而 DrQA 避免了這項巨大開銷。但 DrQA 在回復自由形式答案的問題時不理想（參見表 7 中的 Abstractive 行）。當 DrQA 被輸入 PGNet 時，我們授權 DrQA 和 PGNet - DrQA 生成自由形式的答案; PGNet 專註於參照而不是段落。這種組合比經典 PGNet 和 DrQA 模型分別要強 21.0% 和 12.5%。

結論

在本文中，我們介紹了 CoQA，一個用於構建對話問答系統的大型數據集。與現有的閱讀理解數據集不同，CoQA 包含對話問題，自然答案，作為參照的提取跨度，以及來自不同領域的文本段落。我們的實驗表明，現有的對話和閱讀理解模型在 CoQA 上的表現不如人類。我們希望這項工作能夠激發更多有關會話建模的研究，這是實現人機自然交互的關鍵因素。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※CVPR PAMI青年研究員獎得主Andreas Geiger：自動駕駛中的計算機視覺
※Nature Medicine論文展示DeepMind眼疾診斷里程碑：臨床專家級

TAG:機器之心 |