Google發布超難問答數據集「自然問題」：30萬對問答，BERT都達不到70分

科技 01-24

郭一璞發自凹非寺

量子位報道 | 公眾號 QbitAI

世界上最大的冰蓋在哪裡？

Google現在想到了一個辦法能讓AI來回答這個問題，他們開放了一個名叫自然問題（Natural Questions, NQ）的數據集，能夠訓練AI閱讀維基百科，並找到各種開放領域問題的答案。

就拿「世界上最大的冰蓋在哪裡」這個問題來說，在維基百科「Ice sheet（冰蓋）」詞條，看到「Antarctic ice sheet（南極洲冰蓋）」這個部分的時候，找到了相關的一個自然段的描述，這是該問題的長答案。

之後，從這一段中得到「南極洲是世界上最大的冰蓋」這個消息，於是找到了短答案：

南極洲。

另外，還有一些問題是直接用長答案回答的。

比如說，「漢語里的「中國」是什麼意思」這個問題，答案在「Names of China」這個維基百科詞條里，以一段話的形式解釋。

整個數據集包含三個部分：

1、超過30萬組問答，其中訓練集有307,372組問答，包含152,148組長答案問答和110,724組短答案問答；

2、開發示例問答，包含有7830組「一問五答」的問答，也就是同一個問題，找五個人分別從維基百科中尋找答案，以此來衡量QA問答系統的表現；

3、測試集有7842組問答。

整個標註的過程中，需要標註者閱讀整個維基百科頁面，看看有沒有這個問題的答案，之後一方面要找包含所需信息的長答案自然段，另一方面要從中找一兩個單詞或片語作為短答案，整個數據集的精確度超過90%。

數據集中所有的問題都是用戶在使用Google搜索時提出的，QA問答系統需要閱讀整篇維基百科相關詞條的文章，也不一定每個問題的答案都能找得到，因此NQ要比以前的QA數據集更具挑戰性。

另外，Google還為這個數據集定製了一個排行，衡量不同演算法在NQ數據集上的表現，目前，無論是長答案還是短答案，BERT都處在排行榜上的領先位置。

當然，因為數據集剛剛推出，現在參賽選手比較少，只有Google自家的兩個演算法，BERT和DecAtt-DocReader。

不過，在這個數據集上，兩個演算法的表現跟人類相比還有不小差距，人類搜尋長答案的F1分數是87%，比BERT高了十幾個百分點；搜尋短答案的F1分數是76%，比BERT高了二十幾個百分點。

最後，這個數據集相關的論文Natural Questions: a Benchmark for Question Answering Research已經發表在了TACL上。

傳送門

NQ數據集

https://ai.google.com/research/NaturalQuestions

論文：Natural Questions: a Benchmark for Question Answering Research

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf

GitHub

https://github.com/google-research-datasets/natural-questions

作者系網易新聞·網易號「各有態度」簽約作者

—完—

2018中國人工智慧領航企業

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡就點「好看」吧 !

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: