當前位置:
首頁 > 科技 > Google發布超難問答數據集「自然問題」:30萬對問答,BERT都達不到70分

Google發布超難問答數據集「自然問題」:30萬對問答,BERT都達不到70分

郭一璞 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

世界上最大的冰蓋在哪裡?

Google現在想到了一個辦法能讓AI來回答這個問題,他們開放了一個名叫自然問題(Natural Questions, NQ)的數據集,能夠訓練AI閱讀維基百科,並找到各種開放領域問題的答案。

就拿「世界上最大的冰蓋在哪裡」這個問題來說,在維基百科「Ice sheet(冰蓋)」詞條,看到「Antarctic ice sheet(南極洲冰蓋)」這個部分的時候,找到了相關的一個自然段的描述,這是該問題的長答案

之後,從這一段中得到「南極洲是世界上最大的冰蓋」這個消息,於是找到了短答案

南極洲。

另外,還有一些問題是直接用長答案回答的。

比如說,「漢語里的「中國」是什麼意思」這個問題,答案在「Names of China」這個維基百科詞條里,以一段話的形式解釋。

整個數據集包含三個部分:

1、超過30萬組問答,其中訓練集有307,372組問答,包含152,148組長答案問答和110,724組短答案問答;

2、開發示例問答,包含有7830組「一問五答」的問答,也就是同一個問題,找五個人分別從維基百科中尋找答案,以此來衡量QA問答系統的表現;

3、測試集有7842組問答。

整個標註的過程中,需要標註者閱讀整個維基百科頁面,看看有沒有這個問題的答案,之後一方面要找包含所需信息的長答案自然段,另一方面要從中找一兩個單詞或片語作為短答案,整個數據集的精確度超過90%。

數據集中所有的問題都是用戶在使用Google搜索時提出的,QA問答系統需要閱讀整篇維基百科相關詞條的文章,也不一定每個問題的答案都能找得到,因此NQ要比以前的QA數據集更具挑戰性。

另外,Google還為這個數據集定製了一個排行,衡量不同演算法在NQ數據集上的表現,目前,無論是長答案還是短答案,BERT都處在排行榜上的領先位置。

當然,因為數據集剛剛推出,現在參賽選手比較少,只有Google自家的兩個演算法,BERT和DecAtt-DocReader。

不過,在這個數據集上,兩個演算法的表現跟人類相比還有不小差距,人類搜尋長答案的F1分數是87%,比BERT高了十幾個百分點;搜尋短答案的F1分數是76%,比BERT高了二十幾個百分點。

最後,這個數據集相關的論文Natural Questions: a Benchmark for Question Answering Research已經發表在了TACL上。

傳送門

NQ數據集

https://ai.google.com/research/NaturalQuestions

論文:Natural Questions: a Benchmark for Question Answering Research

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf

GitHub

https://github.com/google-research-datasets/natural-questions

作者系網易新聞·網易號「各有態度」簽約作者

2018中國人工智慧領航企業

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

女神被打碼了?一筆一划腦補回來,效果超越Adobe
又一次!華為遭美國刑事調查,被指涉嫌竊取商業機密

TAG:量子位 |