當前位置:
首頁 > 科技 > 資源 |「火鍋問答」是啥?面向自然語言和多步推理問題,新型問答數據集HotpotQA面世

資源 |「火鍋問答」是啥?面向自然語言和多步推理問題,新型問答數據集HotpotQA面世


選自GitHub


作者:

楊植麟、

齊鵬、

張賽崢


機器之心編譯


參與:路





近日,來自斯坦福、CMU 和蒙特利爾大學的三名中國學生推出了新型問答數據集 HotpotQA,該數據集面向自然語言和多步推理問題。Emmm,從名字來看,這三位小朋友貌似很喜歡吃火鍋~




「火鍋兄弟團」成員:






  • 作者楊植麟目前博士就讀於卡內基梅隆大學,師從 Ruslan Salakhutdinov 教授(蘋果公司 AI 負責人)和 William Cohen 教授從事深度學習方面的研究。



  • 作者齊鵬目前博士就讀於斯坦福大學,師從 Christopher Manning 教授從事自然語言處理方面的研究。



  • 作者張賽崢目前博士就讀於蒙特利爾大學,師從 Yoshua Bengio 教授從事深度學習和自然語言處理方面的研究。



HotpotQA 數據集的作者寫了一篇博客,介紹了這個「讓人看餓了」的數據集:




你是否好奇過以下問題:







  • 我們都知道 Facebook 總部在加州,那你知道 Facebook 的誕生地在哪個城市嗎?



  • 吃雞和王者農藥這兩款遊戲到底哪個玩家多一些?



  • 如果你是一個吃貨,那你每天要在跑步機上跑多久才能消耗掉你今天偷吃的十包辣條的熱量?




乍一看這些問題有些複雜,然而作為人類,回答這些問題並不難。




比如第一個問題,你只要先在某百科上找到小扎在哈佛大學的寢室創立 Facebook 這一事實,而另一個百科頁面則告訴你哈佛大學在美國麻省的劍橋市。又如第二個問題,你可以在網上的某兩篇新聞中搜索到吃雞和農藥各自的活躍用戶數量,兩個數字一比對結果便一目了然。而對於第三個問題,你可以首先在辣條官網上發現辣條的卡路里說明,然後在健身網站上搜索到成年人在跑步機上揮汗一小時消耗的熱量,最後計算一番便能得出答案。



總結下來,要回答這些問題,我們需要定位多個信息來源並從中找到最相關的部分,並且基於這些信息進行多步推理和理解。一個機智的機器學習研究者看到這裡一定會問了:那目前的機器演算法是否也可以進行這種「基於多個信息內容的多步推理 (multi-hop reasoning)」並回答問題呢?




懷揣著同樣的疑問,我們對目前主流的問答系統 (question answering (QA) system) 以及相關的大規模數據集 (large-scale QA dataset) 進行了調研,結果稍顯悲劇:對於目前主流的問答數據集(例如斯坦福的 SQuAD 數據集 [1]),問題的答案基本都在單一文檔的單一(或連續的)句子中,並且這類問題大多可通過對問題和單一文檔使用類似關鍵詞匹配(keyword matching)的方式來回答。基於這些數據集訓練的模型雖然在這類問題上表現不俗,但是它們是否有基於多個信息進行多步推理的能力依舊是個未知數。同時我們也注意到,一些研究者已經開始對機器多步推理問答的研究:例如 Facebook 之前發布的 bAbI 數據集 [2] 就嘗試探究機器基於多條信息的推理綜合能力,然而由於其數據本身並不是來源於真實文本而是通過人造模版生成的,這使得該數據集在實際場景中的性能大打折扣。自去年以來,陸續有研究者開始嘗試收集大規模多步推理問答數據集,其中典型的工作包括 TriviaQA [3] 和 QAngaroo [4]。在 TriviaQA 中,每個問題通常附帶了多個相關文檔用來獲取答案(這些文檔是通過信息檢索的方式得到的)。然而相關文檔的增多並不能保證回答某個問題一定用到跨文檔的多步推理,實際上,該資料庫中大部分問題仍舊可以只通過多個文檔中的某一個直接回答。另一方面,QAngaroo 利用知識圖譜技術構建了一批確實需要多步推理才能回答的問題。然而,該數據集的問題和答案的種類嚴重受限於知識圖譜預先定義的模式 (schema) 本身,同時問題格式也被限制為知識圖譜的三元組形式(triple)而非自然語言。此外,以上提到的所有數據集在給出相關問題的同時僅提供相關文檔本身,並沒有給出更細粒度和更直接的推理線索。




基於以上種種問題,我們(來自 CMU、Stanford 和 Mila 的聯合小分隊)提出了一個名為「HotpotQA」的數據集(中文名又作「火鍋問答」。註:這篇文章始於作者們在紐約法拉盛的一次火鍋聚餐,同時「火鍋中多種食材混合產生的終極美味」也暗喻多源多步推理)。HotpotQA 是作者們對機器多步推理問答的更進一步探究,它有以下幾個重要特點:





  • 問題被設計為必須使用多步推理來回答。為了收集這些問題和答案,我們使用了亞馬遜的眾包服務 (Amazon Mechanical Turk)。我們向眾包工人展示兩個維基百科選段,通過一些用戶交互設計保證他們可以提問出「必須基於兩個選段進行多步推理才能得到答案」的問題。



  • 問題本身不會受限於任何預設的知識圖譜。我們從維基百科中收集了多種類型多種主題的選段,並且不限制問題的類型。這使得最終收集的數據(問題、答案、選段)以自然語言的形式呈現,並且在內容和難度上具有多樣性。



  • 對於每一個問題,我們還收集了回答它所需要的更細粒度的支持推理線索 (supporting fact)。這些線索可以用來提升模型的可解釋性 (explainability)。相比於之前基於整篇文章進行訓練的粗粒度方式,HotpotQA 允許模型利用這些更加準確的推理線索來提升表現,並且迫使模型在回答問題的同時給出它基於哪些事實進行的推理,不像以前的模型只給出一個答案,知其然而不知其所以然。




話不多說,下面是 HotpotQA 裡面的一個樣例問題,在選段中我們用綠色標出了用來回答該問題的支持推理線索。









除此之外,HotpotQA 的問題種類也十分多樣。除了一些常見的多步推理問題,還包括在大規模文本問答數據集中首次出現的比較型問題 (comparison question),例如文章開頭的「吃雞 vs 農藥」。下圖展示了 HotpotQA 中的問題種類以及佔比情況:







俗話說,酒逢知己千杯少,話不投機半句多。相信耐心讀到此處還沒有關掉頁面的看官一定也像我們一樣對多步推理問答充滿了好奇,那不妨移步我們的 EMNLP2018 paper 一探我們的方法細節。同時對於那些「我的模型已經饑渴難耐」的同仁,你們一定要訪問 HotpotQA 的官方網站,我們在此處設擂,歡迎前來砸場子!你們模型的提交是機器多步推理進步的動力!




以上。




火鍋兄弟團 Zhilin、Peng、Saizheng




HotpotQA 官網:https://hotpotqa.github.io/




論文:HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering







論文鏈接:https://arxiv.org/pdf/1809.09600.pdf




摘要:

現有的問答(QA)數據集無法訓練可執行複雜推理和提供答案解釋的 QA 系統。我們創建了一個新型問答數據集 HotpotQA,該數據集包含 11.3 萬個基於維基百科的問答對,具備以下四個特點:




1. 問題的答案必須要基於多個支持文檔;


2. 問題多樣化,不局限於任何已有的知識庫或知識模式;


3. 提供句子級別的支持推理線索(supporting fact),允許 QA 系統用強大的監督進行推理,並對預測結果進行解釋;


4. 提供了新型模擬比較型問題,來測試 QA 系統提取相關線索、執行必要對比的能力。




我們展示了 HotpotQA 數據集對最新 QA 系統是有難度的,支持推理線索幫助模型提升性能、做出可解釋的預測。




參考文獻:




[1] "SQuAD: 100,000+ Questions for Machine Comprehension of Text", Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang. EMNLP 2016.


[2] "Towards AI Complete Question Answering: A Set of Prerequisite Toy Tasks", Jason Weston, Antoine Bordes, Sumit Chopra, Alexander M. Rush, Bart van Merri?nboer, Armand Joulin and Tomas Mikolov. arXiv:1502.05698.


[3] "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension", Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer. ACL 2017.


[4] "Constructing Datasets for Multi-hop Reading Comprehension Across Documents", Johannes Welbl, Pontus Stenetorp, Sebastian Riedel. TACL 2018.







2018AIIA人工智慧開發者大會將於2018年10月15日到16日在蘇州國際博覽中心舉辦。點擊閱讀原文鏈接報名。




喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

機器之心對話「科學家保姆」施堯耘:帶領阿里邁出量子晶元研發第一步
人狠話不多!阿里成立半導體公司「平頭哥」:首款 AI 晶元明年面世

TAG:機器之心 |