落下帷幕，看奇點機智如何從 800 多支隊伍中殺出重圍

知識 05-29

AI 研習社按，日前，由中國中文信息學會 (CIPS)、中國計算機學會 (CCF) 和百度公司聯合舉辦的「2018 機器閱讀理解技術競賽」落下帷幕，Naturali 奇點機智從國內外 800 多支隊伍中脫穎而出，獲得第一名。在兩個評價標準 ROUGE-L 和 BLEU-4 上，奇點機智分別獲得 63.38 和 59.23 的得分，均高出第二名超過兩分。

迄今為止，世界機器閱讀理解領域經典賽事多集中在英文領域，比如由斯坦福大學發起的 SQuAD 挑戰賽以及微軟的 MS MARCO 機器閱讀理解測試，而此次賽事基於百度 DuReader 中文數據集，對中文閱讀理解有著里程碑式的意義。

奇點機智是一家提供定製化語音交互解決方案的公司，談及參賽原因，他們對 AI 研習社說道，「機器閱讀理解是推動人工智慧未來發展的核心。機器能夠並且應該去理解人類，而不是人類去理解機器。閱讀理解是奇點機智關注的問題，公司的 NLP 團隊在相關領域有所積累，希望嘗試將開發的基礎組件應用到實際問題的解決中，也想藉此比賽驗證公司在自然語言處理方面的技術實力。」

比賽介紹

本次比賽數據集來自搜索引擎真實應用場景，其中的問題為百度搜索用戶的真實問題，每個問題對應 5 個候選文檔文本及人工整理的優質答案。

數據集共包含 30 萬問題（27 萬訓練集、1 萬開發集和 2 萬測試集），其中 20 萬來源於百度 DuReader 數據集（18 萬訓練集、1 萬開發集和 1 萬測試集）。

DuReader 是迄今為止最大的面向真實應用場景的中文閱讀理解數據集，它包含來自百度搜索的 30 萬個真實問題，數據集中標註了問題類型、實體和觀點等豐富信息。

在這次比賽中，對於給定問題 q 及其對應的文本形式的候選文檔集合 D=d1, d2, ..., dn，要求參評閱讀理解系統自動對問題及候選文檔進行分析，輸出能夠滿足問題的文本答案 a。目標是 a 能夠正確、完整、簡潔地回答問題 q。

此次比賽評價指標採用 ROUGH-L 和 BLEU4，ROUGH-L 為主評價指標。針對是非及實體類型問題，主辦方對 ROUGE-L 和 BLEU4 評價指標進行了微調，適當增加了正確識別是非答案類型及匹配實體的得分獎勵，這在一定程度上彌補了傳統 ROUGE-L 和 BLEU4 指標對是非和實體類型問題評價不敏感的問題。

奇點機智表示，長時間以來，自然語言處理的研究都是基於句子級別的閱讀理解，例如理解句子中的主謂賓、定狀補，時間、地點、事件等等。然而，基於篇章的長文本理解一直是一個技術難題，因為涉及到更高難度的研究內容，例如句子之間的連貫、上下文、推理等等，這也正是此次競賽面臨的挑戰。

雖然目前機器閱讀理解與人類還存在差距，但此次比賽中，他們的答案與人工標註的答案非常接近，甚至有些比人工答案更全面，這也算是一大進步。下面是奇點機智答案與人工標註答案的對比：

問題：昆特牌什麼時候公測（實體類）

奇點機智答案：「巫師之昆特牌國服山丘試煉開啟時間為 6 月 6 日，暫定為期兩周，即 6 月 6 日-6 月 19 日。」

人工答案：「時間為 6 月 6 日，暫定為期兩周，即 6 月 6 日-6 月 19 日。」

問題：肩袖損傷能自愈嗎（判斷類）

奇點機智答案：「肩周炎是可以治癒的，但是需要鍛煉，不然的話。時間長了肩周炎，就很難活動了。」

人工答案：「肩周炎是可以治癒的，但是需要鍛煉，不然的話。時間長了肩周炎，就很難活動了。」, 「一般是不可以治癒的，需要外用膏藥，結合活血化瘀的藥品治療。」

問題：蘭陵王妃大結局是什麼（描述類）

奇點機智答案：「女主選擇了蘭陵王高長恭，離開了北周，但是女主最後被蕭洛雲殺了，當時她和蘭陵王高長恭在一起，所以宇文邕並不知道最後她死了，但也是在死前的最後那一刻她才明白自己最愛的人是宇文邕。」

人工答案：「女主選擇了蘭陵王高長恭，離開了北周，但是女主最後被蕭洛雲殺了，當時她和蘭陵王高長恭在一起，所以宇文邕並不知道最後她死了，但也是在死前的最後那一刻她才明白自己最愛的人是宇文邕。」, 「高長恭最終抱的美人歸，與元清鎖共度生死。」

從直觀感覺上來說，奇點機智的回答比較完整和合理，從指標上來說，在比賽中 BLEU 超越第二名兩分也是非常難得的。

參賽細節

將中文閱讀理解與英文相對比，中文存在分詞問題，也缺少像 GloVe 這樣在大規模數據上預訓練好的詞向量。此外，中文的成語典故、俗語、一詞多義、歧義等都增加了機器閱讀的難度。那麼面對這些挑戰，奇點機智在比賽中是如何完成這看似不可能的任務的呢？

據奇點機智介紹，這次比賽主要是由技術團隊的兩名同事做系統實驗，其他同事提供相關幫助。

他們對 AI 研習社表示，比賽數據集都是用戶的真實問答，有些問題在百度搜索里沒有答案，而且問題不一定很直接。比如「響一聲就說正在通話中」，這表面上並不是一個問題，用戶描述了一個現象，這種問題回答起來更具挑戰性。

由於競賽給定了文檔全文，有的文檔可能會非常長，為了不超出內存佔用和保證訓練效率，他們採取了簡單有效的啟發式方法預先對每個文檔抽取可能包含答案的部分內容。

他們針對判斷類問題訓練了一個額外的分類模型，除此之外，比賽數據集中有一部分數據來源於百度搜索，一部分數據來源於百度知道，針對問題來源，他們也做了一些策略調整。

在特徵的選擇上，他們使用了詞向量、詞性標註向量、以及篇章中的詞是否出現在問題中。

在模型選擇上，他們閱讀了大量論文，參考和借鑒了很多經典 MRC 模型，比如 BIDAF、Match-LSTM、R-Net、DCN 等。最終的模型基於 BIDAF，他們嘗試引入了多個答案的信息。

此外，他們也發現，一些 NLP 的底層基礎部件，比如分詞和詞向量表示等也會對系統性能產生一定影響。

而從公布數據到最終結果提交只有兩個月左右的時間，雖然時間上比較緊迫，但公司內部有自己的實驗系統和比較充足的硬體資源。

奇點機智表示，「在這次比賽中，公司在自然語言處理方面的技術積累，團隊超強的執行力和學習力，良好的硬體資源和實驗平台都是奪得冠軍的因素。」

值得一提的是，參與競賽的兩位技術人員平時在奇點機智是做機器學習、語音識別相關工作，參賽之前沒有特別接觸過閱讀理解。能在短短兩個月左右快速上手並最終奪冠，這也在一定程度上反應了團隊超強的學習力和執行力。

未來

他們表示，在比較乾淨的數據集上，機器模型已經可以做到非常好，比如在維基百科上，機器的表現已經可以超過人類。如果數據集比較原始，依然會有不錯的表現，但挑戰更大，這也是他們願意去挑戰的難題。閱讀理解在一定程度上會給語音助手、問答系統等帶來諸多利好，這也是他們的研究重點。

這次比賽使得他們對閱讀理解任務有了更深入的理解，包括任務可能運用的場景、問題難點等。下一步，他們一方面將在性能上嘗試對模型進一步優化，另一方面，將在工程上考慮將機器閱讀引入實際商業場景和產品中。參賽團隊對 AI 研習社說道，希望通過此次真實用戶問答數據，訓練優質實用的模型，將領先的機器閱讀理解技術應用於今後的產品以及各個領域中。

在採訪的最後，奇點機智 CTO 林康德表示，「我們對過去的積累非常有信心，我們願意去做有意義的、有挑戰性的事情，同時，我們也會經常組織大家一起學習、讀論文，進行小組討論。沒有什麼可以阻止我們不斷學習，獲取最先進的理念和技術。」

從Python入門-如何成為AI工程師

BAT資深演算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer，學完即推薦就業

新人福利

關注 AI 研習社（okweiwu），回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

專訪訊飛病灶分割比賽優勝團隊，年內會將該演算法投入實用

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！