2018 機器閱讀理解技術競賽頒獎儀式：競賽冠軍 Naturali 分享問答系統新思路

新聞 07-29

雷鋒網 AI 科技評論按：7 月 28 日，由中國中文信息學會和中國計算機學會聯合舉辦的第三屆語言與智能高峰論壇於北京語言大學舉辦，Naturali 奇點機智團隊作為 2018 機器閱讀理解技術競賽冠軍團隊，受邀參加本次活動的「機器閱讀理解評測論壇及頒獎儀式」，Naturali 聯合創始人兼 CTO、國際計算語言學協會會士（ACL Fellow）林德康作為代表進行了 2018 閱讀理解技術競賽系統報告。

機器閱讀理解任務一直是自然語言處理領域的重要問題。2018 機器閱讀理解技術競賽提供了一個基於真實場景的大規模中文閱讀理解百度數據集，共包含來自百度搜索的 30 萬個來自真實用戶的問題，對中文閱讀理解系統提出了很大的挑戰。Naturali 的系統在正式測試集上 ROUGE-L 和 BLEU-4 分別達到了 63.38 和 59.23，在 800 多支報名隊伍、105 支提交最終結果的隊伍中取得了第一名。

以下為 Naturali 奇點機智聯合創始人兼 CTO 林德康在現場分享的競賽報告：

一、DuReader 閱讀理解數據集的特點

現在有很多閱讀理解問答數據集，百度數據集算是中文閱讀理解數據集里最好的。百度數據集相比 Stanford 經典數據集 SQuAD 更真實、更具挑戰性。SQuAD 是從維基百科的信息來源集成問題，答案必定出現在文本裡面，句法比較標準。而此次比賽的百度數據集都是用戶的真實提問，不僅包括事實性的問題，還包括意見性的問題，部分問題在百度搜索里沒有標準答案，並且問題的表達方式不一定很直接。

比如說意見性問題「iPhone X 好不好用」，或現象描述「響一聲就說正在通話中」，這類問題回答起來難度更高。

二、競賽題目實例

問題：昆特牌什麼時候公測

人工標註答案：[『時間為 6 月 6 日，暫定為期兩周，即 6 月 6 日-6 月 19 日。"]

Naturali 答案: [『巫師之昆特牌國服山丘試煉開啟時間為 6 月 6 日，暫定為期兩周，即 6 月 6 日-6 月 19 日。』]

參考文檔

["文章閱讀"，"巫師之昆特牌山丘試煉馬上開啟了，帥編來告訴大家開啟時間。"，"巫師之昆特牌國服山丘試煉開啟時間為 6 月 6 日，暫定為期兩周，即 6 月 6 日-6 月 19 日。"，"參與過「青草試煉」的玩家將直接獲得本次測試的資格，無需激活碼。"，"國服公測時間暫未公布。"，"聲明：本文由入駐搜狐公眾平台的作者撰寫，除搜狐官方賬號外，觀點僅代表作者本人，不代表搜狐立場。"，"一款專為遊戲動漫愛好者打造的 app 全面的資訊福利，熱門資訊圖鑑攻略應有盡有。國內外熱門手游推薦，精彩不容錯過。"，"itmo 愛萌遊戲-二次元遊戲第一門戶 itmo 愛萌遊戲是國內第一二次元遊戲門戶網站，致力於打造全新型的手機遊戲網站。"]

["南方公園遊戲在 U2 上放出了新的宣傳片昆特牌公測日期發布南方公園遊戲這都從去年 4 月延到今年 10 月不過動畫 21 季今年 9 月開始播剛好可以銜接到遊戲發售日期"，"反正昆特牌打了一下午電腦一盤沒贏我就放棄了"，"我巫師 3 二周目開始玩昆特牌，畢竟一周目沒錢，二周目也不繼承。現在走到哪打到哪。"，"下周就公測？好突然，這麼快"，"昆特盤看測試錄像，氪金也是厲害啊。。。這南方公園竟然跳票到這個時候。。"，"昆特牌國際服已經激活就是看不懂挺期待南方公園的"，"期待 spOktoberfest! 另外希望昆特正式服早日上線"，"南方公園一聽就是垃圾遊戲，大家千萬別買"，"應用吧活動，去領取"，"活動截止：2100-01-01"，"要不是川普贏了，也不至於這麼跳票"，"昆特牌還沒公測啊，我都以為大家已經玩了好久了"，"打牌才是正事打牌打到十一月玩高清二戰美滋滋』]

解析說明：參考文檔是從搜索引擎得到的排名靠前結果的網頁全文，一個問題會對應多篇長文檔；標註答案是人工根據文檔總結撰寫而成，一個問題可能對應多個答案，特別是對意見性的問題來說，有多個答案是很常見的。從以上案例可見，Naturali 閱讀理解系統給出的答案比人工答案甚至還要全面。

三、數據預處理

百度提供五個篇文章作為參考文檔。由於文章沒有長度限制，我們根據關鍵詞密度，句子位置等信息將超過 500 詞的文章壓縮到 500 詞以內。

以下是我們數據預處理的具體方法：

如果標題和各段內容中間插入特殊分割符號連接在一起，沒有超過預設最大長度，則將得到結果作為預處理的結果；

否則，我們計算各段落和問題的 BLEU-4 分數，以衡量段落和問題的相關性；

在分數排名前 k 的段落中，選擇最早出現的段落；

選取標題，這個段落以及下一個段落；

對於第 3 到第 10 個段落，選取每個段落的第一句話；

將所有選取的內容以特殊分隔符連接在一起，截取最前面不超過預設最大長度的內容，將得到的結果作為預處理的結果。

四、模型整體結構

我們使用的模型整體結構，是經典的端對端閱讀理解模型結構，分為四層：

第一層：特徵表示層（Representation)

第二層：編碼層（Encoding)

第三層：匹配層（Matching)

第四層：答案片段抽取層（Answer Span Extraction)

下面我們對每一層進行簡單介紹。

第一層：特徵表示層

首先，給定一個問題的詞序列和篇章的詞序列，我們要對它進行特徵抽取，將它變成一個特徵向量序列。

我們是在搜狗互聯網語料庫上進行的預訓練。這個數據集比百度數據集還要大好幾個量級，所有中文網頁都在里，每一詞用什麼向量表達就是在這裡面訓練的。

第二層：編碼層

得到問題和篇章的向量特徵表示序列後，我們分別進行編碼。

第三層：匹配層

匹配層是模型比較核心的部分，我們利用注意力機制融合問題和篇章信息。

經過了幾種模型的測試，最後我們的系統里用到了 Match-LSTM、BiDAF、DCA 這三種集成模型，相比其他模型，這幾種模型效果接近，訓練速度較快。在單一模型中我們運用 BiDAF，在集成模型中則會運用到不同的匹配層得到的結果進行集成。

第四層：答案片段抽取層

最終，我們利用指針網路進行答案抽取。

根據百度數據集特點，回答裡面可能會包含多個答案，所以我們採用的是第二種利用多個參考答案的公式進行計算，即在多個答案上損失的平均數作為損失函數。

常用損失函數

利用多個參考答案

五、最小風險訓練

通常的 RC 系統是以提高標準答案概率作為訓練的目標，但實際評測的標準是 ROUGE。最小風險訓練是拿評測的標準作為訓練的目標，需要對每個片段都計算損失函數，所以優化的時間比較長。我們的系統首先用最大似然估計訓練得到初始模型，然後直接優化 ROUGE 函數，讓我們的 ROUGE 值達到最高。這裡 delta(y_i, y_i*) 是候選答案 y_i 與標準答案 y_i* 在 ROUGE 函數上的差。

最小風險訓練

以最大似然估計訓練得到的模型初始化繼續訓練

六、單一模型實驗結果

我們的 ROUGE 分數最終能夠遠遠超出基線系統分數，是通過篇章預處理、預訓練詞向量、其他特徵、多個答案、聯合訓練、最小風險訓練等方法綜合累計得來的。

七、集成模型

我們提交的數據是通過集成模型計算出來的，最終根據不同種模型（BiDAF, MatchLSTM, DCA）和不同參數（Dropout：0.1, 0.15, 0.2，聯合學習比率：4.0, 5.0）做成了一個集成模型，比單一模型的 ROUGE 分數又高出了 1.5 個點。

八、總結及展望

我們本次競賽用的是神經網路端到端的系統，而我曾經在谷歌做搜索問答用的是模塊化的系統。模塊化系統會把問題分成幾部分，首先識別答案類型，再根據類型和問題、文本的匹配度去計算分數。而神經網路系統把所有的步驟放到一個網路裡面，雖然沒有專門為不同的答案類型建模，但是訓練完成後仍然能夠覆蓋到不同問題類型，比如問「什麼時候......」，找的答案里就有日期。

相比模塊化系統，神經網路端到端的系統代碼簡單很多，並且每次改動、優化都是全局的優化。然而模塊化系統的優化，是優化某一個模塊，模塊之間已經適應了各自的缺陷，其中一個模塊變好，其他模塊不一定隨之改善，使整個系統的優化會變得比較困難。

目前有很多問答系統已經上線了，但是背後的實現還是模塊化的機制。很有可能神經網路系統現在的表現暫時還不及模塊化系統，但到現階段它的準確度已經可以有一些應用。比如我們做語音助手的時候，經常將搜索作為一個「兜底」的功能。比如在智能客服應用中，拿客服文檔做關鍵詞匹配，但用自動閱讀理解就可以把閱讀理解系統當做一個「兜底」，找到文檔以後便可以把更精簡、準確的答案找出來。

謝謝大家。

附 Naturali 奇點機智簡介：

Naturali 創立於 2014 年 11 月，目前已經將業務聚焦在兩個方面：一個是 NI 開放平台——「零編碼、五分鐘，創造屬於你的語音技能」，為各類硬體、APP 賦予 AI 語音交互能力。另一個是一款帶有學習功能的第三方語音助手 APP「布點語音」，已經在各大安卓商店上線，目前已經可以覆蓋 300+APP，支持 12000+ 語音技能。

雷鋒網雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※減少約四成商店盜竊案件，NTT推AI 攝像頭幫助店主發現潛在扒手
※村鎮銀行大敗局

TAG:雷鋒網 |