著眼兩大核心應用問題，SMP 2018 第二屆中文人機對話技術評測順利落幕

新聞 08-06

雷鋒網 AI 科技評論按：由中國中文信息學會社會媒體處理專委會主辦、哈爾濱工業大學承辦的第七屆全國社會媒體處理大會（SMP 2018）於 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網作為獨家戰略媒體帶來專題報道。

對話是人機交互最為流暢且自然的一種形式，因此人機對話成為自然語言處理的一個重要研究方向。以微軟小冰、Siri 為代表的人機對話產品也作為產業界的代表應用迅速發展。與之相應地，人機對話的技術評測也成為了高校及企業技術的「練兵場」。

圖片來源：哈工大 SCIR 李家琦

8 月 4 日下午，SMP 2018 第二屆中文人機對話技術評測（The Second Evaluation of Chinese Human-Computer Dialogue Technology，SMP-ECDT) 的頒獎儀式及技術報告論壇順利召開。

本屆 SMP-ECDT 由中國中文信息學會社會媒體處理專委會主辦，承辦方包括哈爾濱工業大學和提供數據支持的科大訊飛股份有限公司，此外華為公司提供獎金支持。SMP 2018 技術評測委員會組織架構包括主席張偉男（哈爾濱工業大學），委員陳志剛（科大訊飛股份有限公司）、車萬翔（哈爾濱工業大學）及張軼博（華為公司）。

本屆 SMP-ECDT 技術評測沿襲上一年的賽制，分為用戶意圖領域分類及任務型人機對話在線評測兩個任務。

用戶意圖領域分類（任務一）針對閑聊類和任務類兩大類領域（domain），要求系統將用戶在單輪對話的輸入分類對應到相應的領域中；其中，任務類又細分為 30 個垂直領域。

在人機對話的應用過程中，只有正確判斷用戶的意圖，並正確進行劃分，才能進一步返回正確的回復結果。在本任務中，參賽者可以開放地獲取除主辦方提供的數據之外的訓練及開發數據；主辦方提供給定測試集，並運行參賽系統，在測試集上面得出評測結果。評價標準包括準確率（P）、召回率（R）及 F 值。

任務型人機對話在線評測（任務二）則涵蓋機票類、火車票類、酒店類 3 個垂直領域，系統通過與測試人員實時在線對話完成相應的預定或查詢任務。

整個評測過程對不同的參賽系統均給定相同的首輪對話輸入，評測員根據給定的完整意圖描述與參賽系統進行交互直至對話結束；系統返回所有任務（單任務或多任務）的執行結果，此外，如果單個任務在 30 個對話輪數之後仍未返回測試員所需的結果，則對話測試結束。評價指標包括任務完成率、對話輪數、用戶滿意度、回復語言的自然度及資源未覆蓋情況的引導能力等五大領域。

SMP-ECDT 技術評測從 2018 年 4 月 1 日啟動，歷經近五個月的賽程，最終吸引了 80 支隊伍共 248 位參賽者報名，相較去年第一屆技術評測有了一定程度的提升。值得一提的是，來自工業界的隊伍比重相比去年有所增加，SMP 2018 技術評測委員會主席、哈爾濱工業大學張偉男博士表示，這從一個側面上反映了工業界對人機對話技術的關注度在不斷提高，技術水平也在不斷進步。

SMP-ECDT 技術評測於 7 月 23 日公布評測結果，詳情如下：

圖片來源：哈工大張偉男

儘管評測主題相比去年並沒有明顯變化，但張偉男博士向雷鋒網 AI 科技評論介紹，兩個任務都採用了新的數據集，且任務一的測試集規模更大，提升了技術評測的任務難度。

與之相應地，任務一參賽隊伍的整體指標相比去年有所下降。不過，技術評測委員會也從中看到了參賽團隊的進步。

「我們看到了最近比較火的基於 T2T 的 Transformer 模型應用在了任務一的參賽系統中，並且取得了第一名的成績，相比於 LSTM，Transformer 僅利用 multihead 的 attention 技術，模型整體更加簡單高效，同時我們還看到了 FastText 在數據預訓練及獲取辭彙 embedding 上的應用及取得的成績。」

而任務二除了採用全新數據集外，也參考去年所遇到的一些測試問題做出了修正。令評測委員會感到欣喜的是，今年任務二的任務完成率和平均話輪數兩個主要指標有了明顯的提升，張偉男博士表示，「這無疑標誌著人機對話技術在過去的一年中，起碼在我們這個任務中，有了較大的進步，讓我們對後續的進展充滿了信心和期待。」

圖片來源：哈工大張偉男

從去年開始，SMP 技術評測委員會在劉挺老師和蔣盛益老師的支持下，於 SMP 大會上連續舉辦兩屆中文人機對話技術評測，開創先河。張偉男博士介紹道，在制定評測內容的過程中，委員會認為不僅要考慮人機對話研究上的熱點，更應該考慮人機對話在實際應用中的關鍵核心問題。「經過多次討論我們確定了兩個評測任務，即用戶意圖分類和在線人機對話實時評測。經過兩屆的評測，我們欣喜地看到了人機對話技術在這兩個任務上的進步，同時也發現了一些問題，如模型的領域遷移問題。」

結合各個團隊在比賽過程中暴露的共同問題，評測委員會在未來調整評測重點及後續方案的制定。張偉男博士也表示，在未來，他們也將規劃與真實應用場景的結合，如手機助手、智能音箱等，讓參賽隊伍能在實踐中及時獲得反饋並做出調整，這也有益於推動人機對話技術的進步與落地。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創意 TOP10

TAG:雷鋒網 |