谷歌提出機器對話Self-Play框架M2M，提高自動化程度

最新 01-22

受最近 AI 遊戲研究的啟發（self-play），谷歌提出了 M2M 的機器對話框架，其結合了眾包模式和聚焦任務特定經驗的方法，並通過增加自動化程度，以快速引導智能體進行目標導向的對話，並可生成高質量對話數據集。

1. 介紹

使用監督學習方法訓練的目標導向的智能體，通常在使用相同任務的對話訓練的時候才能得到最佳表現。然而，當開發對話智能體幫助用戶完成新任務的時候，例如通過在線網站進行醫生預約，可能不存在該任務的人類-智能體對話數據集，因為目前還沒有和該特定 API 進行交互對話的智能體。一個常用的方法是通過眾包模式使用 Wizard-of-Oz 設置（Wen et al. (2016); Asri et al. (2017)）以收集和標註自由格式的對話。然而這種處理方式很昂貴，並存在損耗，因為從眾包人員收集的自由格式的對話：（i）可能沒有覆蓋智能體需要處理的所有交互；（ii）可能包含不適合用作訓練數據的對話（例如眾包人員使用的對話可能過分簡化或複雜）；（iii）可能在對話行為標註中存在錯誤，需要對話開發者進行昂貴的手動修改。

另一種方法在面向消費者的語音助理中應用很廣泛，它允許第三方開發者建立聚焦於單獨任務（例如，DialogFlow1 、Alexa Skills2 、wit.ai3）的對話「經驗」或「技能」。這為對話開發者提供了對特定任務處理的完全控制，使其能遞增地添加新的特徵到經驗中。然而，這種方法非常依賴於開發者設計對話式交互的所有層面，以及預期用戶和智能體交互以完成任務的所有方式。將這種方法擴展以使其更加數據驅動化是很有價值的，提高其在對話研究社區中的流行度（相比 Wizard-of-Oz 方法）。

作者在本文中提出了 Machines Talking To Machines（M2M，機器對話機器）的框架，這是一個功能導向的流程，用於訓練對話智能體。其主要目標是通過自動化任務無關的步驟以減少建立對話數據集所需的代價，從而對話開發者只需要提供對話的任務特定的層面。另一個目標是獲得更高質量的對話，「高質量」指的是：（i）語言和對話流的多樣性，（ii）所有預期用戶行為的覆蓋範圍；以及（iii）監督標籤的準確性。最後，這個框架的目標是引導對話智能體，使其被部署去服務實際的用戶，並達到可接受的任務完成率，之後，該框架應該能使用強化學習通過用戶反饋直接提升自身性能。

之前建立語義解析器（Wang et al. (2015)）、把自然語言問題映射到結構化問題 (Zhong et al. (2017)) 解析器的方法，都依賴眾包形式把自動生成的結構化表徵映射到 single-shot 自然語言表述中。然而，以這種方式生成多輪對話需要多個參與智能體的協作。受最近 AI 遊戲研究的啟發 (Silver et al. (2016, 2017))，我們引入了「dialogue selfplay，自對話」的概念，也就是兩個或者多個對話智能體通過選擇離散對話行為進行交互，以儘可能地生成對話歷史。在此研究中，作者部署了一個基於日程的用戶模擬器智能體 (Schatzmann et al. (2007)) 和一個基於有限狀態機器的系統智能體，來進行自對話步驟。

圖 1：我們提出的 M2M 框架：（1）對話開發者提供一個任務綱要和一個 API 客戶端。（2）自動化機器人生成對話大綱；（3）眾包人員改寫對話並驗證 slot span;(4) 使用監督學習在數據集上訓練一個對話模型。整個流程可在 8 小時內完成。

圖 2：生成大綱與段落的示例。

表 1：用 M2M 收集的對話。

表 2：DSTC2 與 M2M Restaurant 數據集在語言與對話流多樣性的對比。

表 3：用 M2M 收集的對話的人類評價。眾包人員對用戶與系統對話給出得分的平均值（1-5 分）, 括弧內是標準偏差。

論文：Building a Conversational Agent Overnight with Dialogue Self-Play

論文地址：https://arxiv.org/abs/1801.04871

摘要：我們在本文中提出了 Machines Talking To Machines（M2M，機器對話機器）的框架，該框架結合了自動化和眾包模式以快速地引導端到端對話智能體在任意範疇內進行目標導向的對話。M2M 只需要來自對話系統開發者的一個任務綱要（task schema）和一個 API 客戶端就可以擴展到新的任務中去，但它也可以通過客戶定製進行特定任務的交互。在數據收集方面，和 Wizard-of-Oz 相比，M2M 有更豐富的多樣性和更廣泛的重要對話流的覆蓋範圍，同時保持了個人言辭的自然性。在第一階段，一個模擬用戶機器人和一個領域不可知的系統機器人進行交談，以儘可能生成對話「輪廓」（大綱），即模板對話和它們的語義解析。在第二階段，眾包人員對對話進行上下文重寫，以使對話更加自然，同時保持原來的含義。整個過程可以在數小時內完成。我們用 M2M 收集了一個跨越兩個領域的包含 3000 個對話的新語料庫，並和流行的對話數據集在表層句子形式和對話流的質量、多樣性上進行了比較。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

TAG: |