當前位置:
首頁 > 新聞 > Bengio等人提出MILABOT:強化學習聊天機器人

Bengio等人提出MILABOT:強化學習聊天機器人

選自arXiv

作者:Iulian V. Serban等

機器之心編譯

參與:路雪


The Alexa Prize 是亞馬遜在對話人工智慧領域中發起的一項競賽,本屆比賽的獎金為 250 萬美元,將於 11 月決出優勝者。本文介紹的是蒙特利爾大學 Yoshua Bengio 團隊(MILA Team)參與本次比賽的 Chatbot 設計。

對話系統和聊天智能體(包括聊天機器人、個人助理和聲控界面)在現代社會中越來越普遍。比如,移動設備內置的個人助理、電話中的自動技術支持、賣東西的在線機器人(從時尚服飾、化妝品到法律諮詢、自助醫療服務)。但是,構建智能聊天機器人仍然是人工智慧研究中未解決的一個重要問題。

2016 年,亞馬遜主辦了一場國際大學競賽,旨在構建社交機器人——一款能夠與人類就熱門話題進行連貫可愛的語音對話的智能體,話題設計娛樂、時尚、政治、體育、技術等領域。社交機器人通過亞馬遜的 Echo 設備進行自然語音交談(Stone & Soper 2014)。本文描述了該模型、實驗和我們團隊開發的最終系統(MILABOT)。我們參與該比賽的主要動機是幫助推動人工智慧的研究。該競賽提供了一個特別的機會,用真實用戶在相對寬鬆的設置中對先進的機器學習演算法進行訓練和測試(即自然環境中的機器學習)。用真實用戶進行實驗在人工智慧社區是獨特的,大部分工作的實驗在固定數據集(如標註數據集)和軟體模擬(如遊戲引擎)進行。此外,亞馬遜提供的計算資源、技術支持和資金支持也對我們在擴展系統、測試先進機器學習方法等工作上幫助很大。這些支持幫助我們在 Amazon Mechanical Turk 平台通過眾包方式處理了 20 萬個標籤,並維護系統運行所需的 32 個 Tesla K80 GPU。

我們的社交機器人基於大型綜合系統,該系統結合深度學習和強化學習。我們開發了一套新的深度學習模型用於自然語言檢索和生成,包括循環神經網路、序列到序列模型和隱變數模型,並在競賽提供的上下文中對其進行評估。這些模型連接成一個整體,生成一個對話響應的候選集合。我們進一步使用強化學習(包括價值函數和策略梯度方法)訓練該系統,以從綜合系統的模型中選擇一個合適的響應。尤其是,我們提出了一種新型強化學習步驟,基於對馬爾科夫決策過程的評估進行。訓練在眾包數據上進行,真實用戶和該系統初代版本之間的互動被記錄下來。訓練後的系統在真實用戶進行的 A/B 測試實驗中取得了巨大的進步。

在競賽半決賽中,我們表現最好的系統在級別 1 ? 5 上獲得 3.15 的用戶平均分,手工干預的狀態和規則數量最少,且未參與非聊天活動(如玩遊戲或猜謎)。最佳系統的表現可以媲美半決賽中的部分頂級系統。該系統平均每次對話包括 14.5 ? 16.0 輪。用戶和系統的反覆交流產生的這個改進說明我們的系統可能是參與競賽的所有系統中互動性最強的系統。最後,如果有額外的數據,該系統還能夠繼續改進,因為幾乎所有的系統模塊都是可學習的。

Bengio等人提出MILABOT:強化學習聊天機器人

圖 1:對話管理器控制流程。

該系統包含 22 個響應模型,包括基於檢索的神經網路、基於生成的神經網路、基於知識庫的問答系統和基於模板的系統。候選模型響應的示例如表 1 所示。

Bengio等人提出MILABOT:強化學習聊天機器人

表 1:由模型生成的對話與候選語句。最終系統的回答語句為粗體。

模型架構

評分模型是一個 5 層神經網路,第一層作為輸入,包含 1458 個特徵。第二層包含 500 個隱藏單元,通過將線性變換和修正的線性激活函數(Nair&Hinton,2010;Glorot 等,2011)應用於輸入層單元進行計算。第三層包含 20 個隱藏單元,通過對前一層單元應用線性變換來計算。類似於矩陣分解,這一層將 500 個隱藏單元壓縮至 20 個。第四層包含 5 個輸出單元,它使用了概率(即所有數值都是正值同時和為 1)。這些輸出單元是通過對前一層單元應用線性變換,然後進行 softmax 變換來計算的。該層對應於 Amazon Mechanical Turk 上獲得的標籤。第五層是通過對第三層和第四層中的單元應用線性變換來計算的最終輸出標量。該模型如圖 2 所示:

Bengio等人提出MILABOT:強化學習聊天機器人

圖 2:評分模型的計算圖,基於行為價值函數和統計策略參數化用於模型選擇策略。該模型包含一個帶有 1485 個特徵的輸入層、一個帶有 500 個隱藏單元的隱藏層、帶有 20 個隱藏單元的隱藏層、帶有 5 個輸出可能性的 softmax 層(對應論文章節 4.3 中的 5 個 AMT 標籤)、一個標量值輸出層。虛線箭頭表示一個 skip 連接。

論文:A Deep Reinforcement Learning Chatbot

Bengio等人提出MILABOT:強化學習聊天機器人

論文鏈接:https://arxiv.org/abs/1709.02349

我們展示了 MILABOT:蒙特利爾演算法研究實驗室(MILA)為參與亞馬遜 Alexa 大獎賽而開發的深度強化學習聊天機器人。MILABOT 能夠與人類就流行的閑聊話題進行語音和文本交流。該系統包括一系列自然語言生成和檢索模型,如模板模型、詞袋模型、序列到序列神經網路和隱變數神經網路模型。通過將強化學習應用到眾包數據和真實用戶互動中進行訓練,該系統學習從自身包含的一系列模型中選擇合適的模型作為響應。真實用戶使用 A/B 測試對該系統進行評估,其性能大大優於競爭系統。由於其機器學習架構,該系統的性能在額外數據的幫助下還有可能繼續提升。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

UC Berkeley新研究:多視角圖像3D模型重建技術
當人臉變成新的指紋,核心社會法則正被推倒重建
《深度學習》中譯版讀書筆記:GitHub項目等你來Fork
AI演算法通過照片識別同性戀準確率超過人類,斯坦福大學研究惹爭議
人工智慧+區塊鏈公司DeepBrain獲3200萬元首輪融資

TAG:機器之心 |