當前位置:
首頁 > 新聞 > Facebook開源基於強化學習的端到端談判AI

Facebook開源基於強化學習的端到端談判AI

選自Facebook.code

機器之心編譯

參與:吳攀、李亞洲

每天從我們醒來的那一刻,生活中就充滿了經常性的談判(negotiations)。這些場景包括討論觀看的電視頻道、說服孩子吃蔬菜、或者砍價。這些場景的共通之處在於需要複雜的交流與推理技巧,而這是計算機沒有的能力。目前,已有的聊天機器人(chatbot)能夠完成簡短的對話、簡單的任務,比如預定餐館。但建立能夠與人類進行有意義對話的機器仍是巨大的挑戰,因為這需要 bot 結合知識與對對話的理解,然後生成新的句子幫助它達到目標。今天,Facebook 人工智慧研究所(FAIR)的研究人員公開了一個具有談判新能力的對話智能體(dialog agents),並開源了其代碼。

  • 論文地址:https://s3.amazonaws.com/end-to-end-negotiator/end-to-end-negotiator.pdf

  • 開源地址:https://github.com/facebookresearch/end-to-end-negotiator

類似於人類在有不同目標時會產生分歧,然後談判、妥協一樣,這些 FAIR 研究者表明有不同目標的對話智能體也有可能與其他 bot 或人進行從開始到結束的談判,直到達成共同的決定或結果。

任務:多問題交涉

FAIR 研究人員研究了在多問題交涉任務上的談判。兩個智能體都被給予同樣的物品集(兩本書、一頂帽子、三個球),然後下達指令:通過協商談判達成分配這些東西的協議。

Facebook開源基於強化學習的端到端談判AI

每個智能體都被賦予了自己的價值函數,代表它對每個物品類別的在意度(比如,對智能體 1 而言,每個球是 3 分)。就像生活中一樣,每個智能體不知道其他智能體的價值函數,需要從對話中推斷(你說你想要球,那球的價值就要高一點)。

FAIR 研究人員創造了許多這樣的談判場景,並總是確保兩個智能體都不可能同時得到最好的結果。此外,如果達不成談判(或 10 輪對話後無法達成一致),兩個智能體都是 0 分。簡單而言,談判是必要的,好的談判帶來更好的表現。

Dialog rollouts

談判即是一個語言問題,也是一個推理問題,其中必須要定義一個意圖,並通過對話的方式實現。這樣的對話同時包含協作與對抗元素,需要智能體理解和形成長期的規劃,並生成話語達到目標。

FAIR 研究人員在建立這樣長期規劃對話智能體上的主要技術創新是一種名為 dialog rollouts 的思路。

未來,當聊天機器人能夠建立談判對象的心理模型,從而提前預想到或者引導對話的方向的時候,它們就能選擇將無用的、混亂的、或者破壞性的交流引向成功的協商。

特別是 FAIR 開發出的 dialog rollouts 新技術,能讓智能體通過推導對話的結局來模擬未來的對話,從而可以選擇最大預期的未來獎勵對話。

Facebook開源基於強化學習的端到端談判AI

類似的思路已被用於遊戲環境中的規劃問題,但還從未被用於語言,因為其可能動作的數量巨大。為了改進效率,FAIR 研究者首先生成了一小部分候選表述(utterance),然後對每個表述重複模擬未來完整的對話,從而估算成功程度。該模型的預測準確率足夠高,從而在以下幾個領域極大改進了談判策略:

  • 更努力的談判:這種新的智能體可以與人類進行更長時間的對話,因此接受交易更慢。而人類有時候沒有達成交易就會走開,本實驗中的模型會一直談判,直到達成成功的結果。

  • 智能謀略:在一些案例中,智能體最先會對無價值的項感興趣,之後通過讓步而「妥協」——這是一種人們常常使用的談判策略。這種行為不是由研究者編程的,而是被 bot 觀察認為這是一種實現其目標的好方法。

  • 生成全新的句子:儘管神經網路更傾向於重複訓練數據中的句子,但在這項研究中,模型可以在有需要時生成新句子。

構建和評估談判數據集

為了訓練談判智能體並進行大規模量化評估,該 FAIR 團隊眾包了人與人之間談判數據的收集服務。這些人被展示了一些物品和每個物品的價值,然後被要求達成分配這些物體的協議。然後研究者訓練了一個循環神經網路來學習模擬人類的談判方式。在一次對話的任何時候,該模型都會嘗試猜測人類在這一情境下可能會說出的話。

和之前目標導向的對話(goal-orientated dialog)不同,該模型是完全基於人類的語言和決策而「端到端」訓練的,這意味著該方法可以輕鬆被應用於其它任務。

這些 FAIR 研究者沒有簡單地嘗試模擬人類,而是允許其模型實現談判的目標。為了訓練該模型實現其目標,研究者讓該模型自我談判練習了數千次,並且還使用了強化學習對得到了好結果的模型進行獎勵。為了防止該演算法發展出它自己的語言,它同時還接受了生成人類語言的訓練。

為了評估該談判智能體,FAIR 通過與人類的在線對話對它們進行了測試。之前大多數成果都避開了與真人的對話或位於難度更小的領域中,因為學習能回應人們說的各種語言的模型是很困難的。

有趣的是,在 FAIR 的實驗中,大多數人沒有意識到他們在和一個 bot 對話,而以為是另一個人類——這說明這些 bot 已經學會了在該領域的流暢英語對話。FAIR 最好的談判智能體(使用了強化學習和 dialogue rollouts)的表現足以比肩人類水平。其實現更好的交易和更差的交易的概率差不多,這表明 FAIR 的 bot 不僅能說英語,而且還可以智能地思考其所說的內容。

用於對話智能體的強化學習

監督學習旨在模擬人類用戶的行為,但其並不會明確試圖實現智能體的目標。FAIR 的這個團隊採用一種不同的方法:使用監督學習探索預訓練,然後使用強化學習根據評估指標對該模型進行精細調節。實際上,他們使用監督學習學習了語言(language)和含義(meaning)之間的映射方式,然後使用強化學習來幫助決定選擇怎樣的表達。

在強化學習過程中,該智能體會試圖根據與另一個智能體的對話來改善其參數。儘管其它智能體可能是人類,但 FAIR 則使用了一個被訓練來模擬人類的固定監督式模型。第二個模型是固定的,因為研究者發現:如果同時更新兩個智能體的參數,那麼它們就會偏離人類語言,而發展出自己的用於談判的語言。在每次對話的結尾,該智能體都會獲得一個基於其達成的交易的獎勵。然後使用一個策略梯度,該獎勵會被反向傳播通過該智能體所輸出的每一個詞,以增加能導致高回報的動作的概率。

未來研究

對研究界和 bot 開發者而言,這項突破是邁向可推理、可交談和可談判的聊天機器人的重要一步,構建了實現個性化數字助理的關鍵基礎。與社區一起努力讓我們有機會分享我們的研究成果和我們正在尋求解決的難題,我們鼓勵有才華的人貢獻他們的想法和努力,以推動這一領域繼續向前。

以下為原研究論文的摘要:

論文:成交嗎?用於談判對話的端到端學習(Deal or No Deal? End-to-End Learning for Negotiation Dialogues)

Facebook開源基於強化學習的端到端談判AI

大多數人類對話都發生在半合作的環境中,其中帶有不同目標的個體會嘗試達成共同的決策。協商談判需要複雜的交流和推理技能,但成功卻比較容易衡量,這使其成為了一個非常有趣的人工智慧任務。我們收集了一個在許多議題的談判任務上的人與人談判的大型數據集,其中的個體不能觀察其他個體的獎勵函數,且必須通過自然語言對話達成協議(或交易)。我們首次表明訓練端到端的談判模型是可能的,其必須在沒有標註的對話狀態的情況下同時學習語言技能和推理技能。我們還引入 dialogue rollouts,其中該模型可以通過模擬可能的完整連續對話來進行提前規劃;我們發現這種技術能極大地提升表明。我們的代碼和數據集已經公開。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

微軟全球資深副總裁王永東:人工智慧一面是智能,另一面一定要接近於人
機器翻譯新突破:谷歌實現完全基於attention的翻譯架構
OpenAI發布全新研究:根據人類反饋進行強化學習
微軟全球資深副總裁王永東:人工智慧一面是智能,另一面要接近人

TAG:機器之心 |

您可能感興趣

Facebook開源強化學習工具包Horizon
Facebook又放大招!開源框架Pythia讓深度學習更高效
Facebook開源視覺、語言多任務深度學習框架——Pythia
Pythia:Facebook最新開源的視覺、語言多任務學習框架
用PyTorch做深度學習實驗!Facebook新框架Ax和BoTorch雙雙開源
FAIR開源Tensor Comprehensions,讓機器學習與數學運算高性能銜接
FAIR 開源 Tensor Comprehensions,讓機器學習與數學運算高性能銜接
Facebook開源首個適應大規模產品的強化學習平台Horizon,基於PyTorch 1.0
資源 | Facebook開源首個適應大規模產品的強化學習平台Horizon,基於PyTorch 1.0
阿里深度學習框架開源了!無縫對接TensorFlow、PyTorch
Facebook 最新開源框架 PyRobot,開闢 AI 機器人研究新紀元
Facebook宣布開源DeepFocus VR研究
Facebook開源高級模擬平台AI Habitat
Facebook 開源深度學習推薦模型 DLRM,可直接用 PyTorch 和 Caffe2 實現
Facebook宣布開源DeepFocus技術
Facebook 開源 Detectron
Horovod?Tensor flow?Uber開源分散式深度學習模型
開源 Resonance Audio
谷歌開源 TF-Ranking:專用於排序學習的可擴展 TensorFlow 庫
Facebook發布PyTorch 1.1,開源AI模型優化簡化工具BoTorch&Ax