Facebook讓AI學會談判協商，能通過「說謊」達到目的

最新 06-15

陳樺編譯整理

量子位出品 | 公眾號 QbitAI

從每天醒來的那一刻起，我們的生活就開始了一系列協商。

這樣的場景包括討論看什麼電視，說服孩子們吃蔬菜，以及通過討價還價獲得更好的價格。這些都有共同之處，即需要複雜的溝通和推理能力。而對計算機來說，這些能力並不是天生的。

到目前為止，對聊天機器人的開發意味著系統可以進行簡短的對話，完成簡單的任務，例如預訂餐廳。然而，開發能夠與人類進行有意義對話的機器仍然充滿挑戰，因為這需要機器人有能力將會話理解與關於世界的知識結合起來，隨後生成新的句子，協助它實現目標。

今天，Facebook人工智慧研究院（FAIR）的研究人員提供了開源代碼，發表了研究成果，介紹關於對話型人工智慧的新能力，即協商能力。

不同人有不同的目標，可能出現衝突，隨後會通過協商來達成一致。與此類似，研究人員已經證明，目標不同的對話型人工智慧可以參與全過程協商，最終達成共同的決策或結果。

據報道，Facebook這套AI系統有時候不會直截了當的說出自己想要什麼，而是假裝對一個無關緊要的事情更感興趣，當然整個協商的目的還是朝向自己的真正所需。看起來是用「說謊」的方式，達到自己的目的。

任務：多問題協商

FAIR的研究人員通過多問題協商任務來展開這方面的研究。研究人員向兩個人工智慧展示同樣的一系列對象，例如兩本書、一頂帽子或三個球，隨後要求人工智慧通過自主協商來分配這些對象。

每個人工智慧都有自己的價值函數，代表了不同人工智慧對於不同對象的重視程度（例如，每個球對1號人工智慧意味著3分）。與真實生活中一樣，人工智慧之間並不了解對方的價值函數，需要通過對話來進行推理（例如，如果你說想要一個球，那麼對你來說，球就有比較高的價值）。

FAIR的研究人員開發了許多這樣的協商場景，並確保兩個人工智慧不可能同時得到最好的結果。此外，對人工智慧來說，從協商中退出（或是在10輪協商之後仍未有結果）意味著得到0分。簡單來說，協商是必要的，而良好的協商能得出最好的結果。

對話推進

協商是一種語言問題，也是一種推力問題。在協商過程中，你必須設定意圖，隨後通過語言來表達。這樣的對話包含合作和對抗元素，要求人工智慧可以理解並形成長期計劃，隨後生成表達方式來達成目標。

在開發這種長期規劃對話人工智慧的過程中，FAIR研究人員的關鍵技術創新在於「對話推進」概念。

聊天機器人可以建立對話對方的心智模型，「提前考慮」或預測未來的對話方向。因此，它們可以選擇避開信息不足、容易導致迷惑或沮喪的表達方式，採用更容易成功的交流方式。

具體來說，對話推進是一種新技術。通過推進模型至對話結束，人工智慧可以模擬未來的對話，隨後選擇最有可能實現預期回報的表達方式。

類似的技術曾被用於遊戲環境的規劃，但從未被應用至語言表達，因為可能的表達為數太多。為了提高效率，研究人員首先生成選擇較少的一組表達，隨後對其中的每種表達反覆模擬未來可能的對話方式，以此來估計成功的可能性。該模型的預測精度足以使該技術在以下領域明顯改進協商策略：

更努力地協商：新的人工智慧會與人類進行更長的對話，因此達成協議的速度可能不會那麼快。人類有時會直接放棄，達不成任何協議，但試驗中的模型會持續協商，直到成功達成協議。

智能行為：在某些情況下，人工智慧會假裝對一件沒有價值的對象感興趣，但最終選擇妥協。人類經常會使用這種高效的協商策略。這種行為並非來自研究人員的編程，而是由人工智慧在實現目標的過程中自我發現的。

生成新句子：儘管神經網路模型傾向於從訓練數據集中選出現有的句子，但這項研究表明，在必要情況下，這些模型可以泛化出新的句子。

建設和評估協商數據集

為了訓練人工智慧進行協商，並展開大規模的量化評估，FAIR團隊以眾包模式讓配對的兩個人進行一系列協商。這些參與者看到一組對象，以及每個對象匹配的值，隨後被要求就如何分配這些對象達成一致。然後，研究人員訓練循環神經網路去進行協商，使其模擬人類行為。在對話的任意時候，模型都試圖猜測，在當時情況下，人類會怎麼說。

與之前以目標為導向的對話不同，這種模型的「端到端」訓練完全來自人類的對話和決策，這意味著這種方法可以很容易適應其他任務。

為了讓模型不是簡單地模仿人類，FAIR的研究人員允許模型去實現協商目標。為了訓練模型達成目標，研究人員讓模型數千次地與自身進行協商，並利用強化學習技術，在取得良好結果的情況下對模型進行獎勵。為了防止演算法最終生成自己的語言，研究人員還特別規定演算法使用類似人類的語言。

在評估這些人工智慧時，FAIR利用人工智慧與人類進行在線交談。此前的大部分工作都避免與真人進行對話，或只是在挑戰性不大的領域進行嘗試，因為學習模型的困難在於對人類語言的多樣性做出回應。

有趣的是，在FAIR的實驗中，大部分人並沒有意識到，正在與機器人聊天。這表明，機器人在這個領域可以用英語流利地與他人對話。FAIR最強大的協商人工智慧利用了強化學習和對話推進技術，能實現與人類同樣的協商能力。這種人工智慧取得良好結果的可能性與取得糟糕結果的可能性同樣大。這證明，FAIR的機器人不僅能說英語，還能智能地思考應該說什麼。

面向對話人工智慧的強化學習

受監督學習的目的是模仿人類行為，但並未明確地嘗試實現人工智慧的目標。通過採用不同方法，FAIR團隊研究了用受監督學習進行預先訓練，隨後用強化學習技術，基於評價指標對模型進行微調。實際上，他們使用受監督學習技術去了解，如何匹配語言及其含義，並使用強化學習去協助確定應該使用什麼表達。

在強化學習的過程中，人工智慧嘗試通過與對方的對話來優化參數。由於對方可能是人，因此FARI使用了固定的受監督模型去模仿人類。第二個模型是固定的，因為研究人員發現，如果允許兩個人工智慧同時調節參數，那麼就會導致對話語言偏離人類語言，人工智慧就會用自己的語言去進行協商。在每次對話的最後，根據達成的協議，人工智慧將獲得一定的獎勵。隨後，這些獎勵將會通過策略梯度反向傳遞給人工智慧輸出的每個單詞，從而提升獲得更高獎勵的可能性。

下一步

這項突破代表了科研領域和機器人開發者的重要進展。他們將開發出可以推理、交談和協商的聊天機器人，而這些能力對於打造個性化數字助手非常關鍵。

【完】

招聘

量子位正在招募編輯記者、運營、產品等崗位，工作地點在北京中關村。相關細節，請在公眾號對話界面，回復：「招聘」。

One More Thing…

今天AI界還有哪些事值得關注？在量子位（QbitAI）公眾號對話界面回復「今天」，看我們全網搜羅的AI行業和研究動態。筆芯~

另外，歡迎加量子位小助手的微信：qbitbot，如果你研究或者從事AI領域，小助手會把你帶入量子位的交流群里。

掃碼強行關注『量子位』

追蹤人工智慧領域最勁內容

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！