當前位置:
首頁 > 新聞 > 機器人在人機協作團隊中成「領導」?工作原理為何?

機器人在人機協作團隊中成「領導」?工作原理為何?

隨著機器人技術的發展,機器人在實際生活中發會越來越重要的作用。它不僅只是根據人類的指令來行動,更開始在人機協同工作中開始發揮引導人類工作的作用。本文介紹了斯坦福 AI 研究院的研究人員如何應用領導者-跟隨者圖(LFG)來更好地發揮機器人在團隊中的領導作用。

我們的生活大多圍繞著團隊協作。例如,我們在與人群協作或影響人群時,既能夠以顯而易見的方式(如一起做飯時),也能夠以不易察覺的方式(如在高速公路上共享車道時)。隨著機器人越來越融入社會,它們應該能夠很好地與人類群體協作。

機器人在人機協作團隊中成「領導」?工作原理為何?

打開今日頭條,查看更多圖片

團體協作的例子包括協作烹飪、抗議和在擁擠的空間中穿行。

然而,要影響人群是具有挑戰性的。例如,想像一下在一個志願搜救任務中,無人機學習關於目標位置的最新信息(如下面的藍色標記所示)。假設沒有直接的通訊方式,無人機應該如何帶領志願者前往那個地點?

機器人在人機協作團隊中成「領導」?工作原理為何?

藍色箭頭表示所需路徑,紅色箭頭表示當前人類志願者的次優路徑。

無人機領導團隊的一種方式,是分別對每個個體進行建模並單獨施加影響。其中,無人機建模的用意在於理解並預測某個人的行為。然而,獨立於他人的建模和影響並不能很好地擴展到人數更多的個體,而且我們無法在進行在線快速計算。

機器人在人機協作團隊中成「領導」?工作原理為何?

一個為每個志願者單獨建模的無人機。這種方法不適用於大量智能體。

影響人類團隊的另一種方法是放棄任何建模,直接從對團隊的觀察中學習策略或行動規劃。這種方法為人數同樣多的團隊提供了一個合理的解決方案。但是,添加或減去一個團隊成員會改變模型的輸入大小,並且需要重新訓練模型。

我們取得成果如下:

  • 引入了一種可以用可伸縮的方式為人群交互建模的方法。

  • 描述了機器人如何利用這些知識影響人類團隊。

人類群體的潛在結構

與為群體中的每個個體建模不同,我們的核心思想是關注個體之間的建模關係。當在群體中互動時,我們不再孤立地行動,而是根據他人的行動有條件地行動。這些依賴關係提供了一種結構,我們可以使用這種結構來形成對他人的期望,並據此行事。在更大的範圍內,這允許我們發展出規範、慣例,甚至文化。這些依賴關係對機器人很有用。因為它們提供了豐富的信息源,可以幫助機器人建模和預測人類行為。我們稱這些依賴關係為潛在結構。

日本(左)和印度(右)形成了不同的駕駛文化。

潛在結構的一個重要例子是領導和跟隨行為。我們可以很容易地組成團隊,並決定是否應該跟隨或帶領團隊高效地完成任務。例如,在搜救任務中,一旦發現目標的新信息,人類就能自發地成為領導者。我們還默默地協調領導和跟隨策略。舉個例子,當司機開車時,他們會跟隨對方穿過車道。在工作中,我們將重點建模潛在的引導和跟隨結構,並將它作為一個運行示例。

機器人在人機協作團隊中成「領導」?工作原理為何?

在搜救任務中,志願者之間潛在的領導和跟隨結構的例子(左圖),以及車輛在交通中相互跟隨的例子(右圖)。

那麼我們該如何對這些潛在結構進行建模呢?理想模型應該具有哪些性質呢?在討論如何建立潛在結構模型之前,讓我們先確定一些必備要素?

  • 複雜性:由於這些結構通常是隱式形成的,我們的模型應該足夠複雜,能夠捕獲個體之間的複雜關係。

  • 可伸縮性:模型應該能夠適應不斷變化的智能體數量。

潛在結構建模最簡單的情況

我們使用監督學習方法來估計兩個人類智能體之間的關係。回到必備要素的討論,這解決了複雜性的問題,因為使用基於學習的方法允許我們捕獲這對組合可能擁有的複雜關係。使用模擬器,我們可以要求參與者演示我們想要度量的期望關係,例如領導和跟隨。

我們將搜救任務抽象為一個遊戲,其中目標代表潛在的倖存者位置。在下面的例子中,參與者被要求互相領導和跟隨,以便集體決定要達成的目標。與人有關的數據通常充滿噪音,很難大規模收集。為了彌補這個缺點,我們用模擬的人類數據擴充了我們的數據集。然後,我們將這些數據輸入神經網路模塊。這些模塊經過訓練,可以預測前導關係和後導關係。這為我們提供了一個模型,可以評估每個智能體以及目標成為智能體的領導者的可能性。

機器人在人機協作團隊中成「領導」?工作原理為何?

該網路預測玩家 2 的領導者是玩家 1。

擴大團隊規模

現在,我們如何給一個更大的團隊建模呢?使用上面的模型,我們可以通過計算所有智能體和目標之間成對關係的得分,將多個人類之間的關係表示為一個圖。每個描述的邊都有一個由我們訓練過的神經網路分配的概率(概率在下面的圖中抽象出來)。

機器人在人機協作團隊中成「領導」?工作原理為何?

我們計算了所有可能的領導者和追隨者之間的領導者-追隨者關係的兩兩權重。

然後利用圖論演算法對原始圖進行剪枝,得到最大似然圖。例如,我們可以貪婪地為每個智能體選擇權重最高的出邊(outgoing edge )。

機器人在人機協作團隊中成「領導」?工作原理為何?

剩下的圖中,粗體邊表示最有可能的邊。我們稱這個圖為領導者-追隨者圖(LFG)。

機器人在人機協作團隊中成「領導」?工作原理為何?

領導者-追隨者圖(LFG)。我們可以使用 LFG 來確定最有影響力的領導者,即擁有最多追隨者的智能體。

由於我們可以很容易地對實時變換的智能體數量進行建模,因此圖結構可以隨著智能體數量的變化而伸縮。例如,在下一個時間步長 $kth$ 中添加一個智能體所需要的時間與智能體程序的數量 $n$ 和目標的數量 $m$ 線性相關。在實踐中,這需要以毫秒為單位來計算。

我們的模型泛化後有多準確?

通過將領導者-追隨者圖所做的預測與真實落地的預測進行比較,來評估我們的模型泛化的準確性。用模擬數據和同時包含模擬和真實人類數據的數據(混合數據)進行訓練實驗。我們發現,訓練更多的智能體有助於模型的推廣。這表明,需要權衡使用較少的智能體進行訓練還是使用量較多的智能體進行訓練(這需要收集更多的數據)。

機器人在人機協作團隊中成「領導」?工作原理為何?

潛在結構對機器人有什麼用?

機器人可以利用潛在結構來推斷團隊的有用信息。例如,在領導和跟隨的例子中,我們可以識別諸如智能體的目標或誰是最有影響力的領導者之類的信息。這些信息允許機器人識別對任務至關重要的關鍵目標或智能體。考慮到這一點,機器人可以採取行動來達到預期的結果。下面是機器人利用圖形結構影響人類團隊的兩項任務:

A.合作任務

在許多現實生活場景中,能夠帶領一組人實現目標是很有用的。例如,在搜救任務中,擁有更多倖存者位置信息的機器人應該能夠領導團隊。我們已經創建了一個類似的場景,其中有兩個目標,倖存者的潛在位置,以及一個知道倖存者所在位置的機器人。機器人試圖通過帶領所有隊友到達目標位置來最大化聯合效用。為了影響團隊,機器人使用領導者-跟隨者圖來推斷當前最有影響力的領導者是誰。然後機器人選擇採取最大化最具影響力的領導者實現最優目標的概率的動作。

在下面的圖中,綠色的圓圈代表位置(或目標),橙色的圓圈代表模擬的人類智能體,黑色的圓圈代表機器人。機器人正試圖帶領團隊走向更理想的底部位置。我們將使用圖結構的機器人(上)與貪婪地瞄準最優目標的機器人(下)進行對比。

機器人在人機協作團隊中成「領導」?工作原理為何?

機器人在人機協作團隊中成「領導」?工作原理為何?

上方圖中,機器人向底部移動,並圍繞底部移動,這是最優的目標,目的是引導推斷出的領導者向目標移動。下方圖中,機器人直接朝底部目標前進,沒有任何積極影響隊友的企圖。

如果大多數人首先與底層目標發生衝突,機器人就會成功;如果大多數人與次優目標發生衝突,機器人就會失敗。下面是一個圖表,它記錄了使用圖形表示的機器人與使用其他基線策略的機器人的成功率。

機器人在人機協作團隊中成「領導」?工作原理為何?

超過100個合作遊戲的成功率,其中n=4個玩家,目標不同

我們發現,在具有大量潛在目標的更困難的場景中,圖形表示是有用的。

B .對抗任務

機器人也可能想要阻止人類團隊達成集體目標。例如,想像一個奪旗遊戲,一個機器人隊友試圖阻止對手奪旗。

我們創造了一個類似的任務,一個機器人想要阻止一個人類團隊達成目標。為了讓團隊陷入停滯,敵對型機器人使用領導者-追隨者圖來識別當前最有影響力的領導者是誰。然後,機器人選擇採取能夠引導其推斷出的最有影響力的領導者偏離目標的最大化概率的行動。下圖左邊顯示了機器人的動作示例。在右邊,我們展示了一個簡單策略的例子,一個機器人隨機選擇一個玩家,並試圖阻止它,但沒有成功。

機器人在人機協作團隊中成「領導」?工作原理為何?

機器人在人機協作團隊中成「領導」?工作原理為何?

上方圖中,機器人使用領導者-追隨者圖來採取行動,阻止推斷出來的領導者達到目標。下方圖中,機器人沒能成功地跟隨一名玩家以阻止他達到目標。

通過阻止玩家達到目標,機器人試圖儘可能延長遊戲時間。這是一個使用圖形表示與其他基線策略進行比較的機器人的圖。

機器人在人機協作團隊中成「領導」?工作原理為何?

使用領導者-追隨者圖 (LFG)的兩種策略比其他基線方法成功地延長了遊戲時間。

我們發現,與其他基準策略相比,使用我們的圖形表示的機器人在延長遊戲時間方面最為成功。

接下來是什麼?

我們引入了一種可伸縮的方法,表示團隊中的固有結構。然後,我們演示了如何使用這個結構來設計智能影響行為。對於未來的工作,我們感興趣的有以下幾點:

  • 實際實驗。我們正在微型群機器人上實現我們的演算法,這樣就可以用真實的機器人和人類進行人機合作實驗。

  • 改變工作領域和結構。在更多類型的潛在結構(例如,團隊成員如何信任彼此)和不同領域(例如,驅動,部分可觀察的設置)上測試我們的框架是很好的。

想要了解更多,可閱讀論文原文:

Influencing Leading and Following in Human-Robot Teams, Minae Kwon*, Mengxi Li*, Alexandre Bucquet, Dorsa Sadigh Proceedings of Robotics: Science and Systems (RSS), June 2019

  • //iliad.stanford.edu/pdfs/publications/kwon2019influencing.pdf

via:http://ai.stanford.edu/blog/influencelead/雷鋒網雷鋒網雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

乾貨!中國城市規劃設計研究院楊滔:未來城市的智慧規劃怎麼做?
WiFi聯盟、藍牙聯盟、JEDEC協會已恢復華為成員資格;蘋果可摺疊屏幕專利獲批,最早或將於後年推出可摺疊手機

TAG:雷鋒網 |