當前位置:
首頁 > 新聞 > BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

人機合作可以提高很多現實高危任務的成功率和安全性,特別是對於視野受限的飛機著陸甚至飛船登月任務。以前的方法通常依賴於大量的先驗知識(基於模型)。為此,伯克利
AI
研究院提出了基於深度強化學習的共享自治系統(無模型),不需要先驗知識就可以輔助任務的執行,並在有先驗知識的條件下能進一步利用並提升性能。該系統對於存在非結構化、不可預測因素的任務很有優勢。在登月遊戲和真實無人機著陸的任務中它都取得了優越的成果,顯著優於人機獨立執行。

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

一個盲的、自動駕駛員(左),一個次優的人類駕駛員(中)和一個人機混合隊(右)玩登月遊戲

  • 源代碼地址:https://github.com/rddy/deepassist

  • 相關視頻地址:https://sites.google.com/view/deep-assist

設想一個無人駕駛飛行員遠程控制四旋翼飛行器,使用機載相機進行導航和降落。不熟悉的飛行動力學、地形和網路延遲可能會使這個系統面臨人類難以控制的挑戰。解決這個問題的一個方法是訓練自主智能體執行巡視和製圖等任務,而無需人為干預。當任務明確規定並且智能體可以觀察所需的所有信息時,該策略可以很好地工作。不幸的是,許多涉及人類用戶的真實世界的應用程序並不能滿足這些條件:用戶的意圖通常是智能體無法直接訪問的隱私信息,而且任務可能太複雜,用戶無法精確定義。例如,飛行員可能想要跟蹤一組移動物體(例如,一群動物)並且即時改變物體優先順序(例如,關注意想不到地出現受傷的人)。共享自治通過將用戶輸入與自動協助相結合來解決此問題;換句話說,增強人類的控制力而不是取代它。

背景

在共享控制系統中結合人機智能的想法可以追溯到
1949 年 Ray Goertz 的主從機械手的早期版本,1969 年 Ralp Mosher 的 Hardiman 外骨骼和 1980 年
Minsky 對遠程監控技術的呼籲。經過數十年對機器人、人機交互和人工智慧的研究,人類操作員和遙控機器人之間的介面仍然是一個挑戰。根據
2015 年 DARPA 機器人挑戰賽的一個評論:「人機交互是提高機器人性能的最具性價比的研究領域...... 在 DARPA
機器人挑戰賽上,機器人穩定性和性能的最大敵人是操作失誤。開發避免和克服操作失誤的方法對於真實的機器人技術至關重要。人類操作員在壓力下,特別是沒有經過現實條件下廣泛的培訓和實踐,很容易犯錯誤。」

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

共享自治的一個研究主旨是通過推斷用戶的目標並自主行動來解決這個問題。Shervin
Javdani 博士論文《Acting under Uncertainty for Information Gathering and
Shared
Autonomy》的第五章對相關文獻進行了很好的回顧。這些方法已經在輔助駕駛、腦機介面和輔助遙控上取得了很好的進展,但它們都需要真實世界的先驗知識。具體來說就是:(1)一個可以預測在給定的環境中採取給定動作的後果的動態模型;(2)用戶可能的目標集合;(3)一個在給定目標的情況下可以描述用戶行為的觀察模型。基於模型的共享自治演算法非常適合可以直接對這些知識進行硬編碼或學習的領域,但卻面臨著由非結構化環境造成的未定義目標和不可預測的用戶行為所帶來的挑戰。我們從另一個角度來看這個問題,即通過使用深度強化學習來實現模型無關情況下的共享自治。

深度強化學習使用神經網路函數逼近來處理高維、連續狀態和動作空間中的維數災難。最近深度強化學習在從頭開始訓練自治智能體方面取得了顯著的成功,例如:玩視頻遊戲、在
Go 上擊敗人類世界冠軍以及控制機器人等。我們已經取得了初步的進展來回答以下問題:深度強化學習對建立靈活和實用的輔助系統有用嗎?

無模型、有人類參與的強化學習演算法

為了在最小的先驗假設下實現共享控制遠程操作,我們設計了一個用於共享自治的無模型深度強化學習演算法。其關鍵的思想是學習從環境觀察、用戶輸入到智能體動作的端到端映射,任務獎勵是唯一的監督信息。從智能體的角度來看,用戶的行為像一個可以進行微調的先驗策略,以及一個生成觀察結果的、使智能體可以隱式地解碼用戶私人信息的附加感測器。從用戶的角度來看,智能體的行為就像一個自適應界面,可以學習從用戶命令到最大化任務獎勵的動作的個性化映射。

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

圖 1:有人參與的、無模型共享自治的深度 Q-學習演算法的總覽。

這項工作的核心挑戰之一,是在不會顯著干擾用戶的反饋控制環路或在較長的訓練周期內使人感到勞累的同時,採用標準的深度增強學習技術有效利用來自人體的控制輸入。為了解決這些問題,我們使用深度
Q-學習
來學習一個近似的狀態-動作的值函數,該函數計算在當前的環境觀察和用戶輸入的情況下預期的動作回報。使用該值函數後,輔助智能體將執行同用戶的控制輸入執行最接近的高值動作。智能體的獎勵函數是為每個狀態計算的已知項的組合,以及用戶在任務成功或失敗時提供的終端獎勵。請參見圖
1 以了解此過程的高級示意圖。

輔助學習

之前的工作《Shared Autonomy
via Hindsight Optimization for Teleoperation and
Teaming》已經將共享自治形式化為部分可觀察的馬爾可夫決策過程(POMDP),其中用戶的目標最初對智能體是未知的,並且必須被推斷出來以完成任務。現有方法傾向於假設
POMDP 的以下組成部分事先已知:(1)環境動力學或狀態轉移分布 T;(2)用戶的一組可能的目標,或目標空間
G;(3)給出目標的用戶控制策略,或用戶模型
π_h。在我們的工作中,我們放寬了這三個標準假設。我們引入了一種無模型的深度強化學習方法,該方法能夠在不知道這些知識的情況下提供幫助,但也可以在知道時利用用戶模型和目標空間。

在我們的問題公式中,轉移分布 T 、用戶策略 π_h 和目標空間 G 不再都是智能體必須知道的。取決於用戶私人信息的獎勵函數如下:

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

這種分解遵循共同自治的典型結構:獎勵中有一些已知的項,例如避免碰撞的必要條件,包含在
R_general 中。Rfeedback
是用戶生成的反饋,取決於他們的私人信息,我們不知道這個函數。我們僅假設智能體在用戶提供反饋時(例如,通過按下按鈕)得到一定的信息。在實踐中,用戶可以簡單地在每個試驗中指示一次智能體是否成功。

結合用戶輸入

我們的方法通過簡單地將智能體對環境的觀察 s_t 與來自用戶的信息 u_t 連接起來進行聯合嵌入。形式化定義如下:

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

u_t
的特定形式取決於可用的信息。當我們不知道目標空間 G 或給定目標π_h 的用戶策略時,就像我們大多數實驗的情況那樣,我們設置 u_t
到用戶行為 a^h_t。當知道目標空間 G 時,我們設置 u_t 到推斷目標
g^t。特別地,對於已知目標空間和用戶模型的問題,我們發現使用最大熵反向強化學習來推斷 g^t
可以提高性能。對於已知目標空間但未知用戶模型的問題,我們發現在某些條件下,可以通過訓練 LSTM
遞歸神經網路,在給定用戶輸入序列的情況下使用由無幫助用戶產生的訓練集來預測 g^t,以提高性能。

用戶控制下的 Q-學習

在無模型強化學習引入人機循環會帶來兩個挑戰:(1)保持信息豐富的用戶輸入和(2)最小化與環境的交互次數。如果用戶輸入是被建議的控制,一直忽略該建議並採取不同的行動可能會降低用戶輸入的質量,因為人類依靠他們的行為反饋來執行實時控制任務。像
TRPO
這樣流行的策略演算法很難在此設置中部署,因為它們無法確定用戶的輸入被忽略的頻率,並傾向於需要與環境進行大量的互動,這對於人類用戶來說是不切實際的。受到這兩個標準的啟發,我們轉向了深度
Q-學習。

Q-學習是一種 off-policy
演算法,使我們能夠通過修改給定預期回報和用戶輸入時用於選擇動作的行為策略來解決問題(1)。受最近並行自治《Parallel Autonomy in
Automated Vehicles: Safe Motion Generation with Minimal
Intervention》和外循環穩定《Learning Models for Shared Control of Human-Machine
Systems with Unknown
Dynamics》工作中最小化干預原則的啟發,在其中一個動作沒有比最佳行動差得多的情況下,我們執行一個最接近用戶建議的可行動作,形式化定義如下:

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

其中 f 是一個動作-相似度函數且

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

可以保持對負 Q 值的理性比較。常數 α∈[0,1] 是一個可以控制系統對於次優人類建議的容忍度或者說輔助程度的超參數。

考慮到問題(2),我們注意到,off-policy
Q-學習傾向於比策略梯度和基於蒙特卡羅的方法的採樣效率更高。當用戶策略近似最優時,我們的行為策略的結構也加快了學習速度;對於適當大的
α,代理可以在學習中微調用戶的策略,而不是學習從頭開始執行任務。在實踐中,這意味著在學習的早期階段,合併的人機團隊至少和無幫助的人類一樣好,而不是在隨機策略的級別上執行。

用戶學習

我們將該方法應用於兩個實時輔助控制問題:登月(Lunar Lander)遊戲和四旋翼著陸任務。這兩項任務都涉及使用離散動作空間控制運動以及包含位置、方向和速度信息的低維狀態觀察。在這兩項任務中,人類飛行員都擁有完成任務所需的私有信息,但無法獨自取得成功。

登月遊戲

比賽的目的是使用兩個側向推進器和一台主發動機,在不發生碰撞或飛出界限的同時將車輛降落在旗幟之間。輔助駕駛員可以觀察著陸器的位置、方向和速度,但不能看到旗幟的位置。

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

人類駕駛員(單獨):人類駕駛員不能穩定駕駛飛行器並且總是會發生碰撞

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

人類駕駛員+強化學習副駕駛:混合駕駛可以在給予飛行器在旗子之間降落的足夠空間的同時,保持飛行的穩定性

人類很少能夠獨自完成登月遊戲,但結合強化學習副駕駛,他們可以做的更好。

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

圖 2a:30 次事件(episode)內平均的成功和墜毀幾率。

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

圖 2b-c:在登月遊戲中有和沒有副駕駛的人類飛行員駕駛的軌跡。紅色軌跡表示在碰撞或越界時結束,綠色成功,灰色則都不是。著陸台由星號標記。僅作為說明,因此我們只顯示了左邊界著陸點的數據。

在使用綜合飛行員模型進行的模擬實驗(此處未顯示)中,我們還觀察到明確推斷目標(即著陸台的位置)而不是簡單地將用戶的原始控制輸入添加到智能體的觀察結果的明顯好處,這表明目標空間和用戶模型可以並應該在可獲取時被使用。

分析登月遊戲的缺點之一是遊戲界面和其中使用的物理規律不能反映真實世界機器人共享自治任務的複雜性和不可預測性。為了在更真實的環境中評估我們的方法,我們為控制真實的四旋翼飛行器的人類飛行員制定了一項任務。

四旋翼飛行器著陸任務

該任務的目標是將一個
Parrot AR-Drone 2
在不越界或超時的情況下,著陸在一個距離其最初起飛位置有一段距離的小的方形著陸墊,這樣無人機的第一人稱攝像頭會隨機指向環境中的一個物體(例如紅色椅子)。飛行員使用鍵盤控制速度,並且不被允許獲取第三人稱視角下的無人機影像,這樣他們不得不依賴無人機的第一人稱攝像頭來導航和著陸。輔助駕駛員觀察位置、方向和速度,但不知道飛行員想要看哪個物體。

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

人類飛行員(單獨):飛行員的顯示器只顯示無人機的第一人稱視角,因此把相機指向一個位置很容易,但找到著陸台很難。

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

人類駕駛員+ RL 副駕駛:副駕駛不知道飛行員想要把相機指向哪裡,但它知道著陸墊的位置。飛行員和副駕駛一起完成了這項任務。

人們發現,在有限時間限制內將相機同時指向所需場景並導航至可行著陸墊的精確位置是具有挑戰性的。輔助駕駛員在著陸墊上著陸時幾乎沒有問題,但不知道該把攝像頭指向何處,因為它不知道人在著陸後想要觀察什麼。一同工作的話,人類可以專註於指向相機,副駕駛可以專註於準確著陸在著陸墊上。

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

圖 3a:20 次事件內平均的成功和墜毀幾率

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

圖 3b-c:人類飛行員在有無副駕駛的情況下著陸軌跡的鳥瞰圖。紅色軌跡表示在碰撞或越界時結束,綠色成功,灰色則都不是。著陸台由星號標記。

我們的結果表明人機混合駕駛員-副駕駛員隊伍顯著地優於獨立的人類駕駛員或使用強化學習的副駕駛員。

未來工作

我們的方法有一個主要弱點:無模型深度強化學習通常需要大量的訓練數據,這對於操作物理機器人的人類用戶來說可能是非常繁重的。在實驗中,我們通過在模擬中沒有人類飛行員的情況下預訓練副駕駛一定程度上解決了這個問題。不幸的是,由於構建高保真模擬器以及設計豐富的用戶無關獎勵函數
R_general 的難度,這種方法對於現實世界的應用有時候是不可行的。我們目前正在探索解決這個問題的不同方法。

論文:Shared Autonomy via Deep Reinforcement Learning(使用深度強化學習實現共享自治)

BAIR提出人機合作新範式:教你如何高效安全地在月球著陸

論文地址:https://arxiv.org/pdf/1802.01744.pdf

在共享自治中,用戶輸入與半自主控制相結合以實現共同目標。目標往往是事先未知的,所以之前的工作使智能體能夠從用戶輸入中推斷目標並協助完成任務。這些方法傾向於對環境動態的知識、用戶給定目標的策略以及用戶追蹤的可能目標組合做出假設,一定程度上限制了它們在真實場景中的應用。我們提出了一個無模型共享自治的深度強化學習框架,以去除這些假設。我們使用有人參與的且應用神經網路函數進行逼近的強化學習,來學習從環境觀察、用戶輸入到智能體動作的端到端映射,其中任務獎勵是唯一的監督信息。用戶(n
=
16)和合成飛行員玩視頻遊戲、控制真實四旋翼飛行器的受控研究證明,我們的演算法能夠幫助用戶完成實時的控制任務。在這其中智能體不能通過觀察直接訪問用戶的私有信息,但是會收到依賴於用戶意圖的獎勵信號和用戶輸入。智能體可以學會在不訪問這些私有信息的情況下從用戶的輸入中隱含地推斷它,進而幫助用戶。這允許被輔助用戶比用戶或自主智能體單獨工作更有效地完成任務。本文一定程度上證明了深度強化學習在實現靈活和可用的輔助系統的潛能。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

終於!Keras官方中文版文檔正式發布了
報名 | 碼隆科技與谷歌研究院合辦Kaggle大賽,挑戰商品圖像分類極限!

TAG:機器之心 |