BAIR開發現實環境的RL機器人,通過與人類的物理交互學習真實目標
選自BAIR
作者:Andrea Bajcsy
機器之心編譯
參與:Nurhachu Null、劉曉坤
可交互機器人通常將人類干預當成干擾,在干預撤除後隨即恢復原來的軌跡,像彈簧一樣執拗,無法根據人類偏好優化動作。伯克利近日開發出可交互學習的機器人系統,以類似強化學習的範式(目標函數不確定),能根據人類干預對自身軌跡進行修正,以最大化獎勵,從而可以實時學習人類偏好。
人類每天都在進行彼此間的物理交互—從某人快要撒掉飲料時扶住他/她的手到將你的朋友推到正確的方向,身體上的物理互動是一種用來傳達個人喜好和如何正確執行一個任務的直觀方式。
那麼,我們為什麼不和當下的機器人像人一樣進行物理交互呢?人類和機器人之間進行無縫的物理交互需要很多條件:輕量級的機器人設計、可靠的力學感測器、安全和反應式的控制方案、預測人類協作者意圖的能力,等!幸運的是,機器人學在專門為人類開發的個人機器人設計方面已經取得了很多進步。
然而,再推敲一下我們剛開始就列舉的第一個例子,即你在朋友快要撒掉飲料的時候扶住了他/她的手。現在假定你那位即將撒掉飲料的朋友(而不是你)是一個機器人。因為在目前最先進的機器人的規劃和控制演算法中,通常會將人類的物理干預視為外部擾動,一旦你放開機器人,它將恢復它那錯誤的軌跡,繼續灑出飲料。這種差距的關鍵在於機器人是如何思考與人類之間的物理交互的:絕大多數機器人會在交互結束之後恢復其初始行為,而不是思考人類為什麼根據需求對它進行物理干預並重新規劃。
我們認為機器人應該將人類的物理干預視為和它應該如何執行任務相關的有用的信息。我們將機器人對物理干預的反應形式化為一種目標(獎勵)學習問題,並且提出了一個解決方案,使得機器人在執行一個任務的時候能夠根據在這些交互中得到的信息來改變它們的行為。
對物理交互的推理:未知的干擾與有意義的信息
物理人機交互(pHRI)領域研究的是共享工作空間里親密的物理交互中出現的設計、控制和規劃問題。之前的 pHRI 研究已經開發出了應對機器人在執行任務時面對物理交互的應對方法。由 Hogan(http://summerschool.stiff-project.org/fileadmin/pdf/Hog1985.pdf)等人提出的阻抗控制是常用的方法之一,阻抗控制可以讓機器人在有人存在的空間里朝著期望的軌跡移動。使用這個控制方法時,機器人就像一個彈簧一樣:它允許人推它,但是在人停止施力之後,它會移回到原來的期望位置。儘管這種策略非常快速,並且能夠讓機器人安全地適應人類的力量,但是機器人並不會利用這種干預去更新它對任務的理解,機器人將繼續以與人類交互之前規劃好的方式執行任務。
為什麼會是這種情況呢?這可以歸結為機器人對任務知識以及它所感知到的力的理解。通常,任務的概念是以一種目標函數的形式被賦予機器人的。這個目標函數為任務的不同方面編碼獎勵,例如「到達位置 X」,或者「在遠離人類的同時朝著桌子移動」。機器人使用它的目標函數來生成可以滿足任務所有方面的動作:例如,機器人會朝著目標 X 移動,同時選擇靠近桌子和遠離人類的路徑。如果機器人最初的目標函數是正確的,那麼任何外部干擾對它而言都是對它正確路徑的干擾。因此,為了安全起見,機器人應該允許物理交互來干預它,但是它最終會返回到計劃的最初路徑,因為它固執地認為最初的規劃是正確的。
相比之下,我們認為人類的干預往往是有目的的,並且是在機器人出錯的時候才去干預它。雖然機器人的原始行為相對其預定義好的目標函數可能是最優的,但是需要人類干預的事實則意味著最初的目標函數並不是特別正確。所以,物理的人類干預不再是擾動了,而是對機器人應該呈現的真實目標函數的有用觀察。基於這種考慮,我們從逆強化學習(IRL)(http://ai.stanford.edu/~ang/papers/icml00-irl.pdf)中獲得一些靈感,即機器人觀察到了一些行為(例如被推離了桌子),並且嘗試著去推理新的目標函數(例如,「遠離桌子」)。請注意,雖然很多 IRL 方法集中在讓機器人在下一次做得更好,而我們則關注於讓機器人正確地完成當前的任務。
形式化對 pHRI 的反應
基於對物理人機交互的認識,我們可以用一個動態系統來描述 pHRI,其中機器人不能確定正確的目標函數,人類的交互將給它提供信息。這種形式定義了一類廣泛的 pHRI 演算法,包括現有的阻抗控制方法,使得我們能夠得到一種新穎的在線學習方法。
我們將會集中討論這種方法的兩個部分:(1)目標函數的結構;(2)機器人通過給定的人類物理交互推理目標函數的觀察模型。讓 x 代表機器人的狀態(例如位置和速度),uR 代表機器人的動作(例如施加到關節的扭矩)。人類可以通過外部的力矩來與機器人產生物理交互,稱作 uH,機器人通過它的動力運動到下一個狀態。
機器人的目標:在最少的人類交互下正確地完成任務
在 pHRI 中,我們希望機器人能夠學習人類,但同時我們也不想讓人類在持續的物理交互中負擔過重。所以,我們可以為機器人定下這麼一個目標,既能完成任務,也能最小化所需的交互數量,最終在這則兩者之間進行權衡。
這裡,?(x,uR,uH) 對任務相關的特徵進行編碼(例如,「到桌子的距離」、「到人類的距離」、「到目標的距離」),θ決定每種特徵的相對權重。這個函數中,θ封裝了真正的目標——如果機器人準確地知道如何給任務的各個方面進行加權,那麼它就可以計算出如何以最佳的方式執行任務。然而,機器人並不知道這個參數!機器人並不總會知道執行任務的正確方式,更不用說人類喜歡的方式了。
觀測模型:從人類的交互中推理正確的目標函數
正如我們討論的,機器人應該觀察人類的動作來推理位置的任務目標。為了把機器人測量的直接人力與目標函數聯繫起來,機器人採用了觀測模型。在最大熵逆強化學習(IRL)(https://www.aaai.org/Papers/AAAI/2008/AAAI08-227.pdf)中的現有工作和人類行為認知科學模型(http://web.mit.edu/clbaker/www/papers/cogsci2007.pdf)中的玻爾茲曼分布的基礎上,我們將人類的干預建模為:機器人在處於狀態 x 並採取 uR+uH 的行動時,能夠將機器人期望的獎勵近似最大化的矯正。這個期望的獎勵包含即時獎勵和未來獎勵,並且由 Q 值描述。
直覺地看,這個模型的解釋是,人類更可能選擇這樣一種物理交互,它能夠與機器人的動作結合起來,以形成一個期望的行為(具有高獎勵值的行為)。
從人類的物理交互中進行實時學習
就像教一個人類一樣,我們希望機器人能夠在我們與它交互的時候持續地學習。然而,我們提出的學習框架需要機器人求解一個部分可觀測馬爾科夫決策過程(POMDP,partial observable markov decision process);不幸的是,我們知道,精確地求解 POMDP 需要昂貴的計算代價,而且在最壞的情況下是無法解決的。然而,我們可以從這種形式中推導它的近似值,這些近似值可以使機器人在與人類交互的同時進行學習和行動。
為了實現這種任務內學習,我們做了三個近似,歸納如下:
1)把求解最優控制策略和估計真實目標函數區分開來。這意味著機器人要在每一個時間步更新它對θ的可能值的置信度,然後重新規劃一個滿足新分布的最優控制策略。
2)將控制和規劃區分開來。計算一個最優控制策略意味著要在連續狀態、動作和置信空間中的每個狀態計算出一個要採取的最佳行動。儘管在每一次交互之後實時重新計算出一個完全的最優策略是很難的,但是我們可以在當前的狀態實時重新計算出一個最優軌跡。這就是說,機器人首先會規划出一個最符合當前估計的軌跡,然後用一個阻抗控制器追蹤這個軌跡。我們前面描述過的阻抗控制提供了需要的良好屬性,在交互期間,人們可以物理地修改機器人的狀態,同時還能保證安全。
回顧一下我們的估計步驟,我們將對軌跡空間進行類似的變換,並且修改我們的觀測模型來反映這一點:
現在我們的觀測模型僅僅依賴於在一個軌跡上的累積獎勵 R,R 可以通過對所有步驟中的獎勵進行求和計算得到。在這個近似中,在推理真實目標函數的時候,在給定當前執行軌跡 ξR 以後,機器人僅須考慮與人類偏好軌跡 ξH 的似然度。
但是,人類的偏好軌跡 ξH 又是什麼呢?機器人僅僅會直接測量人類施加的力 uH。一種用來推理人類偏好軌跡的方式是在機器人的當前軌跡上傳播人類的力。圖 1 建立了基於 Losey 和 O"Malley 之前的工作的軌跡形變,開始於機器人的原始軌跡,然後施加外力,然後施加形變以產生 ξH。
圖 1. 為了推理給定目前規劃好的軌跡中的人類偏好軌跡,機器人首先測量了人類的交互力 uH,然後平滑地使軌跡上與交互點接近的點發生形變,從而得到人類偏好的軌跡。
3)使用θ的最大後驗(MAP)估計進行規劃。最後,因為θ是一個連續變數,並且可能會具有較高的維度,加之觀測模型是非高斯的,所以我們會僅使用 MAP 估計進行規劃,而不是對θ的完全置信。我們發現,在高斯先驗條件下,機器人當前軌跡的二階泰勒級數展開下的 MAP 估計相當於執行在線梯度下降:
在每一個時間點,機器人會根據其當前最優軌跡和人類的偏好軌跡之間的累積特徵差來更新它對θ的估計。在示例學習的文獻中,這個更新規則類似於在線最大間距規劃(https://www.ri.cmu.edu/pub_files/pub4/ratliff_nathan_2006_1/ratliff_nathan_2006_1.pdf);它也類似於合作學習(https://arxiv.org/pdf/1601.00741.pdf),在合作學習中,人類會修正當前任務的軌跡點來為未來的任務學習一個獎勵函數。
最終,將這三步結合起來就得到了原始 POMDP 的一個優雅的近似解決方案。在每一個時間步驟中,機器人規劃一個軌跡 ξR,然後開始移動。人類可以進行物理交互,使得機器人能夠感知到人類施加的力量 uH。然後,機器人利用人的力量使其原始軌跡發生形變,並生成人類期望的軌跡 ξH。然後機器人會推理其原始軌跡和人類期望的軌跡在任務的哪些方面存在不同,並在這種差別的方向上更新 θ 的值。然後,機器人使用新的特徵權重重新規劃一個更加符合人類偏好的軌跡。
您可以閱讀我們在 2017 年機器人學習會議上的論文(http://proceedings.mlr.press/v78/bajcsy17a/bajcsy17a.pdf)來了解我們的形式化和近似的全面描述。
在現實世界中向人類學習
為了評價任務內學習在現實個人機器人上的好處,我們招募了 10 名參與者進行用戶研究。每位參與者都與運行我們提出的在線學習方法的機器人進行交互,同時將沒有從物理交互中學習,只是簡單運行阻抗控制方法的機器人作為對比基準。
圖 2 展示了三個實驗性的居家操作任務,在每一個任務中,機器人開始時都被初始化為一個不正確的目標函數,參與者必須對其進行校正。例如,機器人會把杯子從架子上移動到桌子上,但它不會考慮杯子傾斜(它不會注意到杯子里是否有液體)。
圖 2. 初始目標函數被標記為黑色的線,真實目標函數的期望軌跡標記為藍色線條。參與者需要校正機器人,教它將杯子保持直立(左邊),使其朝著桌子移動(中間),並避免經過筆記本電腦(右邊)。
我們測量了機器人相對真實目標的性能、參與者付出的努力、交互時間以及 7 點 Likert 量表調查的響應。
在任務 1 中,看到杯子傾斜時,要教機器人使杯子保持直立,參與者必須進行物理干預(圖左的阻抗控制不會將杯子保持修正後的狀態,圖右的在線學習則能實時修正杯子變得直立)。
任務 2 讓參與者教機器人靠近桌子(阻抗控制的機器手確實像彈簧,非常執拗)
對於任務 3,機器人的原始軌跡會經過筆記本電腦上方。為了教機器人避免從筆記本電腦上方經過,參與者必須進行物理干預。
我們的用戶研究結果表明,從物理交互中學習能夠以較少的人力獲得更好的機器人任務性能。當機器人正在執行任務期間積極地從交互中學習的時候,參與者能夠使機器人以更少的努力和交互時間更快地執行正確的行為。此外,參與者相信機器人能夠更好地理解人類的偏好,能夠減少他們互動的努力,參與者相信,機器人是一個更具協作性的合作夥伴。
圖 3 . 對於每一個目標測量(包括任務代價、人類努力以及交互時間),從交互中學習顯著地優於不進行學習的情況。
最終,我們認為機器人不應該將人類的交互作為一種干擾,而應該將其作為提供信息的動作。我們證明,具有這種推理能力的機器人能夠更新他們對正在執行的任務的理解並正確地完成任務,而不是依賴於人們引導他們直至任務的完成。
這項工作只是探索從 pHRI 中學習機器人目標的一個簡單嘗試。很多未解決的問題仍然存在,包括開發能處理動態方面的解決方案(例如關於移動時間的偏好),以及如何/何時將所學的目標函數推廣到新任務中。此外,機器人的獎勵函數經常會有一些任務相關的特徵,人類的交互也許僅僅給出了關於相關權重的一個特定子集的信息。我們在 HRI 2018 中的最新工作研究了機器人如何通過一次只學習一個特徵權重來消除對人們試圖糾正的錯誤的歧義。總之,我們不僅需要能夠從與人類的物理交互中進行學習的演算法,而且這些方法還必須考慮到在嘗試動覺地(肌肉運動感覺)教一個複雜的(可能不熟悉的)機器人系統時人類需要面對的固有難度。
這篇博客的主要內容基於以下兩篇論文:
A. Bajcsy, D.P. Losey, M.K. O』Malley, and A.D. Dragan. Learning Robot Objectives from Physical Human Robot Interaction. Conference on Robot Learning (CoRL), 2017.
A. Bajcsy , D.P. Losey, M.K. O』Malley, and A.D. Dragan. Learning from Physical Human Corrections, One Feature at a Time. International Conference on Human-Robot Interaction (HRI), 2018.
原文地址:http://bair.berkeley.edu/blog/2018/02/06/phri/
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※拓撲數據分析TDA,有望打破人工智慧黑箱的神奇演算法
※2.45億股票與一聲道歉:Waymo與Uber自動駕駛第一案庭外和解
TAG:機器之心 |