當前位置:
首頁 > 最新 > 伯克利:要與機器人發生肢體接觸,才能讓他們更聰明

伯克利:要與機器人發生肢體接觸,才能讓他們更聰明

每天,人們彼此之間都在進行著肢體交互——無論是在某人的飲料將要灑出來時抓住他的手,還是輕推你的朋友,指引他們朝正確的方向前進,肢體交互是當人類想要傳達個人傾向,或告訴他人如何妥當行動時,一種本能的方式。

那麼,我們為什麼不以人類進行肢體交互的那種方式,與機器人進行交互呢?然而,要想人和機器人之間進行天衣無縫的肢體交互,有很多要求:如輕量級的機器人設計、可靠的扭矩(reliable torque)、力量感測器,安全無功控制方案(safe and reactive control scheme)等。儘管如此,以人類為中心而發展起來的個人機器人(person robot),在這方面的技術已經取得了很大進展。

想一想我們在開頭舉出的例子。當你正要抓住將把飲料灑出來的朋友的手時,想像這個朋友是一個機器人。因為國家最先進的機器人計劃和控制演算法(planning and control algorithms)通常假定人類的身體干預是一種干擾,一旦你放開機器人,它就會繼續其錯誤的軌跡直至把飲料灑出來。這一差距的關鍵在於機器人如何對肢體交互進行理性推理:它們不會思考為什麼人類會根據自己的想法干預重新規划行為,大多數機器人只是在肢體接觸後簡單地恢復原來的行為。

我們認為,機器人應該把人之間的肢體交互看作是有用的信息,指導他們完成任務。我們把對肢體交互的反應公式化為一種目標(或回應)學習問題,並提出了一種解決方案,使機器人在執行任務時,能夠根據在這些交互過程中獲得的信息改變行為。

人機肢體交互:

不確定的干擾,還是有意圖的信息?

人機肢體交互(physical human-robot interaction,PHRI)領域研究了在共享工作空間中,人機之間的緊密肢體交互所產生的設計、控制和規劃問題。先前在人機肢體交互領域中的研究開發了安全和響應性的控制方法,以應對在機器人執行任務時發生的肢體反應。Hogan et. al.等人提出,當工作空間中有人時,全阻抗控制(impedance control)是最常用的,使機器人沿既定軌道移動的方法之一。使用這種控制方法,機器人就像彈簧一樣行動:它允許被人推進,但在人類停止施加力量後,又會回到原來的既定位置。儘管這種策略非常快速,並使機器人安全地適應人類的力量,但機器人不能夠利用干預措施來更新其對任務的理解。放開機器人,它將繼續以原方式——與進行人機交互之前一樣的方式去完成任務。

為什麼會這樣?這可以歸結為機器人對任務的執著不受它所受到的外力的影響通常,機器人被以目標函數的形式給予關於任務的概念,如「到達目的地X」或「靠近桌子的同時遠離人」。機器人使用其目標函數創造一個最能滿足任務所有方面的運動:例如,機器人會在朝目標X移動的同時,選擇一條遠離人而靠近桌子的路徑。如果機器人的原始目標函數是正確的,那麼任何肢體交互都只是對其正確路徑的干擾。因此,機器人允許肢體交互出於安全目的干擾它,但它還是會回到原定路徑,因為它固執地相信那個路徑是正確的。

相反,我們認為人類的干預往往是故意的,而且是因為機器人做錯了什麼才會發生。儘管,考慮到預先定義的目標函數,機器人的原始行為可能已經是最優化的了,但是人類干預是必要的這個事實,意味著最初的目標函數不完全正確。因此,人的肢體交互不再是一種干擾,而是一種信息觀測,告訴機器人其真正的目標應該是什麼。考慮到這一點,我們從逆強化學習(inverse reinforcement learning,IRL)中獲得靈感,機器人在這裡覺察到一些行為(例如,被推離桌子),並試圖推斷出未知的目標函數(例如,「遠離桌子」)。注意,儘管許多逆強化學習方法注重讓機器人下一次更好地執行任務,我們則將重點放在使機器人正確地完成當前任務上。

把對人機肢體交互做出的反應公式化

隨著我們對人機肢體交互的深入了解,我們可以將其公式化為一個動態系統,在這個系統中,機器人對於正確的目標函數不確定,而人類的交互為其提供信息。我們將集中討論這個公式的兩個方面:(1)目標函數的結構;(2)一個觀測模型,能夠讓機器人對既定的人類肢體互動目標進行推理。

設x是機器人的狀態(例如位置和速度),設uR是是機器人的動作(例如,它對關節施加的扭矩)。人類可以通過應用外部扭矩uH與機器人進行肢體交互,而機器人通過運動移動到下一個狀態,即x=f(x,uR+uH)。

機器目標:靠少量人類干預正確執行任務

在人機肢體互動中中,我們希望機器人能夠向人類學習,但同時我們也不想用持續的身體干預使人類負荷過重。因此,我們可以為機器人寫下一個目標,一個既能優化任務的完成,又能減少所需的交互量,並最終在兩者之間進行權衡的目標。

如果機器人準確地知道如何對任務的各個方面進行權衡,那麼它就可以計算出如何最優地執行任務。但是,機器人不知道這個變數!機器人並不總是知道執行任務的正確方式,當然也不知道人類更傾向的方式。

觀測模型:從少量人類干預中推測正確目標

正如我們所說的,機器人應該通過觀察人類的行為來推斷未知的任務目標。為了將機器人測量的直接人力與目標函數連接起來,機器人使用觀測模型。而結果是,這種模式認為,當與機器人行動結合時,人類更可能選擇一種身體糾正,最終導向到令人滿意(也就是高回報的)的行為。

為了實現在任務中學習,我們進行了三個步驟。將這三個步驟結合在一起後,我們將得到一個優雅的、近似於原始部分可觀測馬氏決策過程的解決方案。(見下圖)在每一步,機器人計劃一個軌道ξR並開始移動。人可以進行肢體干預,使機器人感知到人的力量uH。機器人利用人力毀壞原始軌跡,併產生人類期望的軌道ξH。然後機器人推理,任務的哪些方面,其原始軌道和人類的偏好軌跡不同,並在這個差別的指向上更新θ。使用新的特徵權重,機器人重新計劃一個更符合人類傾向的軌跡。

GIF

像現實世界的人類學習

為了評估任務內學習對真正的個人機器人的好處,我們招募了10名參與者進行用戶研究。每個參與者以我們提出的學習方法與基線與機器人互動,在該基線中,機器人不從肢體交互中學習,只簡單地運行全阻抗控制

我們測量了機器人針對真正目標的表現,參與者所付出的全部努力,交互時間的總量,以及七級李克特量表(被試者在1-7的等級量表上報告他對陳述意見的贊同程度)調查結果。

下面我們將展示三個實驗性家庭操作任務,每個任務中機器人的初始目標都是錯誤的,參與者必須進行糾正。例如,機器人把杯子從架子上移到桌子上,但沒有考慮到不能傾斜杯子(可能沒有注意到裡面有液體)。

任務1

GIF

當參與者看到機器人傾斜杯子時,需要進行肢體干預,從而教機器人保持杯子直立。

任務2

GIF

此任務中,參與者要教機器人移動得離桌子更近。

任務3

GIF

機器人的原始軌跡經過一台筆記本電腦。參與者必須教機器人繞過筆記本電腦,而不是跨過它。

我們的用戶研究結果表明,肢體交互學習能夠以更少的人力來提高機器人的任務性能。當機器人積極地在任務中從交互中學習時,參與者能夠更省勁、花費更少時間,而讓機器人更快地執行正確行為。此外,參與者相信機器人越能理解他們的偏好,與之互動就更省勁,也越是一個好協作的夥伴

任務成本

人力

干預時間

從各個客觀衡量標準看(上面三個表格),互動中學習明顯優於不從互動中學習,標準包括任務成本、人力、互動時間。

總結與期待

最後,我們建議機器人不應將人類的交互視為干擾,而應將其視為傳遞信息的行動。我們證明了具有這種推理能力的機器人,能夠升級他們對正在執行任務的理解力,從而正確地完成任務,而不是依賴人的指導。

這項工作只是探索人機肢體交互中學習機器目標的一個步驟。仍然有許多懸而未決的問題,包括開發能夠處理動態方面問題的解決方案(比如有關運動時機的傾向),如何以及何時將所學的目標概括為新任務。此外,機器人回報函數(reward function)通常會有許多與任務相關的特徵,而人類的交互可能只會給出某個相關權重子集的信息。

總的來說,我們不僅需要掌握人機肢體交互中機器學習的演算法,而且這些演算法還必須考慮到,想要嘗試以肌肉運動的方式教授一個複雜的——甚至可能是不熟悉的——機器人系統時,人類是要經歷困難的。

但當這些困難克服以後,我們很可能可以與機器人進行真正的肢體互動,而不僅僅是像語音助手般進行語言交流。未來,也可以與家庭管家機器人更融洽地交流互動,機器人不再僅是靠編寫好的程序自己舞動,與主人共舞也不無可能。

信息來源:bair.berkeley.edu/blog/

分享這篇文章

與同仁共同探討AI行業動向

往期文章


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

請先從練好基礎筆畫開始
悉尼西區Tregeary,一地建三屋帶DA小開發

TAG:全球大搜羅 |