當前位置:
首頁 > 科技 > 伯克利與OpenAI通過最新「模仿學習」技術為機器人「賦能」

伯克利與OpenAI通過最新「模仿學習」技術為機器人「賦能」

圖:pixabay

原文來源:arXiv

作者:YuXuan Liu、Abhishek Gupta、Pieter Abbeel、Sergey Levine

「機器人圈」編譯:嗯~阿童木呀、BaymaxZ

模仿學習(Imitation learning)是自主系統獲取控制策略的有效方法,尤其是當明確的獎勵函數不可用時,可使用由專家,通常是人類操作者提供的監督作為演示。然而,標準的模仿學習方法假設智能體可以接收到「觀察-行動」元組樣本,而這些往往可以提供給監督學習演算法。這與人類和動物的模仿行為是截然相反的:我們觀察另一個人的行為表現,然後找出哪些行動將實現這些行為,以何種視角、周圍環境以及具體體現補償這種變化。我們將這種模仿學習稱為觀察模仿(imitation-from-observation),並提出了一種具有環境轉化和深度強化學習的、基於視頻預測的模仿學習方法。這便引出模仿學習中的假設,即演示應該包括在同一環境中的觀察和行動,並且可以進行各種有趣的應用,包括學習機器人技能,如觀察人類使用工具的視頻所涉及到的工具,進行簡單使用。實驗結果表明,我們的方法可以實現一系列基於常見家務活動建模的、真實世界機器人任務的觀察模仿。

學習(learning)可以使諸如機器人之類的自主智能體,去學習適用於各種非結構化環境的複雜行為技能。為了使自主智能體能夠學習這些技能,必須向他們提供一個監督信號,從而指示出所需行為的目標。

這種監督通常來自兩個來源,其中之一:強化學習中的獎勵函數,指定哪些狀態和行動是可取的,或者是模仿學習中的專家演示,提供成功行為的樣本。這兩種模式已經與諸如深度神經網路這樣的高容量模型相結合,以便能夠通過原始的感官觀察來學習複雜的技能(Ross,Mnih和 Levine等人在其論文中皆有所提及)。強化學習的一個主要優點是,智能體可輕易獲得技能,而這只需要通過獎勵函數對目標所提供的一個高級描述進行審查和查錯就可以實現。但是,獎勵函數可能難以手動指定,特別是當任務的成功只能從諸如攝像機圖像的複雜觀察中確定時(Edwards等人於2016所著論文中有所提及)。

一般來說,模仿學習可通過使用成功行為的樣本來繞過這個問題。通用的模仿學習的方法包括通過行為克隆的直接模仿學習(Pomerleau於1988所著論文和Bojarski等人於2016所著論文中皆有所提及)和通過反強化學習的獎勵函數學習(Ng和Russell於2000所著論文中有所提及)。這兩種設置通常都假設智能體可以接收到包含「觀察-行動」元組序列的樣本,然後必須學習一個函數,在泛化到新情景時,將樣本序列完成從觀察到行動的映射。

但是,這種模仿概念與人類和動物所進行的模仿有著天壤之別:當我們在觀察別人從而學習新技能時,我們不接受以自我為中心的觀察和參考標準。觀察是從其他視角中獲得的,而行動是未知的。此外,人類不僅能夠從現場觀察中學習演示行為,還可以從與自己有著明顯不同的行為的視頻中進行學習。

我們可以設計能夠在這種情況下成功實施的模仿學習方法嗎?而針對這個問題的解決方案將在機器人技術方面具有相當可觀的實際價值,因為它產生的模仿學習演算法可以直接利用那些記錄人們執行期望行為的自然視頻,而這個是可以從互聯網上獲得的。

我們把這個問題定義為為觀察模仿(imitation-from-observation)。觀察模仿的目標是僅學習來自所期望的行為的觀察序列(例如攝像機圖像)的策略,而每個序列是從環境差異下獲得的。環境的差異可能包括實時環境的變化,正在操作對象的變化,以及視角的變化,而觀察結果可能是由圖像序列組成的。我們將在下文第3節正式定義這個問題。

我們的觀察模仿演算法是基於學習環境轉化模型的,它可以將論證從一個環境(例如,第三人稱視角和人類演示者)轉換到另一個環境中(例如,第一人稱視角和機器人)。通過訓練一個模型來執行這種轉換,我們獲得了一個非常適合追蹤演示行為的特徵表示。然後我們使用深度強化學習來優化行為,從而能夠在目標環境中最佳地追蹤轉化演示。正如我們在實驗中所闡述的那樣,這種方法明顯比以前那些學習固定特徵空間(Stadie等人所著論文中有所提及),進行對抗模仿學習(Ho和Ermon於2016所著論文中有所提及),或直接追蹤預先訓練的視覺特徵的方法更具有魯棒性(Sermanet等人所著論文有所提及)。我們的轉化方法是能夠提供具有可解釋性的獎勵函數,並且在許多模仿和實際操縱任務中表現良好,其中就包括需要機器人模仿人類工具使用的任務。

使用Context Aware translation模型進行的觀察模仿

我們的實驗旨在評估我們的環境轉化模型是否能夠實現模仿觀察,以及現代代表性方法對這種模仿學習任務的表現如何。我們想要回答的具體問題是:

(1)我們的環境轉化模型能否處理原始圖像觀察、視角變化,以及對象在環境之間的外觀和位置的變化?

(2)與我們的方法相比,以前的模仿學習方法,在存在這種變化的情況下,表現如何?

(3)我們的方法對現實世界的圖像有何好處,能否使現實世界的機器人系統學習操作技巧?

模擬環境

為了與替代現有的模仿學習方法進行詳細比較,我們使用MuJoCo模擬器(Todorov等人於2012年提出)設置了四個模擬操作任務。演示是使用參考標準獎勵函數(ground truth reward function)和先前策略優化演算法(prior policy optimization)(Schulman等人於2015提出)生成的。

圖:四個模擬任務:到達(左上)、清掃(左下)、推(右上)和擊打(右下)

這些任務如上圖所示。第一個任務是要求機器人手臂在存在顏色和外觀變化的情況下,到達由紅盤指示的目標位置。第二個任務是在存在不同的牽引器物體的情況下,將白色圓筒推到紅色的杯托上。第三項任務要求模擬機器人在視角不同的情況下將五顆灰球從灰塵中掃除。第四個任務是使用7個自由度的操縱器將一個白球擊中一個紅色的目標。

6.2環境轉化的比較性評估

在新環境(中間)中執行一個到達任務(上)演示的示例圖,最下面一行是轉化的觀察序列(底部)

圖5:與幾種現有方法進行對比,到達、推、清掃和打擊任務的比較。結果表明,我們的方法成功地學習了每個任務,而先前的方法無法執行到達、推送和打擊任務,只有預先訓練的視覺特徵方法能夠在清掃任務中得到較好的改善。第三人稱模仿學習和生成對抗模仿學習在圖表上的成功率均為0%。

我們的方法的比較評估結果如圖5所示。性能是根據目標對象到測試目標的最終距離進行評估的。在到達任務中,這是指機器人的手與目標的距離,在推動任務中,這是指圓柱體與目標的距離,在清掃任務中,這對應球在簸箕中的平均距離,並且在擊打任務中,這是指球離目標位置的最後距離。

如圖5所示,結果表明,當從隨機環境中提供演示時,我們的方法能夠成功地學習每個任務。 值得注意的是,以前的方法在到達、推,或者打擊任務方面,均沒有成功,而且清掃任務也很費力。這表明在存在環境差異的情況下,模仿觀察是一個非常有挑戰性的問題。

真實環境

?推

從視頻中轉化,將實際演示中的推動任務設置為模擬環境中的狀態

我們的方法與其他方法在真實世界中的演示與模擬世界中的策略學習的成功率對比

我們的方法的視頻從Sawyer機器人的任意視角成功地將對象推送到目標上。左:人類提供的演示動作。右:機器人模仿學習

?清掃

上圖:演示人員將杏仁掃進簸箕;下圖:演示人員將杏仁倒進鍋中

上圖:使用我們的方法,機器人成功地將杏仁掃進簸箕

下圖:使用我們的方法,機器人成功地將杏仁倒入烹飪盤中

使用Sawyer機器人,我們的方法與現實世界任務的其他基準的成功率曲線對比。x軸是實驗類型,y軸上顯示不同方法的成功率。每個任務的成功度量有所不同。

我們研究了如何通過學習以在不同的環境之間轉化示範觀察序列,例如視角的差異以執行模仿觀察。在將觀察結果轉化成目標環境之後,我們可以用強化學習來跟蹤這些觀察結果,讓學習者重現觀察到的行為。轉化模型通過在訓練集中觀察到的不同環境之間進行轉化,來進行訓練,並將其泛化為學習者未知的環境。我們的實驗表明,我們的方法可以用於執行各種操作技能,可以跟蹤由人類演示者提供的工具使用的現實世界演示,並可用於現實世界中的機器人控制來做普通的家務。

雖然我們的方法在現實世界任務和模擬中的幾個任務上表現良好,但它有一些限制。

首先,需要大量的示範來學習轉化模型。對於每個任務,從頭開始訓練端到端的模型,可能在實踐中效率低下,將我們的方法與先前工作中提出的更高層次的表達相結合,可能會導致訓練更有效)。

第二,我們需要觀察多個環境中的演示,以便學會如何在他們之間進行轉化。實際上,可用環境的數量可能很少。在這種情況下,探索如何將多個任務組合成一個單一的模型是有價值的,其中不同的任務可能來自不同的環境。

最後,在今後的工作中探索明確處理領域轉換將是令人激動的,以便直接從獲得的人類演示者的視頻中(例如網上視頻)學習機器人技能。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器人圈 的精彩文章:

智慧計算將對AI起到多大助力?
萬字「全文」詳解谷歌神經網路機器翻譯NMT
Chainer-GAN庫發布,實現多種GAN及特徵匹配去噪
谷歌與CMU聯合發文,審視數據對深度學習的重要性
深度學習被「神化」!如何「客觀」看待深度學習的應用場合及作用

TAG:機器人圈 |

您可能感興趣

機器人藝術大賽RobotArt落幕 機器學習技術重新詮釋塞尚畫作
AI、自動化為硬核:更技術范兒的DJI RoboMaster機器人挑戰賽
AI、自動化為硬核:更技術范兒的DJI RoboMaster機器人挑戰賽
斯坦福大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略
科沃斯機器人亮相AWE 並發布Smart Eye視覺導航技術
斯坦福大學&DeepMind機器人控制:端到端地學習視覺運動策略
荷蘭大學研製動作機敏的DelFly Nimble撲翼機器人
Twitter 新科技,使用機器學習自動裁剪照片
DeepMind 讓AI機器人具備自學能力
酷哇機器人首席科學家Rolf Pfeifer:機器人/AI技術過熱未必是壞事
HelloLisa——智能客服機器人
Python與機器學習
NVIDIA利用深度學習讓機器人模仿人類行為
人物 | 斯坦福大學計算機系教授Percy Liang:讓機器擁有理解語言的能力
OpenAI發布最新多目標強化學習的機器人模擬環境
AI視野:Facebook監控機器、Uber自駕車撞死行人、貴公司是否為AI做好準備、具有設備端機器學習能力的智能手機會更聰明
DeepMind 打造全新學習模式「SAC-X」,鼓勵機器人自我摸索完成任務
模仿人類行為自我編程 NVIDIA開發機器人學習技術
曠視科技收購艾瑞思機器人,AIoT 會成CV賽道新趨勢?
DeepMind開發新系統 讓AI機器人具備自學能力