當前位置:
首頁 > 新聞 > OpenAI推出機器人新系統:可通過VR演示自主學習新任務

OpenAI推出機器人新系統:可通過VR演示自主學習新任務

選自OpenAI

作者:PETER WELINDER

機器之心編譯

參與:晏奇、黃小天


近日,OpenAI 官方博客上發表了一篇名為《自主學習的機器人(Robots that Learn)》的文章。OpenAI 稱藉助新近論文《One-Shot Imitation Learning(one-shot 模仿學習)》的研究成果,其可通過 VR 向機器演示如何學習新任務,這就打造了一個完全在模擬環境中訓練的機器人系統,訓練成果可部署到現實的機器人,並且機器人還可以學習只被演示一次的新任務。機器之心對文章和論文簡介進行了編譯,原文鏈接請移步文末。

OpenAI推出機器人新系統:可通過VR演示自主學習新任務

演算法

上月,我們展示了這款機器人早先的一個版本(地址:https://blog.openai.com/spam-detection-in-the-physical-world/),我們使用域隨機化(domain randomization)來訓練它的視覺系統,也就是說,通過向其展示很多有帶有不同色彩的模擬對象、背景、紋理,而不用真實的圖像來進行訓練。

現在,我們已經開發和部署了一個新演算法:「one-shot 模仿學習」,其允許人類在 VR 中向機器演示如何學習新任務。在給定的單一演示中,機器可以解決具備任意初始配置的新任務。

步驟概覽

OpenAI推出機器人新系統:可通過VR演示自主學習新任務

註:我們的系統可以從模擬器內給出的單個演示中習得一個行為,然後,它可以在現實場景里分步驟重新還原該行為。

該系統由兩個神經網路組成:一個視覺網路與一個模仿網路。

視覺網路從機器人的相機中獲取圖像,然後輸出重新表徵物體位置的狀態(state)。如上個版本(網址上文已附),我們用成千上萬模擬的具有不同光照擾動的圖像、紋理和物品來訓練視覺網路(該視覺系統從未在真實的圖像上訓練過)。

模仿網路會觀察一個給它的演示,通過處理,它可以推斷出對應任務的意圖(intent),然後從另一個初始構造(configuration)出發來完成這個意圖。因此,該模仿網路必須將演示歸納成一個新的設定。但是,問題在於模仿網路何以知曉歸納的方法呢?

它從訓練樣例的分布中學習這種歸納方法。它在很多不同的且每個都包含成千上萬個演示的任務中進行訓練。每個訓練樣例都是執行相同任務的一對演示。我們給模仿網路展示完整的第一個演示,而至於第二個演示它只能看一眼。然後我們使用監督學習來預測演示器在那個演示瞬間的行為是什麼。為了得到有效的預測,機器人必須學會如何從第一個演示中來推斷任務的相關部分。

應用於塊堆疊(block stacking)的訓練數據由一對以同樣序列堆塊而成的相匹配的一組塔(tower)的軌跡(trajectory)構成,不同的是它們由不同初始狀態開始。如此方式,模仿網路可以學習去匹配演示器中堆塊的順序與塔的尺寸大小,而不用擔心相關塔的位置。

塊堆疊

創建編碼顏色的塊堆疊任務非常簡單,以至於我們可以通過腳本策略(scripted policy)在模擬中解決它。我們使用腳本策略生成用於模仿網路的訓練數據。測試時,模仿網路能夠解析來自人類的演示,儘管以前從未見過人類凌亂的數據。

在演示軌跡和表徵塊的位置的狀態向量上,模仿網路使用了軟注意力(soft attention:https://arxiv.org/abs/1409.0473),從而允許系統使用可變(variable)長度的演示。它也注意不同塊的位置,允許其模仿較自己所見更長的軌跡,並將塊堆疊到比其任何訓練數據演示里的塊還要多的結構里去。

對於學習魯棒策略的模仿網路,我們不得不將適量的雜訊注入到了腳本策略的輸出結果中。這迫使腳本策略去演示發生錯誤時的恢復方式,這也教會了模仿網路去處理來自不完美策略(policy)的干擾。如果沒有注入雜訊,模仿網路所學的策略通常不能完成堆疊任務。

論文:One-Shot 模仿學習(One-Shot Imitation Learning)

OpenAI推出機器人新系統:可通過VR演示自主學習新任務

論文鏈接:https://arxiv.org/abs/1703.07326

模仿學習通常用於解決不同的孤立任務。這經常需要仔細的特徵工程,或者大量的樣本。我們並不想要這樣,而是希望機器人能夠從任何給定任務的少量演示中學習,並立即把所學應用於新情景,而無需做特定任務的工程。為了達成這一目標,我們在本篇論文中提出了一中被稱為「one-shot 模仿學習」的元學習框架。

具體來說,我們考慮有一個非常大任務集的設置,其中每個任務有很多實例。例如,一個任務可以是把所有的塊堆成一個塔,另一個任務也許是把桌子上所有的塊堆成塔,但每個塔只包含兩個塊。在每一情況下,任務的不同實例包含帶有不同初始狀態的不同的塊集。一個神經網路通過把演示和當前狀態作為輸入而獲得訓練,其輸出是一個行動,目標是狀態和行動的結果序列儘可能地與第二個演示相匹配。在測試時,新任務的單一實例的演示被展示,而神經網路被期望在這一新任務的新實例上表現良好。軟注意力的使用允許模型應對從未遇見過的新情況和新任務。我們預測,通過在更多的任務和設置中訓練這一模型,我們將會獲得一個更通用的系統,可以把任何演示轉化為魯棒策略,以處理各種任務。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

SIA報告解讀半導體行業前景:涵蓋分布式、認知和生物計算等
谷歌 I/O 2017:值得期待的機器學習內容有哪些?
GMIS 2017參會指南:產業明星帶你讀懂人工智慧產業趨勢

TAG:機器之心 |

您可能感興趣

DeepMind發布通用強化學習新範式,自主機器人可學會任何任務
ROCCAT推出自主定製Titan Switch機械軸
HRL實驗室與DARPA聯合推動自主系統終身學習
技德推出國產自主JideOS X系統
Intel VIA CPU發現新漏洞 安全市場應採用自主CPU
民航二所自主研發的「北斗+ADS-B OUT/IN」演示驗證成功
NVIDIA自主機器人平台Isaac揭秘:六大處理器合力
Android系統將發生重磅變化!谷歌最新自主研發的新一代操作系統 Fuchsia OS 曝光:流暢度完勝蘋果iOS
技德推出國產自主JideOS X系統:Linux安卓雙系統切換
DARPA啟動SAIL-ON項目開發可自主識別和響應現實環境變化的人工智慧系統
ROCCAT發布三款自主研發Titan軸Vulcan機械鍵盤
NOVERCA HOUSE:為殘疾學生打造的自主空間
DARPA與BAE繼續開發自主空中任務規劃軟體
弗萊堡大學研發AI系統LEARNA,可自主設計RNA分子
Magic Leap提出開發自主性AI來增強MR體驗
每日動態:DARPA啟動「ONISQ」項目/IBM 公布迄今為止最高量子體積/倫敦將舉辦第二屆軍事機器人與自主系統大會
Ava Robotics推出一款自主式遠程會議機器人
微軟竟推出自主版本 Linux 系統—Azure Sphere OS
瀾起把Intel CPU和AISC封裝後標榜自主可控 如今卻要IPO
以色列現全自主類仿生蝙蝠機器人、俄羅斯研製「患者機器人」、微軟展示融合了AR與VR的Remixed Reality技術