OpenAI新推兩種演算法，使機器人在VR中快速掌握新技能

科技 05-17

近日，OpenAI創建了一套機器人系統，完全在模擬中進行了訓練，並部署在物理機器人載體上，可以在看到人類完成一次之後學習一項新任務。

演算法

上個月，OpenAI展示了這個機器人的早期版本，他們使用域隨機化演算法（domain randomization）對其視覺系統進行了訓練，即通過使用各種顏色、背景和紋理顯示模擬對象，而不使用任何真實圖像。

現在，OpenAI開發並部署了一種新的演算法，一次性模仿學習（one-shot imitation learning），讓人們通過在VR中執行它來傳達如何做一個新的任務。只要給定一個演示，機器人便能夠從任意的起始配置中解決相同的任務。

一般程序

OpenAI新推兩種演算法，使機器人在VR中快速掌握新技能

圖註：該系統可以從模擬器中提供的單個演示中學習某個行為，然後在現實中以不同的設置再現這種行為。

該系統由兩個神經網路組成：視覺網路和模仿網路。

視覺網路從機器人的相機抓取圖像，並輸出表示對象位置的狀態。如前所述，視覺網路被訓練成數十萬個具有不同照明、紋理和對象擾動的模擬圖像（視覺系統從未對真實形象進行過訓練）。

模仿網路觀察演示，處理它來推斷任務的意圖，然後從另一個起始配置開始實現意圖。因此，模仿網路必須將演示推廣到新的環境。但模仿網路如何知道怎樣推廣？

網路從訓練示例的分發中學到這一點。它對幾十個不同的任務進行了訓練，每個任務都有數千次演示。每個訓練示例是執行相同任務的一對演示。網路被給予了第一次演示的全部和第二次演示的一次觀察。然後，OpenAI使用監督學習來預測演示者採取什麼行動。為了有效地預測行動，機器人必須學習如何從第一次演示推斷任務的相關部分。

該技術已經應用於堆方塊，訓練數據包括以相同順序將塊堆疊成匹配的方塊塔的軌跡對，但是從不同的起始狀態開始。通過這種方式，模仿網路可以學習如何匹配演示者和塔樓的大小，而不用擔心塔的相對位置。

堆方塊

創建顏色編碼的堆棧的任務很簡單，OpenAI用模擬的腳本策略解決了這一問題。他們使用腳本策略生成模擬網路的訓練數據。在測試的時候，模仿網路能夠解析人類製作的演示遊戲，儘管以前從未見過凌亂的人類數據。

模擬網路使用soft attention技術（https://arxiv.org/abs/1409.0473）演示軌跡，並表示塊的位置的狀態向量，從而允許系統對可變長度的演示進行工作。它也引起了不同塊的位置的注意，允許它模仿比以往更長的軌跡，並將堆棧塊變成具有比其訓練數據中的任何演示更多的塊的配置。

為了模仿網路學習能夠具有魯棒性，我們不得不在腳本策略的輸出中注入適量的噪音。這迫使腳本策略展示如何在發生錯誤的情況下恢復，從而教會模擬網路應對不完善策略的干擾。在不注意雜訊的情況下，模擬網路學習的策略通常不能完成堆疊任務。

機器人圈將兩篇論文鏈接附在文末，感興趣的圈友可以收藏

?《Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World》

鏈接：https://arxiv.org/pdf/1703.06907.pdf

?《One-Shot Imitation Learning》

鏈接：https://arxiv.org/pdf/1703.07326.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人圈 的精彩文章:

※Facebook重磅發布ParlAI，重塑機器對話新格局
※讓機器人擁有大腦其實很簡單，有微軟LUIS就夠啦
※可穿戴外骨骼機器人太貴？EduExo能讓普通人秒變「鋼鐵俠」
※MIT最新視覺論文「網路解剖：深度視覺表徵的量化表示」

TAG:機器人圈 |

您可能感興趣

※vivo NEX，AI智能演算法加持，輕鬆拍出藝術大片
※AI換臉技術再創新高度，DeepMind發布的VQ-VAE二代演算法有多厲害？
※谷歌DeepMind自行「進化」出人腦模式，新型AI 演算法具備超越人類的方向感
※OpenAI Baselines 更新，新增 HER 強化學習演算法
※創新奇智在國際頂級視覺大賽PASCAL VOC奪冠，彰顯AI視覺演算法實力
※奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法
※商湯聯合提出基於FPGA的快速Winograd演算法：實現FPGA之上最優的CNN表現與能耗
※使用DFA攻擊硬體的AES演算法，並從PlayStation Vita中提取硬體密鑰
※支持向量機Part4—SMO演算法
※DeepMind高級研究員：重新理解GAN，最新演算法、技巧及應用
※太像人手了！OpenAI用打DOTA的演算法，教會了機械手「盤核桃」
※拳打Adam，腳踢SGD：北大提出全新優化演算法AdaBound
※感測器和演算法打包賣三星推出ISOCELL Dual手機雙攝解決方案
※DeepMind高級研究員：重新理解GAN，最新演算法、技巧及應用（PPT）
※工程設計＋演算法規模化真的是AI突破嗎？DeepMind唇讀系統ICLR遭拒
※谷歌AI演算法通過OCR與NGrams提取和分析電視台內容傾向
※DeepMind推出新演算法，利用機器學習診斷三種常見眼疾
※世界權威人臉檢測榜單WIDER FACE最新排名：創新奇智AInnoFace演算法奪冠
※谷歌和UC伯克利的新式Actor-Critic演算法快速在真實世界訓練機器人
※攻擊AI模型之FGSM演算法