當前位置:
首頁 > 科技 > OpenAI新推兩種演算法,使機器人在VR中快速掌握新技能

OpenAI新推兩種演算法,使機器人在VR中快速掌握新技能



OpenAI新推兩種演算法,使機器人在VR中快速掌握新技能




OpenAI新推兩種演算法,使機器人在VR中快速掌握新技能


近日,OpenAI創建了一套機器人系統,完全在模擬中進行了訓練,並部署在物理機器人載體上,可以在看到人類完成一次之後學習一項新任務。


演算法


上個月,OpenAI展示了這個機器人的早期版本,他們使用域隨機化演算法(domain randomization)對其視覺系統進行了訓練,即通過使用各種顏色、背景和紋理顯示模擬對象,而不使用任何真實圖像。

現在,OpenAI開發並部署了一種新的演算法,一次性模仿學習(one-shot imitation learning),讓人們通過在VR中執行它來傳達如何做一個新的任務。只要給定一個演示,機器人便能夠從任意的起始配置中解決相同的任務。


一般程序



OpenAI新推兩種演算法,使機器人在VR中快速掌握新技能



圖註:該系統可以從模擬器中提供的單個演示中學習某個行為,然後在現實中以不同的設置再現這種行為。

該系統由兩個神經網路組成:視覺網路和模仿網路。


視覺網路從機器人的相機抓取圖像,並輸出表示對象位置的狀態。如前所述,視覺網路被訓練成數十萬個具有不同照明、紋理和對象擾動的模擬圖像(視覺系統從未對真實形象進行過訓練)。


模仿網路觀察演示,處理它來推斷任務的意圖,然後從另一個起始配置開始實現意圖。因此,模仿網路必須將演示推廣到新的環境。但模仿網路如何知道怎樣推廣?


網路從訓練示例的分發中學到這一點。它對幾十個不同的任務進行了訓練,每個任務都有數千次演示。每個訓練示例是執行相同任務的一對演示。網路被給予了第一次演示的全部和第二次演示的一次觀察。然後,OpenAI使用監督學習來預測演示者採取什麼行動。為了有效地預測行動,機器人必須學習如何從第一次演示推斷任務的相關部分。


該技術已經應用於堆方塊,訓練數據包括以相同順序將塊堆疊成匹配的方塊塔的軌跡對,但是從不同的起始狀態開始。通過這種方式,模仿網路可以學習如何匹配演示者和塔樓的大小,而不用擔心塔的相對位置。

堆方塊


創建顏色編碼的堆棧的任務很簡單,OpenAI用模擬的腳本策略解決了這一問題。他們使用腳本策略生成模擬網路的訓練數據。在測試的時候,模仿網路能夠解析人類製作的演示遊戲,儘管以前從未見過凌亂的人類數據。


模擬網路使用soft attention技術(https://arxiv.org/abs/1409.0473)演示軌跡,並表示塊的位置的狀態向量,從而允許系統對可變長度的演示進行工作。它也引起了不同塊的位置的注意,允許它模仿比以往更長的軌跡,並將堆棧塊變成具有比其訓練數據中的任何演示更多的塊的配置。


為了模仿網路學習能夠具有魯棒性,我們不得不在腳本策略的輸出中注入適量的噪音。這迫使腳本策略展示如何在發生錯誤的情況下恢復,從而教會模擬網路應對不完善策略的干擾。在不注意雜訊的情況下,模擬網路學習的策略通常不能完成堆疊任務。

機器人圈將兩篇論文鏈接附在文末,感興趣的圈友可以收藏


?《Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World》


鏈接:https://arxiv.org/pdf/1703.06907.pdf


?《One-Shot Imitation Learning》


鏈接:https://arxiv.org/pdf/1703.07326.pdf

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器人圈 的精彩文章:

Facebook重磅發布ParlAI,重塑機器對話新格局
讓機器人擁有大腦其實很簡單,有微軟LUIS就夠啦
可穿戴外骨骼機器人太貴?EduExo能讓普通人秒變「鋼鐵俠」
MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」

TAG:機器人圈 |

您可能感興趣

vivo NEX,AI智能演算法加持,輕鬆拍出藝術大片
AI換臉技術再創新高度,DeepMind發布的VQ-VAE二代演算法有多厲害?
谷歌DeepMind自行「進化」出人腦模式,新型AI 演算法具備超越人類的方向感
OpenAI Baselines 更新,新增 HER 強化學習演算法
創新奇智在國際頂級視覺大賽PASCAL VOC奪冠,彰顯AI視覺演算法實力
奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法
商湯聯合提出基於FPGA的快速Winograd演算法:實現FPGA之上最優的CNN表現與能耗
使用DFA攻擊硬體的AES演算法,並從PlayStation Vita中提取硬體密鑰
支持向量機Part4—SMO演算法
DeepMind高級研究員:重新理解GAN,最新演算法、技巧及應用
太像人手了!OpenAI用打DOTA的演算法,教會了機械手「盤核桃」
拳打Adam,腳踢SGD:北大提出全新優化演算法AdaBound
感測器和演算法打包賣 三星推出ISOCELL Dual手機雙攝解決方案
DeepMind高級研究員:重新理解GAN,最新演算法、技巧及應用(PPT)
工程設計+演算法規模化真的是AI突破嗎?DeepMind唇讀系統ICLR遭拒
谷歌AI演算法通過OCR與NGrams提取和分析電視台內容傾向
DeepMind推出新演算法,利用機器學習診斷三種常見眼疾
世界權威人臉檢測榜單WIDER FACE最新排名:創新奇智AInnoFace演算法奪冠
谷歌和UC伯克利的新式Actor-Critic演算法快速在真實世界訓練機器人
攻擊AI模型之FGSM演算法