OpenAI新推兩種演算法,使機器人在VR中快速掌握新技能
近日,OpenAI創建了一套機器人系統,完全在模擬中進行了訓練,並部署在物理機器人載體上,可以在看到人類完成一次之後學習一項新任務。
演算法
上個月,OpenAI展示了這個機器人的早期版本,他們使用域隨機化演算法(domain randomization)對其視覺系統進行了訓練,即通過使用各種顏色、背景和紋理顯示模擬對象,而不使用任何真實圖像。
現在,OpenAI開發並部署了一種新的演算法,一次性模仿學習(one-shot imitation learning),讓人們通過在VR中執行它來傳達如何做一個新的任務。只要給定一個演示,機器人便能夠從任意的起始配置中解決相同的任務。
一般程序
圖註:該系統可以從模擬器中提供的單個演示中學習某個行為,然後在現實中以不同的設置再現這種行為。
該系統由兩個神經網路組成:視覺網路和模仿網路。
視覺網路從機器人的相機抓取圖像,並輸出表示對象位置的狀態。如前所述,視覺網路被訓練成數十萬個具有不同照明、紋理和對象擾動的模擬圖像(視覺系統從未對真實形象進行過訓練)。
模仿網路觀察演示,處理它來推斷任務的意圖,然後從另一個起始配置開始實現意圖。因此,模仿網路必須將演示推廣到新的環境。但模仿網路如何知道怎樣推廣?
網路從訓練示例的分發中學到這一點。它對幾十個不同的任務進行了訓練,每個任務都有數千次演示。每個訓練示例是執行相同任務的一對演示。網路被給予了第一次演示的全部和第二次演示的一次觀察。然後,OpenAI使用監督學習來預測演示者採取什麼行動。為了有效地預測行動,機器人必須學習如何從第一次演示推斷任務的相關部分。
該技術已經應用於堆方塊,訓練數據包括以相同順序將塊堆疊成匹配的方塊塔的軌跡對,但是從不同的起始狀態開始。通過這種方式,模仿網路可以學習如何匹配演示者和塔樓的大小,而不用擔心塔的相對位置。
堆方塊
創建顏色編碼的堆棧的任務很簡單,OpenAI用模擬的腳本策略解決了這一問題。他們使用腳本策略生成模擬網路的訓練數據。在測試的時候,模仿網路能夠解析人類製作的演示遊戲,儘管以前從未見過凌亂的人類數據。
模擬網路使用soft attention技術(https://arxiv.org/abs/1409.0473)演示軌跡,並表示塊的位置的狀態向量,從而允許系統對可變長度的演示進行工作。它也引起了不同塊的位置的注意,允許它模仿比以往更長的軌跡,並將堆棧塊變成具有比其訓練數據中的任何演示更多的塊的配置。
為了模仿網路學習能夠具有魯棒性,我們不得不在腳本策略的輸出中注入適量的噪音。這迫使腳本策略展示如何在發生錯誤的情況下恢復,從而教會模擬網路應對不完善策略的干擾。在不注意雜訊的情況下,模擬網路學習的策略通常不能完成堆疊任務。
機器人圈將兩篇論文鏈接附在文末,感興趣的圈友可以收藏
?《Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World》
鏈接:https://arxiv.org/pdf/1703.06907.pdf
?《One-Shot Imitation Learning》
鏈接:https://arxiv.org/pdf/1703.07326.pdf
※Facebook重磅發布ParlAI,重塑機器對話新格局
※讓機器人擁有大腦其實很簡單,有微軟LUIS就夠啦
※可穿戴外骨骼機器人太貴?EduExo能讓普通人秒變「鋼鐵俠」
※MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」
TAG:機器人圈 |
※vivo NEX,AI智能演算法加持,輕鬆拍出藝術大片
※AI換臉技術再創新高度,DeepMind發布的VQ-VAE二代演算法有多厲害?
※谷歌DeepMind自行「進化」出人腦模式,新型AI 演算法具備超越人類的方向感
※OpenAI Baselines 更新,新增 HER 強化學習演算法
※創新奇智在國際頂級視覺大賽PASCAL VOC奪冠,彰顯AI視覺演算法實力
※奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法
※商湯聯合提出基於FPGA的快速Winograd演算法:實現FPGA之上最優的CNN表現與能耗
※使用DFA攻擊硬體的AES演算法,並從PlayStation Vita中提取硬體密鑰
※支持向量機Part4—SMO演算法
※DeepMind高級研究員:重新理解GAN,最新演算法、技巧及應用
※太像人手了!OpenAI用打DOTA的演算法,教會了機械手「盤核桃」
※拳打Adam,腳踢SGD:北大提出全新優化演算法AdaBound
※感測器和演算法打包賣 三星推出ISOCELL Dual手機雙攝解決方案
※DeepMind高級研究員:重新理解GAN,最新演算法、技巧及應用(PPT)
※工程設計+演算法規模化真的是AI突破嗎?DeepMind唇讀系統ICLR遭拒
※谷歌AI演算法通過OCR與NGrams提取和分析電視台內容傾向
※DeepMind推出新演算法,利用機器學習診斷三種常見眼疾
※世界權威人臉檢測榜單WIDER FACE最新排名:創新奇智AInnoFace演算法奪冠
※谷歌和UC伯克利的新式Actor-Critic演算法快速在真實世界訓練機器人
※攻擊AI模型之FGSM演算法