谷歌大腦和X實驗室利用模擬條件和域適應提高機器抓取效率·附論文

最新 09-26

GIF/1720K

原文來源：arXiv

作者：Coogle Brain，Google X

「機器人圈」編譯：嗯~阿童木呀、多啦A亮

相信大家都知道，通過檢測和採集帶有注釋的視覺抓取數據集來訓練現代機器學習演算法可以說是非常耗時、昂貴的。一個非常具有吸引力的替代方案是使用現成的模擬器來生成ground-truth合成數據，其中數據的真實注釋是自動生成的。不幸的是，純粹模擬數據的模型往往不能在實際中普及應用。我們研究了該如何擴展隨機模擬環境和域適應方法，以訓練一個抓取系統從原始單目RGB圖像中抓取新目標。我們對實驗方法進行了廣泛的評估，總共有超過25000個物理測試抓取集，研究了一系列模擬條件和域適應方法，包括一種我們稱之為GraspGAN的像素級域適應的新擴展。研究結果顯示，通過使用合成數據和域適應方法，在只使用隨機生成模擬對象的情況下，我們能夠減少實際所需的樣本量，在給定性能級的基礎上將性能提高50多倍。此外，研究結果還顯示，在只使用未標註的實際數據和GraspGAN方法的情況下，我們能夠獲得實際的抓取性能，而沒有任何與從939777個標註實際樣本中獲得的標註相類似的實際標註。

抓取是最基本的機器操縱問題之一。實際上對於任何可行的操縱行為來說，需要討論的第一步都是抓取的目標。因此，抓取已經成為機器人研究的中心領域之一，從最早的機器人研究到現在，一系列的方法和技術都涵蓋在內。可以說，機器人操縱問題的核心挑戰是泛化（generalization）：一個抓取系統抓握系統能否成功地抓取在系統設計或訓練過程中沒有看到過的多種新目標？分析型或基於模型的抓取方法可以很好地泛化到那些滿足其假設條件的情況下。然而，非結構化實際場景的複雜性和不可預測性往往會混淆這些假設，而基於學習的方法已經成為強大的補充。

學習機器人抓取系統有一個很大的好處，那就是有利於對具有實際統計數據的目標進行泛化，並可以從計算機視覺和深度學習的進步中獲益。實際上，近年來已經表現出最佳泛化性能的許多抓取系統已經將卷積神經網路納入抓取選擇過程中。然而，基於學習的方法同時也引入了一個重大挑戰：需要大型標註數據集。這些標註可能包含人為提供的抓取點，也可能是自動收集的。在這兩種情況下，時間和金錢都有相當大的成本，最近的研究表明，抓取系統的性能表現可能受到可用數據量的強烈影響。

克服這些數據需求的本質途徑是回顧那些基於分析、基於模型的抓取方法的成功範例，其中包含了我們以前對於物理和幾何知識的積累。我們可以通過兩種方式將這種先驗知識納入基於學習的抓取系統中。

首先，我們可以修改系統的設計，使用基於模型的抓取方法，例如作為基於學習抓取系統的評分函數。其次，我們可以利用以往的知識來構建一個模擬器，併產生可以與實際經驗使用方式大致相同的綜合經驗。可以說，在這項研究中所探索的第二條道路是特別吸引人的，因為我們可以使用本質上大致相同的學習系統。然而，合併模擬圖像帶來了一個挑戰：模擬數據與實際數據的系統方式不同，模擬必須具有足夠的普遍目標。解決這兩個挑戰就是我們本項研究的主要任務。

縮小現實差距：我們提出的像素級域適應模型採用由我們的模擬器生成的合成圖像（a），併產生（b）相似於現實世界中由相機在物理機器人的肩膀產生的圖像（c）。然後，我們通過適合的、實際的圖像來訓練一個基於視覺的深度抓取網路，然後我們將進一步完善其特徵層面的適應性。

我們的工作有三個主要貢獻：

（a）通過整合合成數據，從單目RGB圖像獲取性能方面的實質性改善：我們提出將合成數據併入到基於視覺的機器人抓取的端對端訓練方法，我們顯示實現了性能的顯著提高，特別是在較少的數據和無數據環境。

（b）模擬到真實世界遷移的詳細實驗：我們的實驗涉及36個不同測試對象的25704個真實抓取，並考慮了多個維度：模擬對象的性質、模擬中使用的隨機化類型，以及域適應技術用於將模擬圖像適應現實世界。

（c）純粹基於視覺的單目抓取的有效模擬到現實世界遷移的第一個示例：據我們所知，我們是第一個成功展示抓取的模擬到現實世界（simulation-to-real-world）遷移，並泛化到以前未見的自然物體，僅使用單目RGB圖像。

結論

在本文中，我們研究了如何將模擬數據併入到基於學習的抓取系統中，以提高性能，並降低數據需求。我們研究機器人肩膀上的單目RGB圖像的抓取，這是一個特別具有挑戰性的設置，其中深度信息和分析型3D模型是不可用的。這對模擬現實世界的遷移提供了一個具有挑戰性的設置，因為與模擬深度圖像相比，模擬的RGB圖像通常與真實的相同。我們研究了對象的性質在模擬、隨機化和域適應方面的影響。我們還介紹了像素級域適應的新的擴展，使其適合於我們抓取系統中使用的高解析度圖像。我們的研究結果表明，模擬數據可以極大地改善我們所使用的基於視覺的抓取系統，實現可比或更好的性能，減少50倍的真實樣本。研究結果還表明，使用逼真的3D模型進行模擬訓練並不重要。最後，我們的實驗表明，我們的方法可以提供合成圖像的合理轉換，並且包括域適應在大多數情況下大大提高了性能。

雖然我們的工作證明，在對較小數量的現實世界數據進行訓練時，抓取成功率方面取得了很大的進步，但也存在一些局限性。我們考慮的兩種適應方法都集中在不變性上，要麼將模擬圖像變換為真實圖像，要麼將特徵規範化為跨域不變。由於我們網路的結構，這些特徵包含外觀和動作，但是並沒有明確的推理出模擬與現實世界之間的物理差異。我們確實考慮了動力學性質的隨機化，並表明它確實很重要。最近的幾項研究著眼於明確地適應物理差異，將這些想法納入抓取是未來工作的一個令人興奮的途徑。雖然我們的模擬到真實世界傳輸的方法現在只考慮單目RGB圖像，但是將這種方法擴展到立體和具有深度的圖像將是非常明確的。最後，我們的實驗報告的成功率仍有改進的空間，我們預計在這一領域的進一步研究將會取得更好的成果。我們工作的主要觀點來自不同方法的比較：我們不是要提出一個新的抓取系統，而是研究如何結合模擬數據來改進現有的方法。

想了解更多關於論文的詳情，歡迎下載原文：https://arxiv.org/abs/1709.07857

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自實驗的精彩文章:

※鄉土中國——一場秘密進行的建築實驗＠廣西河池
※神經網路到底是如何思考的？MIT精英們做了這麼一個實驗室來搞清楚
※男子把雞蛋放到可樂里做實驗一年後竟變成這樣！
※諾一和夏天還經常見面嗎？明星實驗室為你揭秘
※上海發布「曉征計劃」啟用上海市新能源汽車數據開放創新實驗室助力世界汽車產業中心建設

TAG:實驗 |