機器學習加持:OpenAI機械手操控靈活性有了大幅提升
雖然機器人的靈活性還沒有達到接近人手的水平,但伊隆·馬斯克等科技大佬攜手創立的非營利組織 OpenAI,正在努力向這個目標抵近。最近,OpenAI 研究人員正在藉助人工智慧,來教導機器人像人類一樣靈巧地操縱物體。通常情況下,科學家們需要通過強化學習來實現這一目標,即讓 AI 反覆試驗學習過程,但這麼做相當耗費時間。
如果只是讓 AI 去學習怎麼玩視頻遊戲,只需要讓它以更快的速度玩遊戲就行了。但涉及真實任務時,就有些抓瞎了。
你不能等待機械手臂經過多年的練習,且它難以模擬世界上足夠準確的訓練課目。
有鑒於此,OpenAI 自行設定了一個任務,教機器人手來操縱一個六面立方體 —— 將它從一個位置移動到另一個位置,期間保持特定的一面朝上。
與早期研究一樣,他們首先儘可能地準確模擬這種環境,但下一步,他們會製造差異來搞亂模擬。
首先,研究人員添加了隨機的『視覺噪音』,改變虛擬機械手和立方體的顏色。
然後,隨機化立方體的大小、表面滑膩程度、重量、甚至模擬了不同的引力參數。
所有這一切,都是為了讓 AI 更好地理解在現實世界中操縱立方體的可能性。
雖然模擬無法將真實情況完全考慮進去,但有了足夠的變化,就允許它系統地學習針對意外事件的處理方法。參與 OpenAI 項目的 Matthias Plappert 解釋到:
改變模擬的引力,是一件相當有趣的事情。當 AI 系統(Dactyl)在控制真實的機器人手時,手的基部可能每次都處於不同的位置和角度。
如果較低偏低,意味著立方體更容易從手中掉落。為了教 Dactyl 處理這種變化,研究人員決定將模擬中的重力參數也隨機化。
如果不這樣,它就會因為不習慣而一直掉落物體。事實上,Dactyl 必須積累大約 100 年的經驗,才能達到最佳的表現。
反之,研究團隊必須耗費大量的計算能力 —— 大約 6144 個 CPU 和 8 組強大的 Nvidia V100 GPU 。
顯然,需求如此高的硬體,只有極少數的研究機構才能用上。不過 Plappert 表示,最終的結果,依然是相當值得的:
完成訓練後,Dactyl 能夠將立方體從一個位置移動到另一個位置,連續執行 50 次動作而不會出現掉落 —— 即便中位數的次數要小得多(只有 13 次)。
在學習移動立方體的過程中,Dactyl 甚至開發出了類似真人的行為,而所有這些都是在沒有人為知道的情況下習得的(只是幾十年如一日般的反覆試驗)。
Plappert 表示,這表明 OpenAI 的已經為模擬操控做到了極佳的優化。當你看到一台機器人試圖解決問題,本身就是一件很有趣的事情。
[編譯自:TheVerge]
稿源:cnBeta.COM
※我們能否在太空中測量銀河系的加速度?
※科學家研發新型人造智能皮膚 或讓機器人也有觸感
TAG:Science科學探索 |