OpenAI 造出一款機械手臂，50 小時就能模擬人手一百年的訓練量

最新 07-31

由伊隆 · 馬斯克（Elon Musk）創辦的非盈利性人工智慧組織 OpenAI，今天向我們展示了一項新的研究成果：讓機械手可以像人手一樣抓取和操縱物體。雖然這種模擬造型的手掌我們已經見過很多了，但讓「手指」能夠和人類的真手一樣靈活可動，對機械結構來說可不是一件簡單的事。

但你在下面的動圖中也能看到，這套名為 Dactyl 的機械手系統能夠按照指令要求，輕鬆完成轉動立方體的動作，而且這種包含各種技巧的指尖操作，顯然要比過去我們所看到的機器人行走跳躍複雜得多。

GIF

Dactyl 自所以能夠實現這麼高效的運作，和 Open AI 使用的強化學習演算法有關係。就像是剛出生的小孩一樣，AI 或是機器人剛造出來後同樣什麼都不懂，如果你希望它能夠完全理解某項複雜任務的流程，肯定需要進行反覆的訓練。

尤其是對於真實存在的物理機器人來說，研究人員往往要耗費大量的現實時間對其進行指導練習。

但 OpenAI 現在的做法，則是完全在虛擬環境中對 AI 機器人進行訓練，然後再把 AI 應用在實體機器人身上。他們還會在訓練的過程中增加大量的動態隨機事件，讓 AI 在這個過程中自己領悟出完成任務的訣竅。

以這次的機械手掌為例，首先，他們會教導機械手臂按照指令，將六面立方體中的正確顏色翻轉出來；然後便開始改變周圍環境的燈光和雜訊，以及立方體的顏色、重量、紋理和摩擦力等；甚至還會改變訓練過程中的重力環境因素。

之所以會加入這些隨機化的變數，也是為了讓 AI 能更好的應對各種意外情況的發生：「比如說不同的重力環境下，Dactyl 自己就會去領悟這會對立方體操控造成哪些影響。不然在現實世界中，一旦我們改變手臂的高度，重力環境發生改變，立方體可能就會從手中滑落。」

另外，由於不用模仿人類的行為，所以 OpenAI 的訓練方式也可以允許 AI 充分去思考人類沒有思考過的方式，說不定還能獲得意想不到的成果。

這種虛擬環境的訓練模式還有一個好處，那就是不會耗費現實世界的時間。目前 Dactyl 已經積累了大約 100 年的訓練經驗，嘗試用無數種方法來控制立方體的轉動，但實際上這個過程只相當於我們現實世界中的 50 個小時而已。

在虛擬世界裡完成訓練後，AI 就可以應用這些經驗去分析現實世界裡的動態因素，並調整自己的行為來完成任務了。如今 Dactyl 已經可以連續完成 50 次的立方體旋轉操作，且不會出錯。

值得一提的是，這種超高效的訓練模式不僅能運用在物理機器人上，也同樣可以用於其它的虛擬 AI 模型。在去年 7 月份，OpenAI 開發的 Open AI Five 也同樣在虛擬世界裡經歷了上萬個小時的學習，實際上只是花費了幾天的時間，然後它便在 Dota2 遊戲中擊敗了職業選手 Dendi。

雖然只是一次 solo 對決而非 5v5，但依舊讓我們看到了人工智慧在電競這種複雜領域的有效性，包括我們所熟知的「圍棋殺手」 AlphaGo，也是 DeepMind 公司使用深度強化學習訓練出來的 AI 模型。

GIF

據說強化學習的靈感最早來源於人類對自然界動物學習過程的長期觀察，之所以近幾年內才開始嘗試，也是受益於神經網路技術的進步，以及 OpenAI 本身的規模優勢。一旦強化學習的基準更為多樣和複雜，自然也得付出不小的運算成本。

按照 OpenAI 給出的數據，Dactyl 的訓練設備動用了約 6144 顆 CPU，以及 8 顆來自 Nvidia 的 V100 GPU，這種規模的基礎硬體只有很少數的研究機構才能夠使用。

總得來說，OpenAI 提出的「將模擬環境的成果應用到現實世界」會是開發通用機器人的有效解決方案之一，但也有機器人專家認為，這種程度的實驗結果只會局限在某一個特定任務上，能否真正解決現實世界的難題，則仍然是一個未知數。

題圖來源：OpenAI

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自機械的精彩文章: