看Deepmind機器人尬舞，邊玩邊學人工智慧

最新 07-14

Deepmind通過增強學習讓木偶學習行走、跑跳。

在自然界中，無論是動物，還是人類，都可以靈活而隨心所欲地做出一些動作，比如猴子在樹上自由自在得擺動，或是NBA球員虛晃過對手，帥氣地投出籃球。但是在AI 研究領域，想要讓機器人掌握這些動作（物理上就是一種複雜的電機控制）卻不是一件容易的事，而這是AI研究領域的重要組成部分。

近日，Deepmind公布了智能電機的相關研究成果，展示了機器人學習如何控制和協調身體來解決在複雜環境中的任務。這一研究涉及不同領域，包括計算機動畫和生物力學。

接下來我們帶領大家邊玩邊學。

在複雜環境中產生動作行為

上一個小視頻，先睹為快。

此刻，想必你已經忍俊不禁了吧。視頻中，我們可以直觀感受到木偶的動作是笨拙的。

此處採用的是增強學習，但不同於Deepmind此前開發的Atari或Go，這裡，需要準確描述複雜行為。具體來說，就是獎勵機制的不同，在Atari和Go的開發過程中，設計人員將得分作為獎勵，就可以依照預期來優化系統。但是在連續的控制任務（如運動）中，獎勵信號的選擇就沒有那麼容易，常常會出現獎勵信號的選擇不當，從而導致優化結果與設計師期望不符。

由此，自然就會想到慎重選擇獎勵信號，以此來實現優化，但是如果謹慎設計獎勵，也就等同於迴避了增強學習的核心問題：系統如何直接從有限的獎勵信號中自主學習，讓木偶實現豐富而有效的動作行為。

研究團隊表示，為了讓系統有自我學習的能力，他們選擇直面增強學習中的核心問題。於是團隊以環境本身具有足夠的豐富性和多樣性為研究的主要背景，從兩方面實現學習：

一：預設一系列不同難度級別的環境，引導木偶學習和找到解決困難的方案；

二：因為過擬合，獎勵機制和動作細節都具有一定的誤差，從而每一次運動都有些微不同。發現不同方案之間的特殊性能差距，也將幫助系統有效學習。

為了使操控的木偶面對不同的地形有效的學習，研究團隊還開發了增強學習演算法。

首先，團隊開發了強大的策略梯度演算法，如信任區域策略優化（TRPO）和近端策略優化（PPO），其中，他們選擇將每次更新的參數綁定到信任區域以確保演算法的穩定性。

其次，對於像廣泛使用的A3C演算法以及相關演算法，他們將其分配運用在許多並行的代理環境和實例中。

這樣，面對複雜的環境，通過自主學習，木偶自然就會有豐富而有效的行為表現。

通過對抗模仿人類行為

再來看看下面的「群魔亂舞」。

視頻中這些小人們是不是已經不忍直視，不過專業的角度來看，技術上已經很棒了。

據了解，構建可編程人形木偶的問題可以追溯到幾個世紀以前。在1495年，達芬奇以裝甲騎士的形式構建了一個人形自動機。騎士能夠通過曲柄傳遞的力量揮動，坐起來，打開和關閉其下巴。不像大多數鐘錶只能產生沿著單極循環的運動，機械騎士可以重新編程以改變其運動，從而能夠及時改進手臂運動方向或交替運動順序。

現如今，在此系統中，最優控制和增強學習能夠用來設計人形木偶的行為，並且神經網路能夠存儲動作行為和靈活檢測多種運動模式，將這幾種技術融合，可實現運動控制。但研究團隊表示，依靠純增強學習（RL），會使運動行為過於刻板，不符合設計期望。

通常，在計算機動畫相關文獻中使用的替代性方案是採取運動捕捉數據，將其載入到控制器中。在視覺上，採取這一方案的方法都產生了讓人滿意的運動表現，然而，其中有些方法產生的狀態序列僅僅是理論上的，物理上並不適用。還有一些方法需要設計大量的組成因素，如成本函數。

而此處，為了從運動捕捉數據中進行仿製學習，研究團隊採用生成對抗模仿學習（GAIL），這是模仿學習中最近的一項突破，簡言之，該方法就是以類似於生成對抗網路的方式產生模仿策略。與已存在的模仿學習相比，該方法的主要優點是模仿與演示數據之間相似度的衡量不是基於預先設計好的度量值。

具體操作上，主要就是先訓練低級別控制器，通過使用GAIL的擴展來從運動捕捉數據中生成行為信號，接著將低級別控制器嵌入更大的控制系統中，其中高級別控制器通過RL學習調製低級別控制器來解決新任務。

顯然，通過對抗模仿學習，人偶會有更加靈活的身手。

強大的模仿能力

據悉，該系統的具體實現主要基於一種生成模型的神經網路架構，它能夠學習不同行為之間的關係。

首先，給其一個基本動作，通過訓練，該系統可以自動對最基本動作進行編碼，並且基於基本動作及對抗學習，系統自動微小改變來創新一個新動作。同時，研究團隊還表示他們的系統可以在不同類型的行為之間切換。

總結

實現系統的靈活性和適應性是AI研究的關鍵因素，Deepmind研究團隊直面困難，專註於開發靈活的系統，雖然目前系統模型依然粗糙，但是我們還是很期待後期進一步的優化和改進後的成果。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 鎂客網 的精彩文章:

※中科創星米磊：基礎設施建設是未來十年的關鍵
※VR工具化，不妨從這款智能可穿戴手套開始
※淘寶下架蘋果iOS充值業務，馬雲或在為支付寶掃除障礙
※摘下月亮送給愛人？AstroReality用AR技術幫你實現
※蘋果將建中國第一家數據中心，iCloud能否就此獲得中國消費者青睞？

TAG:鎂客網 |

您可能感興趣

※DeepMind開源Psychlab，將人工智慧與心理學聯繫起來
※DeepMind遊戲AI登上Science：雷神之錘多智能體合作，超越人類玩家
※DeepMind 讓AI機器人具備自學能力
※DeepMind 給人工智慧搞了一套 IQ 測試題
※DeepMind給人工智慧搞了一套IQ測試題
※解密：OpenAI和DeepMind都用的Transformer是如何工作的
※谷歌、DeepMind和OpenAI都在用的Transformer是如何工作的？
※Google和DeepMind 運用人工智慧預測風電場的能源輸出
※Google 和 DeepMind 運用人工智慧預測風電場的能源輸出
※DeepMind新目標：用YouTube讓AI學習玩視頻遊戲
※DeepMind私貨公開，推出分散式機器學習庫，TensorFlow、Keras可用
※你的模型可以輕鬆使用TPU了！DeepMind 開源分散式機器學習庫TF-Replicator
※起源人工智慧研究院–阿聯酋的DeepMind
※Nature Medicine論文展示DeepMind眼疾診斷里程碑：臨床專家級
※DeepMind開發新系統讓AI機器人具備自學能力
※DeepMind新智能體架構Unicorn：持續學習能力勝過多個基準智能體
※AlphaGo後再出神作！DeepMind打造AlphaFold擊敗人類，精度碾壓人類專家！
※Google DeepMind 聯合創始人 Suleyman 停職，公司稱其正休假
※Google＆DeepMind 有聲讀物
※Stanford本碩，DeepMind工程師，斯坦福女神來分享她的故事……