「國產萊卡狗」走進谷歌AI Lab，強化學習演算法讓機器狗漫步溜達似真狗

科技 04-04

新智元報道

來源：techcrunch

編輯：王芳、白峰

無論是狗狗追球玩，還是飛馬翻越障礙，動物可以毫不費力地展現出豐富敏捷的運動技能。如果能開發出能複製動物敏捷動作的機器人，就可以在很多複雜艱巨的任務中部署機器人。然而想得美簡單，做得美難，設計能使腿式機器人執行敏捷動作的控制器相當之難。

強化學習一直都是自動化學習技能的好演算法，但還存在很多技術障礙，比如說獎勵機制怎麼設計？習得不同的動作技能如何進行複雜的獎勵機制調整？機器人如果太笨老是摔倒怎麼減少人工干預？這一個個問題的背後都隱藏著巨大的人工開銷。

谷歌AI部門又來秀了

論文地址：

https://xbpeng.github.io/projects/Robotic_Imitation/2020_Robotic_Imitation.pdf

谷歌AI 研究團隊近日發表論文《通過模仿動物學習敏捷的機器人運動技巧》（Learning Agile Robotic Locomotion Skills by Imitating Animals）介紹了一個新框架，實現了真狗狗的運動形態到機器狗的同步遷移，機器狗學會了真狗狗一系列敏捷流暢的動作，如小跑、跳躍、追尾巴這些。

而且，這次谷歌AI使用的機器狗來自國產機器狗初創公司「宇樹科技」，是宇樹科技的招牌「萊卡狗」（ Laikago）。宇樹科技作為一個成立於2016年的初創公司，已經在機器狗領域頗具名聲，甚至被媒體稱為「中國的波士頓動力」，在演算法控制上展現了極高的能力，跑、跳、爬坡、後空翻這些技能早已不再話下，此前宇樹科技發布的視頻中，8隻萊卡狗可拉動一台載人的五菱榮光。

強化學習起到了核心作用

研究人員首先從真狗狗的一系列運動剪輯中獲取各種動作數據。有了運動數據，便進入運動模仿過程，整個運動模仿過程可以分為三個階段：

1、動作重新定位（motion retargeting）。真實動物的形態往往與機器人不同，因此在機器狗模模擬狗狗動作之前，必須先將動作重新定位到機器狗上。為了重新定位動作，首先要在真狗狗身上確定關鍵動作點，如腳、屁股這些部位，然後將這些關鍵動作點對應到模擬機器狗身上；在每一幀真狗狗運動剪輯片段中均提取這些關鍵動作點，然後通過逆運動學（inverse-kinematics）計算出運動姿勢軌跡，讓模擬機器狗能成功get這些關鍵點。由此，便生成了參照動作。

2、動作模仿（motion imitation）。動作重新定位生成參照動作後，強化學習演算法便通過這些參照動作訓練框架策略從而在模擬環境中複製出這些動作。同時，為減少參考動作與模擬動作之間的動作偏差，研究人員又引入了獎勵機制。

3、領域自適應（domain adaptation）。動作模仿要點掌握之後，為了能讓機器狗完美復刻動作，像真狗狗一樣靈活自如，防止機器狗出現站不穩、摔倒等情況，研究人員又通過一個有效樣本的領域自適應過程，將框架策略遷移真的機器狗上。為方便將動作遷移到真機器狗上，研究人員還在訓練過程中將模擬動作形態隨機化，其中的動作變數包括質量、慣性、運動作用力、運動摩擦力等。

讓機器狗變的更像真狗

通過這種方法，機器狗學會了從真狗狗動作中模仿各種運動形態，如慢步溜達、快步小跑、追尾巴、倒著走等動作。

除此之外，機器狗也可根據生成的關鍵動作幀畫面模仿出運動形態，比如側著走、轉身、迴旋跳這些動作。

參考鏈接：

https://youtu.be/lKYh6uuCwRY

https://ai.googleblog.com/2020/04/exploring-nature-inspired-robot-agility.html

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※清華大學深度強化學習框架「天授」，開源後已獲900星標
※DeepMind 首席科學家獲2019年ACM 計算獎，智能體Agent57在所有經典Atari 遊戲中吊打人類