拔掉機器人的一條腿，它還能學走路？

科技 06-29

行走栗發自凹非寺

量子位出品 | 公眾號 QbitAI

迪士尼的機器人，不管剩幾條腿 (n>0) ，都能學會走路。

那麼，是怎麼學的？

研究團隊不用模擬器，直接在硬體上修鍊深度強化學習(DRL) 的策略。

真實世界，或許比模擬器要單調一些。不過，有物理支持的經驗，可能更加珍貴。

除了有清新脫俗的訓練環境，這隻機器人，也並不是一只機器人而已。

想要幾條腿，問過機器人嗎？

機器人的腿是模塊化的，就是說，你想給它裝上一條、兩條、三條腿，都可以。

嫌腿太多，拔掉一些也可以。?反正只要有腿，機器人還可以重新學走路。

另外，機器人的腿還分三種，運動方式各不相同——

在分別介紹之前，先給各位一些方向感。

A腿，Roll-Pitch，橫軸加縱軸。

B腿，Yaw-Pitch，豎軸加縱軸。

C腿，Roll-Yaw-Pitch，橫軸加豎軸加縱軸。

於是，C腿比另外兩條腿粗壯一些，似乎也可以理解了。

如果按最多能裝六條腿來算，一共可以拼出多少種不同的機器人？

這樣一來，即便不是模擬器，也算多姿多彩了。

兩種DRL同步走

由於，不知道機器人什麼時候，就會多條胳膊少條腿，迪士尼團隊準備了兩種深度強化學習演算法。

一是TRPO(信賴域策略優化) 演算法，沿用既定策略 (On-Policy) 的批量學習方法，適合優化大型非線性的策略。

二是DDPG(深度確定性策略梯度) 演算法，用「演員-評論家 (Actor-Critic) 」的方法，優化策略。

不同的演算法，不同的姿勢

那麼，在三次元學習過程中優化的策略，有多優秀？

按照腿的數量，分別來看一下。

一條腿

圖中下者，是用TRPO學習完畢的A腿，與沒有學過的A腿相比，走路姿勢已經明顯不同，速度也真的加快了一點點。

兩條腿

這是兩條B腿在TRPO熏陶之下形成的姿勢，輕快地觸地，輕快地彈起。

這同樣是兩條B腿，但演算法換成了DDPG，姿勢又完全不同了，好像慵懶地向前翻滾。

三條腿

這次，機器人長了三條B腿。有了TRPO的加成，它用歡脫地節奏點著地，和雙腿TRPO的操作很相似。

總體看上去，用TRPO訓練過後，機器人會比較活躍，用DDPG修鍊之後，機器人就有了佛系屬性。

不管它有怎樣的個性，研究人員都很開心。畢竟，那表示深度強化學習演算法，是有效的。一看就知道，是誰帶出的徒弟。

你也想被支配一下？

同性交友網站的章魚貓 (假裝) 表示，它也想接受DRL演算法的蹂躪，然後解鎖更嬌嫩的舞姿。

論文傳送門：

https://s3-us-west-1.amazonaws.com/disneyresearch/wp-content/uploads/20180625141830/Automated-Deep-Reinforcement-Learning-Environment-for-Hardware-of-a-Modular-Legged-Robot-Paper.pdf

—完—

加入社群

量子位AI社群18群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot8入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot8，並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※英偉達老黃又來送大禮，全新Titan V CEO限量版GPU火力全開
※高通發布4款全新驍龍晶元，千元機都能加持AI了

TAG:量子位 |