當前位置:
首頁 > 科技 > 拔掉機器人的一條腿,它還能學走路?

拔掉機器人的一條腿,它還能學走路?

行走栗 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

迪士尼的機器人,不管剩幾條腿 (n>0) ,都能學會走路。

那麼,是怎麼學的?

研究團隊不用模擬器,直接在硬體上修鍊深度強化學習(DRL) 的策略

真實世界,或許比模擬器要單調一些。不過,有物理支持的經驗,可能更加珍貴。

除了有清新脫俗的訓練環境,這隻機器人,也並不是只機器人而已。

想要幾條腿,問過機器人嗎?

機器人的腿是模塊化的,就是說,你想給它裝上一條、兩條、三條腿,都可以。

嫌腿太多,拔掉一些也可以。?反正只要有腿,機器人還可以重新學走路。

另外,機器人的腿還分三種,運動方式各不相同——

在分別介紹之前,先給各位一些方向感。

A腿,Roll-Pitch,橫軸加縱軸。

B腿,Yaw-Pitch,豎軸加縱軸。

C腿,Roll-Yaw-Pitch,橫軸加豎軸加縱軸。

於是,C腿比另外兩條腿粗壯一些,似乎也可以理解了。

如果按最多能裝六條腿來算,一共可以拼出多少種不同的機器人?

這樣一來,即便不是模擬器,也算多姿多彩了。

兩種DRL同步走

由於,不知道機器人什麼時候,就會多條胳膊少條腿,迪士尼團隊準備了兩種深度強化學習演算法。

一是TRPO(信賴域策略優化) 演算法,沿用既定策略 (On-Policy) 的批量學習方法,適合優化大型非線性的策略。

二是DDPG(深度確定性策略梯度) 演算法,用「演員-評論家 (Actor-Critic) 」的方法,優化策略。

不同的演算法,不同的姿勢

那麼,在三次元學習過程中優化的策略,有多優秀?

按照腿的數量,分別來看一下。


一條腿

圖中下者,是用TRPO學習完畢的A腿,與沒有學過的A腿相比,走路姿勢已經明顯不同,速度也真的加快了一點點。

兩條腿

這是兩條B腿在TRPO熏陶之下形成的姿勢,輕快地觸地,輕快地彈起。

這同樣是兩條B腿,但演算法換成了DDPG,姿勢又完全不同了,好像慵懶地向前翻滾。


三條腿

這次,機器人長了三條B腿。有了TRPO的加成,它用歡脫地節奏點著地,和雙腿TRPO的操作很相似

總體看上去,用TRPO訓練過後,機器人會比較活躍,用DDPG修鍊之後,機器人就有了佛系屬性。

不管它有怎樣的個性,研究人員都很開心。畢竟,那表示深度強化學習演算法,是有效的。一看就知道,是誰帶出的徒弟。

你也想被支配一下?

同性交友網站的章魚貓 (假裝) 表示,它也想接受DRL演算法的蹂躪,然後解鎖更嬌嫩的舞姿。

論文傳送門:

https://s3-us-west-1.amazonaws.com/disneyresearch/wp-content/uploads/20180625141830/Automated-Deep-Reinforcement-Learning-Environment-for-Hardware-of-a-Modular-Legged-Robot-Paper.pdf

加入社群

量子位AI社群18群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot8入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot8,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

英偉達老黃又來送大禮,全新Titan V CEO限量版GPU火力全開
高通發布4款全新驍龍晶元,千元機都能加持AI了

TAG:量子位 |