拔掉機器人的一條腿,它還能學走路?
行走栗 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
迪士尼的機器人,不管剩幾條腿 (n>0) ,都能學會走路。
那麼,是怎麼學的?
研究團隊不用模擬器,直接在硬體上修鍊深度強化學習(DRL) 的策略。
真實世界,或許比模擬器要單調一些。不過,有物理支持的經驗,可能更加珍貴。
除了有清新脫俗的訓練環境,這隻機器人,也並不是一只機器人而已。
想要幾條腿,問過機器人嗎?
機器人的腿是模塊化的,就是說,你想給它裝上一條、兩條、三條腿,都可以。
嫌腿太多,拔掉一些也可以。?反正只要有腿,機器人還可以重新學走路。
另外,機器人的腿還分三種,運動方式各不相同——
在分別介紹之前,先給各位一些方向感。
A腿,Roll-Pitch,橫軸加縱軸。
B腿,Yaw-Pitch,豎軸加縱軸。
C腿,Roll-Yaw-Pitch,橫軸加豎軸加縱軸。
於是,C腿比另外兩條腿粗壯一些,似乎也可以理解了。
如果按最多能裝六條腿來算,一共可以拼出多少種不同的機器人?
這樣一來,即便不是模擬器,也算多姿多彩了。
兩種DRL同步走
由於,不知道機器人什麼時候,就會多條胳膊少條腿,迪士尼團隊準備了兩種深度強化學習演算法。
一是TRPO(信賴域策略優化) 演算法,沿用既定策略 (On-Policy) 的批量學習方法,適合優化大型非線性的策略。
二是DDPG(深度確定性策略梯度) 演算法,用「演員-評論家 (Actor-Critic) 」的方法,優化策略。
不同的演算法,不同的姿勢
那麼,在三次元學習過程中優化的策略,有多優秀?
按照腿的數量,分別來看一下。
一條腿
圖中下者,是用TRPO學習完畢的A腿,與沒有學過的A腿相比,走路姿勢已經明顯不同,速度也真的加快了一點點。
兩條腿
這是兩條B腿在TRPO熏陶之下形成的姿勢,輕快地觸地,輕快地彈起。
這同樣是兩條B腿,但演算法換成了DDPG,姿勢又完全不同了,好像慵懶地向前翻滾。
三條腿
這次,機器人長了三條B腿。有了TRPO的加成,它用歡脫地節奏點著地,和雙腿TRPO的操作很相似。
總體看上去,用TRPO訓練過後,機器人會比較活躍,用DDPG修鍊之後,機器人就有了佛系屬性。
不管它有怎樣的個性,研究人員都很開心。畢竟,那表示深度強化學習演算法,是有效的。一看就知道,是誰帶出的徒弟。
你也想被支配一下?
同性交友網站的章魚貓 (假裝) 表示,它也想接受DRL演算法的蹂躪,然後解鎖更嬌嫩的舞姿。
論文傳送門:
https://s3-us-west-1.amazonaws.com/disneyresearch/wp-content/uploads/20180625141830/Automated-Deep-Reinforcement-Learning-Environment-for-Hardware-of-a-Modular-Legged-Robot-Paper.pdf
—完—
加入社群
量子位AI社群18群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot8入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微信號qbitbot8,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※英偉達老黃又來送大禮,全新Titan V CEO限量版GPU火力全開
※高通發布4款全新驍龍晶元,千元機都能加持AI了
TAG:量子位 |