當前位置:
首頁 > 新聞 > 深度強化學習又立功!AI系統引導無人機成功穿越陌生彎道走廊

深度強化學習又立功!AI系統引導無人機成功穿越陌生彎道走廊

深度強化學習——一種通過使用獎勵來驅動代理實現目標的演算法訓練技術——在基於視覺的導航領域顯示出巨大的潛力。科羅拉多大學的研究人員最近發布了一個系統,可以幫助機器人從相機鏡頭中找到行走路徑的方向,蘇黎世聯邦理工學院的科學家們在1月份的一篇論文中描述了一種機器學習框架,它有助於四足機器人被絆倒時從地面爬起來 。

但是,如果將這種AI功能應用於無人機,它的表現會不會和在地面上的機器人一樣出色呢?加州大學伯克利分校的一個研究小組開始尋找答案。

在Arxiv預印本伺服器上出版的最新一期論文(《通過模擬泛化:將模擬和實際數據集成到深強化學習應用自主飛行》(Generalization through Simulation: Integrating Simulated and Real Data into Deep Reinforcement Learning for Vision-Based Autonomous Flight)),該團隊提出了一個「混合」深強化學習演算法,該演算法將從用於指導四軸飛行器導航地毯走廊中獲得數據結合在一起。

論文作者寫道:「在這項工作中,我們……的目標是設計一種學習無人機物理行為的轉移學習演算法。本質上,真實世界的經驗是用來學習如何飛行的,而模擬的經驗是用來學習如何推廣的。」

為什麼使用模擬數據?正如研究人員指出的,泛化嚴重依賴於數據集的大小和多樣性。一般來說,數據的數量和多樣性越大,性能就越好,獲取真實數據既耗時又昂貴。但模擬數據存在一個問題,而且是一個大問題:相對於飛行數據,模擬數據的質量本質上較低——複雜的物理和氣流往往建模很差,或者根本就沒有建模。

研究人員的解決方案是利用真實世界的數據來訓練該系統的動力學,利用模擬數據來學習一種可推廣的感知策略。他們的機器學習體系結構由兩部分組成:一個從模擬中傳輸視覺特徵的感知子系統,以及一個用真實數據進行反饋的控制子系統。

為了訓練模擬策略,該研究小組使用了斯坦福大學的Gibson模擬器,該模擬器包含多種3D掃描環境(研究人員收集了16種環境中的數據),並使用攝像機模擬了一個虛擬四軸飛行器,其動作直接控制攝像機的姿態。他們擁有1700萬個模擬收集的數據點,當所有準備工作就緒後,通過在加州大學伯克利分校科里大廳5樓的一個走廊上運行模擬訓練的政策,他們結合了14000個數據點。

僅用一個小時的真實數據,該研究小組就證明了人工智慧系統可以引導27克的四軸飛行器Crazyflie 2.0在全新的環境中飛行,並幫助它避免碰撞。指引它在真實世界中運行的唯一窗口是一架單眼照相機;它通過一個無線到USB的加密狗(dongle)與附近的一台筆記本電腦通訊。

研究人員注意到,接受過避碰和導航訓練的模型比使用其他方法(如無監督學習和大型圖像識別項目的訓練技術)表現的更好。此外,該人工智慧系統確實出現了失誤,不過這通常也是「合理」的——例如,在30%的彎曲走廊試驗中,四軸飛行器撞上了一扇玻璃門。

論文作者寫道:「我們(的工作)的主要貢獻是將大量的模擬數據與少量的現實經驗結合起來,訓練具有深度強化學習的自主飛行的現實避碰策略。」「我們的方法的基本原理是了解真實世界中這種飛行器的物理特性和動力學,同時從模擬中學習視覺不變性和模式。」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 前瞻經濟學人APP 的精彩文章:

果然來了!特朗普簽署首份AI國家計劃 旨在穩住美國人工智慧霸主地位
訂閱盒行業靠什麼興起?專家:滿足消費者「新穎尋求」心理

TAG:前瞻經濟學人APP |