音頻數據幫助AI在3D迷宮中到達目的地
5月14日消息,視覺是人類導航世界的主要感官,但聲音可能也同樣重要。有研究表明,人們可以學習如何在音頻信號的音量、方向和速度上找到微妙的線索。受此啟發,東芬蘭大學的研究人員在其最新發表的名為《自主智能體受益於聽力?》論文中提出,人工智慧系統能通過聲音為視覺數據提供補充信息。
打開今日頭條,查看更多圖片研究人員表示,初步結果表明,這種方法可以提高agent(智能體,指能自主活動的軟體或者硬體實體)在3D迷宮中完成目標的能力。
論文作者寫道:「對於智能體來說,只使用視覺信息進行學習並不總是那麼容易。例如,在有很多房間且智能體和目標之間沒有直接視線支持的情況下,智能體很難僅使用視覺信息到達目標。因此,使用音頻特性可以為此類問題提供有價值的信息。」
研究人員的人工智慧採用了深度Q網路的形式,這種模型對不同類型的數據(即圖像像素和音頻)具有靈活性,並且已成功應用於Atari遊戲。
正如團隊解釋的那樣:「我們將關於環境(到目標的距離)的信息編碼到樣本的。然後,將樣本連同圖像一起提供給智能體。由於目標的距離是用的整體音高編碼的樣本,這些特徵可以很容易地被理解為對智能體有用的信息(音高越高代表距離目標越近)。這些功能可以作為一種完整性檢查,以確保提供有關目標距離的信息對代理是有利的。」
在一台運行定製Vizdoom場景的強大PC上進行的實驗中,科學人員讓智能體在迷宮中導航,即左轉、右轉、前進或後退到不同的房間。智能體最初完全是隨機行動,但隨著時間的推移,當它們因為實現目標而獲得獎勵(一種被稱為強化學習的技術)時,它們的表現得到了改善。
據了解,未來,該團隊將在不同的環境中,進行視頻遊戲以外的測試。相信該技術將很快在現實場景中得到應用。
※蘋果分析師:今年新iPhone全面升級鏡頭參數 確認用浴霸三攝設計
※Google Lens近期將上線功能濾鏡
TAG:天極網 |