音頻數據幫助AI在3D迷宮中到達目的地

科技 05-15

5月14日消息，視覺是人類導航世界的主要感官，但聲音可能也同樣重要。有研究表明，人們可以學習如何在音頻信號的音量、方向和速度上找到微妙的線索。受此啟發，東芬蘭大學的研究人員在其最新發表的名為《自主智能體受益於聽力？》論文中提出，人工智慧系統能通過聲音為視覺數據提供補充信息。

音頻數據幫助AI在3D迷宮中到達目的地

打開今日頭條，查看更多圖片

研究人員表示，初步結果表明，這種方法可以提高agent(智能體，指能自主活動的軟體或者硬體實體)在3D迷宮中完成目標的能力。

論文作者寫道：「對於智能體來說，只使用視覺信息進行學習並不總是那麼容易。例如，在有很多房間且智能體和目標之間沒有直接視線支持的情況下，智能體很難僅使用視覺信息到達目標。因此，使用音頻特性可以為此類問題提供有價值的信息。」

研究人員的人工智慧採用了深度Q網路的形式，這種模型對不同類型的數據(即圖像像素和音頻)具有靈活性，並且已成功應用於Atari遊戲。

正如團隊解釋的那樣：「我們將關於環境(到目標的距離)的信息編碼到樣本的。然後，將樣本連同圖像一起提供給智能體。由於目標的距離是用的整體音高編碼的樣本，這些特徵可以很容易地被理解為對智能體有用的信息(音高越高代表距離目標越近)。這些功能可以作為一種完整性檢查，以確保提供有關目標距離的信息對代理是有利的。」

音頻數據幫助AI在3D迷宮中到達目的地

在一台運行定製Vizdoom場景的強大PC上進行的實驗中，科學人員讓智能體在迷宮中導航，即左轉、右轉、前進或後退到不同的房間。智能體最初完全是隨機行動，但隨著時間的推移，當它們因為實現目標而獲得獎勵(一種被稱為強化學習的技術)時，它們的表現得到了改善。

據了解，未來，該團隊將在不同的環境中，進行視頻遊戲以外的測試。相信該技術將很快在現實場景中得到應用。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 天極網 的精彩文章:

※蘋果分析師：今年新iPhone全面升級鏡頭參數確認用浴霸三攝設計
※Google Lens近期將上線功能濾鏡

TAG:天極網 |