谷歌正在用 AI 來從喧鬧中識別熟人聲音
科技
04-16
據 Ars Technica 報道, 谷歌研究人員開發出一種深度學習系統,旨在幫助計算機更好地識別和分離出嘈雜環境中的個體聲音。
正如谷歌本周在 Google Research Blog 上所稱,該公司內部團隊正試圖複製「人類大腦專註於某個聲音來源時,可過濾掉其他聲音」的功能。谷歌發布了 YouTube 視頻,展示了該技術的實際應用情況。
谷歌表示,這項技術可以應用於使用單一音軌的視頻,並能在視頻演算法中隔離聲音。谷歌稱,這裡的視覺組件是關鍵,因為當某人的嘴在動時,這項技術會觀察到,以便能在特定時刻更好地識別在某人的聲音,並為視頻的長度創建更精確的個人語音軌跡。
這篇博客文章寫道,研究人員在 YouTube 上收集了 10 萬段「講座和談話」視頻,從這些視頻中提取了近 2000 小時的視頻片段,並將音頻與人工背景雜訊混合。然後谷歌通過閱讀人們在每個視頻框架中說話的臉部動作和該視頻原聲帶的譜圖,訓練技術人員將混合音頻進行拆分。該系統能夠分辨出哪個音頻源在給定的時間內屬於哪張人臉,並為每個揚聲器創建單獨的語音軌跡。
谷歌特別指出,封閉字幕系統是該系統的一個優勢,該公司表示已經在考慮「這一技術的廣泛應用」,並且「目前正在探索將其納入各種穀歌產品的機會」。
谷歌正在用 AI 來從喧鬧中識別熟人聲音最先出現在動點科技。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※ofo 創始人戴威以動產抵押的方式,換阿里巴巴 17.7 億元融資;5G第一版國際標準將於今年6月完成
※極光大數據:網約車 App 大部分用戶低於 35 歲,用戶增長轉向新一線和二線城市
TAG:動點科技 |