用聲音檢測技術降低美國「賭城」槍擊案傷亡

最新 10-06

最近幾天，大家都被美國「賭城」拉斯維加斯的2000人的音樂會的槍擊案刷屏，59死，500+傷，是美國自911事件後，最大的傷亡事件。默哀！祈禱和平，沒有暴力！

圖為：美國華盛頓紀念碑降半旗哀悼拉斯維加斯槍案遇難者

除了默哀之外，如何用我們已有的技術，來改變這個世界，即用我們在DCASE2017 challenge中取得第一名的系統來進行聲音（「槍擊，gunshot」）事件檢測，以便在第一時間通知就近的警察局，並且用DOA,聲音能量差和相位差來輔助聲音定位。

要知道現場，剛開始有人竟然誤以為是「放煙花，fireworks」，而且警察花了大量時間來尋找槍擊者的位置。這個槍手竟然在酒店的32層上，從高處往低處射擊，掃射有2000+人的音樂現場，簡直了。

我們用我們最新的聲音檢測技術，可以很快檢測並且確定，「槍擊，gunshot」：

由於現場視頻太過於血腥以及版權的問題，本次就不播放視頻，但貼出了「槍擊」事件檢測的結果圖：「事件名：出現的概率」

槍手換子彈，停止射擊，現場大量尖叫和語音

槍手再次射擊，現場一片混亂。

槍手可能在射擊n分鐘後：只剩下現場一片尖叫

從現場的視頻可以看出，由於昏暗的夜晚，密集的人群，光靠攝像頭是無法檢測槍擊異常，但聲音檢測卻能很好地預警。

論文

——

使用門控卷積神經網路的大規模弱監督音頻分類

概述

——

在本文中，我們提出了一種門控卷積神經網路和音頻分類的attention-based定位方法，在（DCASE ）2017中聲場和事件檢測分類的大規模弱監控聲音事件檢測任務中排名第一。

從YouTube視頻中提取的，此任務中的手動標記音頻剪輯，有一個或幾個音頻標籤，但沒有音頻事件的時間戳，這被稱為弱標籤數據。

在這個挑戰中定義了兩個子任務，包括使用弱標籤數據的音頻標記和聲音事件檢測。提出了具有可學習的門控線性單位（GLU）的非線性卷積循環神經網路（CRNN）應用於the log Mel spectrogram。

提出了音頻標籤和弱監聽聲音事件檢測（SED）統一模型的圖表。從中間定位模塊中提取SED預測，最終的輸出是音頻標籤預測。

使用所提出的定位方法

結論

——

在本文中，我們提出了音頻標籤和弱監聽聲音事件檢測的統一方法。提出了門控CRNN方法，其中可學習的門控線性單元，可以幫助選擇與最終標籤相對應的最相關功能。

還提出了基於attention-based的定位方法，以弱監督模式定位發生的事件。最終系統使我們在DCASE2017挑戰的音頻標籤子任務中排名第一，獲得了57.7％的F1得分。我們也是SED子任務中的第二名。將來我們將評估我們提出的Audioset方法[20].

相關資源：

[1] 最新技術論文： https://arxiv.org/abs/1710.00343

[2] 源代碼：https://github.com/yongxuUSTC/dcase2017_task4_cvssp

[3] DCASE2017 our rank 1st results：http://www.cs.tut.fi/sgn/arg/dcase2017/challenge/task-large-scale-sound-event-detection-results

來源：人工智慧徐博士

獲授權轉載

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機械雞 的精彩文章: