厲害了！國際刑警組織的新軟體憑聲音就能揪出犯罪分子！

科技 05-20

一個新的平台旨在將語音錄音與存儲在海量資料庫中的語音樣本進行匹配來識別犯罪分子，但這也引發了隱私方面的問題。

全球最大的警察網路正在評估這樣一款軟體：可以將來自電話通話或社交媒體帖子的語音樣本與存儲在諸執法機構共享的海量資料庫中的犯罪分子的語音錄音相匹配。

正如開發人員所述，該平台（論文見文末）將採用幾種語音分析演算法，按性別、年齡、語言和口音來過濾語音樣本。它將由國際刑警組織在法國里昂的總部加以管理，目的是提高語音數據的準確性，並提高語音數據的可靠性和司法上的可採信性。

開發團隊已在2017年3月和11月成功完成了系統的現場測試。接下來會於今年6月在布魯塞爾進行項目評估。

雖然該系統可以處理任何「合法截獲」的聲音，包括背景對話，但預期用途是將從電話通話和社交媒體收集的聲音與「黑名單」資料庫相匹配。樣本可能來自行動電話、固定電話或VoIP網路電話的錄音，或者來自從發布到社交媒體上的招聘或宣傳視頻捕獲的音頻片段。

這些錄製的數據實際上成了生產線上的小部件。該文件（即捕獲的語音片段）可能已經包含由最初獲取語音片段的執法官員添加的一些描述性元數據。比如說，軟體隨後會嘗試添加關於說話人的年齡或口音的新信息。

為了幫助完成這項任務，SIIP平台將創建一個模板（含有電話通話的警方錄音），標記代表該片段上聲音的聲學特徵。然後使用那些特徵或身份向量，試圖在資料庫中找到匹配的對象。

為了開發該軟體，開發人員採用了多種演算法或模塊，通過一條基於開源架構（http://www.weblab-project.org/index.php?title=WebLab）的處理鏈對剛錄製的語音樣本進行排序。2016年6月、2017年5月和2018年2月發布的臨時報告聲稱，構建這種系統所面臨的挑戰包括安裝諸多工具，以便過濾背景噪音，提高語音清晰度，隔離聲音，以及為警察總部和外勤的應用輕鬆共享、收集和分類數據。

其目的是能夠將新的語音錄音與可能存儲100多萬條記錄的資料庫中存儲的超大聲音樣本資料庫進行匹配。該資料庫將由國際刑警組織來管理；語音錄音將由這家機構所轄的各執法機構來輸入。來自192個國家的這些執法機構可以訪問該系統。

該平台還可以匹配來自各大社交媒體平台的語音樣本，包括Twitter、Google+、LinkedIn、YouTube和Facebook。通過基於語言相關性和地理位置等搜索標準對多媒體內容進行梳理，該系統將標記和處理這些材料，並在資料庫中找到類似的片段。該軟體的視頻處理引擎可以從在線視頻中提取音頻，將其分割成單聲道錄音，將格式處理成未經壓縮的16千赫茲WAV文件。純音頻內容也可以用這種方式來加以搜索和標記。

負責協調該項目的是總部位於紐約和以色列的Verint這家「可行動情報」公司。Verint以商業通話錄音起家，不妨想想「出於質量控制和培訓的原因，本次通話可能被錄音。」該公司與空中客車、SingularLogic和Nuance共同開發了該系統，關鍵字識別組件來自維也納Sail Labs和瑞士非營利研究組織IDIAP。荷蘭和英國的安全小組研究了這個項目的倫理道德方面。徵集了多個執法機構的意見，包括國際刑警組織、義大利警察局、英國大都會警察局、德國聯邦刑事調查局和葡萄牙刑事警察局。

與更廣泛的自動語音監視領域一樣，該項目引起了複雜的反響。柏林的活動家馬修斯?蒙洛伊（Matthias Monroy）是一家公民權利雜誌的編輯，他說：「我認為，警察和秘密情報機構手裡的語音識別相當危險。我持有異議。」自SIIP系統在2014年啟動以來，蒙洛伊就一直在密切關注該系統。

保羅?約翰尼斯（Paul Johannes）是德國卡塞爾大學商法系的研究助理，還是柏林數字隱私組織Forum Privatheit的成員。他表示，執法機構一直在尋找工具，對付由犯罪或恐怖活動開發的新技術。

Human Rights Watch的高級研究員兼中國問題專家瑪雅?王（Maya Wang）最近幫助撰寫了一份報告，批評北京政府藉助AI構建語音樣本資料庫的工作。不過她表示，政治環境很重要。她看到了一個三極環境：一方是中國及「處於蠻荒期」的監視，缺少任何有意義的保護措施；一方是歐洲，實施了較嚴格的規定；另一方是美國，採用較鬆散的框架，該框架仍與充滿活力的公民社會和法治相關聯。王認為，自動語音識別帶來的後果取決於該技術用於哪裡。

讓事情更複雜的是，歐盟即將頒布《數據保護通用條例》（GDPR），這是一系列全面的消費者數據隱私法規。關於該法規會不會影響SIIP之類的語音識別工具，外界意見不一。約翰尼斯表示，GDPR有一條「被遺忘的孿生」指令，該指令對警方或情報部門處理個人數據作了規定，並為個人數據的自由移動制定了規則。

許多執法機構已經使用語音識別軟體包。國際刑警組織曾對69個國家的91個警察部門作了一項調查，結果顯示，一半以上的警察部門已經在使用某種類型的自動語音識別系統。

比如說，STC Group提供一套名為VoiceGrid的語音識別套件，該套件於2011年部署在墨西哥，於2015年部署在厄瓜多。STCGroup是總部位於俄羅斯的Speech Technology Center的歐洲子公司。STC很注重將所謂的「聲紋」（voiceprint）與底層的原始語音數據相分離――萬一含有聲紋的資料庫遭到黑客攻擊，識別個人身份的數據已被清除。

外界一再要求置評，Verint和國際刑警組織並未予以回復。該系統的目標之一是改善在法庭案子中使用語音識別的前景。消息靈通人士表示，但是如果國際刑警組織繼續推行SIIP平台，顯著特徵很可能是資料庫。

傑弗里?斯圖爾特?莫里森（Geoffrey Stewart Morrison）是英國伯明翰阿斯頓大學司法語言中心的副教授，他表示，在法庭上使用語音數據和使用語音識別作為一種調查工具有很大的區別。通過已發表的作品，他和同事已為法庭上的語音比較證詞指出了明確的限制（https://escholarship.org/content/qt5239p0tz/qt5239p0tz.pdf）。

國際刑警組織的這個平台可能證明它不僅有助於縮小潛在嫌疑人的範圍，還有助於起訴犯罪分子。莫里森表示，個別執法機構可能已經在購買現有系統以滿足各自的用途，但它們可能不會共享數據，哪怕是在本國內部。然而，國際刑警組織的作用就是促進執法機構之間共享信息。

鑒於最近有公司從Facebook之類的社交媒體平台獲取數據這一做法頗讓人擔憂，還可以將這種分析視為一種警告。正如活動家蒙洛伊指出的那樣，普通大眾最近才意識到他們的書面交流內容可能大範圍受到監視、過濾查找關鍵字。他說：「普通大眾應該知道，這還適用於語音內容。」

論文：