基於黑盒語音識別系統的目標對抗樣本

最新 05-26

編譯 | 姍姍

出品 | AI 科技大本營

AI 科技大本營按：谷歌大腦最近研究表明，任何機器學習分類器都可能被欺騙，給出不正確的預測。在自動語音識別（ASR）系統中，深度循環網路已經取得了一定的成功，但是許多人已經證明，小的對抗干擾就可以欺騙深層神經網路。而目前關於欺騙 ASR 系統的工作主要集中在白盒攻擊上，Alzantot 等人證明利用遺傳演算法的黑盒攻擊是可行的。

而在接下來為大家介紹的這篇加州大學伯克利分校機器學習團隊的論文中，引入了一個新的黑盒攻擊領域，特別是在深層非線性的 ASR 系統中可以輸出任意長度的轉換。作者提出了一種將遺傳演算法和梯度估計結合的黑盒攻擊方法，使之可以產生比單獨演算法更好的對抗樣本。

在研究中，通過改進遺傳演算法從而應用於短語和句子中；將雜訊限制在高頻域上可以提高樣本的相似度；而當對抗樣本已經接近目標時，梯度估計會比遺傳演算法進行更有效的權衡，為未來的研究打開了新的大門。

以下為論文摘編，AI科技大本營整理：

▌對抗性攻擊介紹

因為神經網路具有的強表達能力，使得它們能夠很好地適應於各種機器學習任務，但在超過多個網路架構和數據集上，它們容易受到敵對攻擊的影響。這些攻擊通過對原始輸入增加小的擾動就會使網路對輸入產生錯誤的分類，而人類的判斷卻不會受到這些擾動的影響。

到目前為止，相比其他領域，如語音系統領域，為圖像輸入生成對抗樣本的工作已經做了很多。而從個性化語音助手，如亞馬遜的 Alexa 和蘋果公司的 Siri ，到車載的語音指揮技術，這類系統面臨的一個主要挑戰是正確判斷用戶正在說什麼和正確解釋這些話的意圖，深度學習幫助這些系統更好的理解用戶，然而存在一個潛在的問題是針對系統進行目標對抗攻擊。

在自動語音識別（ASR）系統中，深度循環網路在語音轉錄的應用已經取得了令人印象深刻的進步。許多人已經證明，小的對抗干擾就可以欺騙深層神經網路，使其錯誤地預測一個特定目標。目前關於欺騙 ASR 系統的工作主要集中在白盒攻擊上，在這種攻擊中模型架構和參數是已知的。

對抗性攻擊（Adversarial Attacks）：機器學習演算法的輸入形式為數值型向量，通過設計一種特別的輸入以使模型輸出錯誤的結果，這被稱為對抗性攻擊。根據攻擊者對網路的了解信息，有不同的執行敵對攻擊的方法：

白盒攻擊：對模型和訓練集完全了解；如果給定一個網路的參數，白盒攻擊是最成功的，例如 Fast Grandient Sign Method 和 DeepFool；

黑盒攻擊：對模型不了解，對訓練集不了解或了解很少；然而，攻擊者能夠訪問網路的所有參數，這在實踐中是不現實的。在黑盒設置中，當攻擊者只能訪問網路的邏輯或輸出時，要始終如一地創建成功的敵對攻擊就很難了。在某些特殊黑盒設置中，如果攻擊者創建了一個模型，這個模型是目標模型的一個近似或逼近模型，就可以重用白盒攻擊方法。即使攻擊可以轉移，在某些領域的網路中也需要更多的技術來解決這個任務。

攻擊策略：

基於梯度的方法：FGSM 快速梯度法；

基於優化的方法：使用精心設計的原始輸入來生成對抗樣本；

▌以往的研究

在先前的研究工作中，Cisse 等人開發了一個通用攻擊框架，用於在包括圖像和音頻在內的各種模型中工作。與圖像相比，音頻為模型了提供了一個更大的挑戰。雖然卷積神經網路可以直接作用於圖像的像素值，但 ASR 系統通常需要對輸入音頻進行大量預處理。

最常見的是梅爾-頻率轉換（ＭFC），本質上是採樣音頻文件的傅里葉變換，將音頻轉換成一個顯示頻率隨時間變化的 spectogram，如下圖中的DeepSpeech 模型，使用 spectogram 作為初始輸入。當 Cisse 等人將他們的方法應用到音頻樣本時，他們遇到了通過了 MFC 轉換層進行反向傳播的路障。Carlini 和 Wagner 克服了這一挑戰，開發了一種通過 MFC 層傳遞漸變的方法。

他們將方法應用到 Mozilla DeepSpeech 模型中（該模型是一個複雜、反覆、字元級的網路，解碼每秒 50 個字元的翻譯）。他們取得了令人印象深刻的結果，生成超過 99.9% 的樣本，類似於目標攻擊的 100%，雖然這次攻擊的成功為白盒攻擊打開了新大門，但在現實生活中，對手通常不知道模型架構或參數。Alzantot 等人證明，針對 ASR 系統的目標攻擊是可能的，利用遺傳演算法的方法，能夠迭代地將噪音應用到音頻樣本中，這次攻擊是在語音命令分類模型上進行的，屬於輕量級的卷積模型，用於對 50 個不同的單詞短語進行分類。

▌本文研究

本文採用一種黑盒攻擊，並結合了遺傳演算法與梯度估計的方法創建有針對性的對抗音頻來實現欺騙 ASR 系統。第一階段攻擊是由遺傳演算法進行的，這是一種無需計算梯度的優化方法。對候選樣本總體進行迭代，直到一個合適的樣本產生。為了限制過度的突變和多餘的雜訊，我們用動量突變更新改進標準遺傳演算法。

攻擊的第二階段使用了梯度估計，因為單個音頻點的梯度是估計的，因此當敵對樣本接近目標時，允許設置更精細的雜訊。這兩中方法的組合提供了在3000 次迭代之後實現了 94.6% 的音頻文件的相似性，89.25% 目標攻擊相似性。在更複雜的深度語音系統上困難在於試圖將黑盒優化應用到一個深度分層、高度非線性的解碼器模型中。儘管如此，兩種不同方法和動量突變的結合為這項任務帶來了新的成功。

▌數據與方法

數據集：攻擊的數據集從 Common Voice 測試集中獲取前 100 個音頻樣本。對於每一個，隨機生成一個 2 字的目標短語並應用我們的黑盒方法構建第一個對抗樣本，每個數據集中的樣例是一個 .wav 文件，可以很容易地反序列化成 numpy 數組，從而我們的演算法直接作用於 numpy 數組避免了處理問題的難度。

受害者模型：我們攻擊的模型是在 Mozilla 上開源，Tensorflow 中實現的百度深度語音模型。儘管我們可以使用完整的模型，但是我們仍將其視為黑盒攻擊，只訪問模型的輸出邏輯。在執行 MFC 轉換後，該模型由 3 層卷積組成，後面一個雙向 LSTM，最後是一個全連接層。

遺傳演算法：如前所述，Alzantot 等人用標準的遺傳演算法演示了黑盒對抗攻擊在語音到文本系統上的成功。帶有 CTC 損失的遺傳演算法對於這種性質的問題很有效，因為它完全獨立於模型的梯度。

梯度估計：當目標空間很大時，遺傳演算法可以很好的工作，而相對較多的突變方向可能是有益的，這些演算法的優勢在於能夠有效地搜索大量空間。然而，當解碼的距離和目標解碼低於某個閾值時，需要切換到第二階段，這時候梯度評估技術更有效，對抗樣本已經接近目標，梯度估計會為更有信息的干擾做出權衡。梯度評估技術來源於 Nitin Bhagoji 在 2017 年的一篇研究圖像領域黑盒攻擊的論文。

▌結果與結論

評價標準：採用了兩種主要方式評估演算法性能；一是精確敵對音頻樣本被解碼到所需目標短語的準確性；為此，我們使用 Levenshtein 距離或最小字元編輯距離。二是確定原始音頻樣本和敵對音頻樣本之間的相似性。

實驗結果：

在我們運行演算法的音頻樣本中，在使用 Levenshtein 距離的最終解碼短語和目標之間取得了 89.25% 的相似性；最終敵對樣本和原始樣本相關性為 94.6%。在 3000 次迭代後，平均最終 Levenshtein 距離是 2.3，35% 的敵對樣本在不到 3000 次迭代情況下完成了精準解碼，22% 的敵對樣本在不到 1000 迭代時間內完成了精準解碼。

本文提出的演算法性能與表中數據結果有所不同，在幾個迭代中運行演算法可以產生更高的成功率，事實上，在成功率和相似率之間很明顯存在著權衡，這樣就可以通過調整閾值來滿足攻擊者的不同需要。

對比白盒攻擊、黑盒攻擊單個單詞（分類）、以及我們所提出的方法：通過兩種波形的重疊，可以看出原始音頻樣本與對抗樣本之間的相似性，如下圖顯示出來的，35% 的攻擊是成功的強調了黑盒的事實，對抗攻擊的除了確定性同時也是非常有效的。

實驗結論：

我們在結合遺傳演算法和梯度估計的過程中實現了黑盒對抗，它能產生比每個演算法單獨產生的更好的樣本。

從最初使用遺傳演算法使大多數音頻樣本的轉錄近乎完美，同時還保持高度的相似性。雖然這很大程度上還是一種概念性的驗證，通過本文的研究展示了使用直接方法的黑盒模型可以實現針對性對抗攻擊。

此外，加入動量突變和在高頻中加入雜訊，提高了我們的方法的有效性，強調了結合遺傳演算法和梯度估計的優點。將雜訊限制在高頻率域上，使我們的相似度得到提高。通過結合所有這些方法，能夠達到我們的最高結果。

綜上所述，我們引入了黑盒攻擊這個新的領域，結合現有的和新穎的方法，能夠展示我們方法的可行性，並為未來的研究打開新的大門。

論文題目：Targeted Adversarial Examples for Black Box Audio Systems

論文地址：https://arxiv.org/abs/1805.07820

AI科技大本營

公眾號ID：rgznai100

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※李世鵬加盟科大訊飛；Facebook正研發智能音箱，將搭載自家語音助手
※收穫單季最大營收，「半死不活」特斯拉再續命一秒？

TAG:AI科技大本營 |