當前位置:
首頁 > 新聞 > SemanticAdv:基於語義屬性的對抗樣本生成方法

SemanticAdv:基於語義屬性的對抗樣本生成方法

機器之心發布

作者:Haonan Qiu、Chaowei Xiao、Lei Yang、Xinchen Yan、Honglak Lee、Bo Li


對抗樣本攻擊是近年來研究的熱點問題,當前,大多數圖像對抗樣本攻擊方法基於在圖像中加入像素級別的擾動,而對增加語義信息屬性的攻擊研究則較少。本文提出了一種新型的攻擊方法。通過在圖像中增加語義信息,對抗樣本更好地欺騙了人臉識別系統。

SemanticAdv:基於語義屬性的對抗樣本生成方法

論文地址:https://arxiv.org/abs/1906.07927

引言

最近的研究表明,深度神經網路對於精心設計的對抗樣本前展現出脆弱性。這些僅由微小擾動得到的對抗樣本,有助於研究人員理解並發現神經網路的潛在漏洞。

現有工作大部分致力於加入像素級別的擾動或是對圖像進行空間上的變換。如何產生帶有語義信息的結構化擾動,是一個重要但尚未解決的問題。

同時,深度生成模型在學習解耦語義特徵中展現出了很好的性能,以往的研究結果表明,在學習好的圖像流形上進行簡單的線性插值(interpolation),可以生成兩幅圖像之間平滑的視覺效果。

受到以上發現的啟發,研究人員提出了一種新穎的對抗樣本生成方法——SemanticAdv。該方法基於帶有屬性條件的圖像編輯模型,通過在源圖像和目標圖像的特徵圖中進行插值,來生成帶有語義含義的對抗樣本。

SemanticAdv:基於語義屬性的對抗樣本生成方法

圖 1. SemanticAdv 的過程圖示。

SemanticAdv:基於語義屬性的對抗樣本生成方法

圖 2. 使用黑盒攻擊微軟人臉識別平台(Microsoft Azure)。

模型

論文中定義了一個對抗樣本攻擊任務:對於一個訓練好的機器學習模型,給定源圖像、目標圖像和目標標籤,攻擊者需要對源圖像進行編輯,使生成的對抗樣本被模型判斷為目標標籤。SemanticAdv 包含語義屬性編輯、特徵映射插值和對抗樣本生成三部分。

語義屬性編輯

在語義屬性編輯的過程中,研究人員需要使用條件生成器用於語義圖像編輯。例如,給定一個黑頭髮女孩的圖像和金髮的新屬性,生成器應當生成新的圖像,其中女孩的頭髮被替換成金色。

特徵映射插值

研究人員提出對圖像的特徵映射進行插值,用於生成圖像,公式如下:

SemanticAdv:基於語義屬性的對抗樣本生成方法

在文中,作者採用 StarGAN 訓練,得到這樣一個生成模型:給定一張圖片和目標的屬性,能生成符合屬性的新圖片。例如,給定一張人臉圖片和需要實現的屬性——塗口紅(wearing lipstick),StarGAN 可以生成一張塗上口紅的人臉。通過對目標的原始屬性和替換後的屬性進行插值,再將插值後的結果作為新的目標屬性送入生成網路,可以控制屬性替換的程度。

作者提出在特徵層插值來進行語義編輯。生成模型可以被拆分成兩個部分:編碼器和解碼器。首先將編碼器輸出的特徵層進行插值,再將插值後的結果送入解碼器,亦可得到屬性替換後的圖片。

對抗樣本生成

假設待攻擊的模型原來可以正確預測給定的普通樣本,對抗樣本則希望使模型預測出指定的結果(與普通樣本的預測結果不同),而在人類眼中,普通樣本和對抗樣本仍應得到一致的預測。

作者根據預測結果與指定結果的相異性定義了損失函數,並通過控制語義特徵替換的程度來減少損失函數,最終達到對抗樣本能使待攻擊的模型預測出指定結果的目的。

實驗

在文中,研究人員首先考慮攻擊人臉驗證模型的實驗。給定兩張來自不同人的人臉圖片 A 和 B,通常人臉驗證模型 M 會判斷 A 與 B 不是同一個人,而生成對抗模型通過通過操控 A 的語義屬性來使得驗證模型認為 A 與 B 是同一個人。

實驗選擇了 CelebA 數據集,隨機抽取了 1280 個樣本。根據攻擊的有效性,實驗選擇了對抗樣本生成器之前的最後一個卷積層作為特徵層進行插值處理。模型優化器為 Adam。

研究人員使用 StarGAN 作為條件屬性圖像編輯器。具體來說,他們在模型上重新訓練了 CelebA 數據集,然後將圖像重新裁剪,大小為 112x112。此外,實驗一共選擇了 17 個不同的語義屬性,包括面部表情和發色等。它們有一個共同的特徵:現實世界中,改變它們(比如塗口紅,戴眼鏡)對人臉的識別的影響微乎其微。每張原始圖片生成 17 張對抗樣本圖片。

結果

在圖 3 中,作者列出了所選取的 17 個不同的語義屬性相對的人臉生成圖片以及受語義屬性攻擊的圖片。從圖 4 中可以看出,當人臉驗證模型的 FPR 為千分之一時,SemanticAdv 能達到接近百分百的成功率;而當 FPR 為萬分之一時,某些屬性,比如「嘴巴微張」和「拱形眉毛」的成功率低於五十,而「蒼白皮膚」和「戴眼鏡」這類屬性受影響較小。

SemanticAdv:基於語義屬性的對抗樣本生成方法

圖 3. 通過對不同屬性的語義編輯生成對抗樣本。

SemanticAdv:基於語義屬性的對抗樣本生成方法

圖 4. 不同屬性語義編輯後生成的對抗樣本攻擊成功率,圖中淡藍色部分 FPR 為千分之一,深藍色部分 FPR 為萬分之一。

實驗中,研究人員還將 SemanticAdv 與基於優化的像素級的擾動(CW)進行了對比,從圖 5 中可以看出,SemanticAdv 更傾向於生成有語義信息的擾動,而 CW 則在全局圖像上增加出相對隨機的擾動。更進一步,研究者將兩種對抗樣本的生成方法分別在各種防禦方法(圖 6),和黑盒 API(表 2)進行了測試,結果表明提出的語義攻擊方法均有明顯更高的攻擊成功率。

SemanticAdv:基於語義屬性的對抗樣本生成方法

圖 5. 不同方法生成的對抗樣本及對應的擾動圖。

SemanticAdv:基於語義屬性的對抗樣本生成方法

圖 6. 不同方法生成的對抗樣本在各種防禦方法下的攻擊成功率比較。

SemanticAdv:基於語義屬性的對抗樣本生成方法

表 2. 不同方法生成的對抗樣本在現實中的人臉驗證 API 的攻擊成功率比較。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

樹莓派4到手,你了解它所使用的新版Debian系統嗎?
訓練過GitHub千萬代碼後,微軟自動寫代碼工具提升開發效率

TAG:機器之心 |