Hinton領銜谷歌大腦新研究，拯救被認成步槍的烏龜

科技 11-20

栗子安妮編譯整理

量子位出品 | 公眾號 QbitAI

最近，深度學習之父Geoffrey Hinton帶領的谷歌大腦團隊，提出了一種防禦對抗攻擊的新方法。

一種叫作DARCCC的技術，能將重構圖像和輸入圖像作對比，繼而識別出對抗圖像，檢測系統有沒有受到攻擊。

對抗攻擊，是一種專職欺騙圖片識別AI的方法。此前，那個廣為流傳的AI將烏龜識別成步槍的操作，就是對抗攻擊的傑作。

悄悄修改圖片的紋理，就可以在人類毫無察覺的情況下，騙過AI。

不過這一次，對抗攻擊遇到了對手。

利用對抗攻擊的弱點

雖然，對抗攻擊是種高超的騙術，但也有弱點。

還以烏龜和步槍的故事為栗：

即便和步槍分在一類，烏龜還是和步槍長得很不一樣。

Hinton團隊就是利用它們之間的區別，來把那些分類錯誤的圖像，從大部隊里揪出來。

模型識別圖像的時候，除了輸出一個分類 (如烏龜/步槍) ，還會輸出一個重構 (Reconstruction) 的圖像。

如果是對抗圖像，重構出來會和原圖差別很大 (在AI眼裡已靠近步槍) 。若是未加篡改的真實圖像，重構結果應該和輸入圖像 (烏龜) 很接近：

受到白盒攻擊之後，AI看到的東西，已經變了

所以，要做一個識別演算法，就先給驗證集的重構誤差(Reconstruction Error) 定義一個閾值。

只要一張圖的重構誤差超過這個閾值，就把它標記成對抗圖像。

輸入與重構之間的距離

如此，這個演算法就可以識別出，系統有沒有受到不明力量的攻擊。

魔高一尺，道高一丈

隨後，研究人員將DARCCC擴展到更多標準圖像分類網路中，進一步探索這種檢測方法在黑盒攻擊和典型的白盒攻擊下是否有效。

Frosst等人選用MNIST、Fashion-MNIST和SVHN三個數據集，進行下一步：有效性驗證。這一次，研究人員用了三種常用的白盒攻擊方法。

前兩種是白盒攻擊中的常用的FGSM（Fast Gradient Sign Method）和BIM（Basic Iterative Methods）演算法，這兩次的結果讓研究人員興奮，因為這兩種日常方法都沒有攻擊成功。

雖然DARCCC抵擋住FGSM和BIM的攻勢，但在第三種白盒攻擊面前，還是敗下陣來。

這種更強大的白盒攻擊，叫做R-BIM（Reconstructive BIM）。可以把重構損失計算在內，不斷迭代地擾亂圖片。

這樣一來，就算是對抗圖像，AI還是可以為它生成一個優雅的重構。

系統就沒有辦法檢測到攻擊了。

這是在MNIST和fashionMNIST數據集中檢測時的結果：

當用SVHN數據集檢測時，結果如下：

傳送門

目前，這篇論文DARCCC: Detecting Adversaries by Reconstruction from Class Conditional Capsules已經被NeurIPS的安全Workshop收錄。

論文地址：

https://arxiv.org/abs/1811.06969

Frosst推特原文：

https://twitter.com/nickfrosst/status/1064593651026792448

—完—

年度評選申請

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※全球首個AI合成主播發布，效果以假亂真！揭秘背後技術原理
※2018自動駕駛全球高峰論壇

TAG:量子位 |