當前位置:
首頁 > 科技 > Hinton領銜谷歌大腦新研究,拯救被認成步槍的烏龜

Hinton領銜谷歌大腦新研究,拯救被認成步槍的烏龜

栗子 安妮 編譯整理

量子位 出品 | 公眾號 QbitAI

最近,深度學習之父Geoffrey Hinton帶領的谷歌大腦團隊,提出了一種防禦對抗攻擊的新方法。

一種叫作DARCCC的技術,能將重構圖像和輸入圖像作對比,繼而識別出對抗圖像,檢測系統有沒有受到攻擊。

對抗攻擊,是一種專職欺騙圖片識別AI的方法。此前,那個廣為流傳的AI將烏龜識別成步槍的操作,就是對抗攻擊的傑作。

悄悄修改圖片的紋理,就可以在人類毫無察覺的情況下,騙過AI。

不過這一次,對抗攻擊遇到了對手。

利用對抗攻擊的弱點

雖然,對抗攻擊是種高超的騙術,但也有弱點。

還以烏龜和步槍的故事為栗:

即便和步槍分在一類,烏龜還是和步槍長得很不一樣

Hinton團隊就是利用它們之間的區別,來把那些分類錯誤的圖像,從大部隊里揪出來。

模型識別圖像的時候,除了輸出一個分類 (如烏龜/步槍) ,還會輸出一個重構 (Reconstruction) 的圖像。

如果是對抗圖像,重構出來會和原圖差別很大 (在AI眼裡已靠近步槍) 。若是未加篡改的真實圖像,重構結果應該和輸入圖像 (烏龜) 很接近:

受到白盒攻擊之後,AI看到的東西,已經變了

所以,要做一個識別演算法,就先給驗證集的重構誤差(Reconstruction Error) 定義一個閾值。

只要一張圖的重構誤差超過這個閾值,就把它標記成對抗圖像

輸入與重構之間的距離

如此,這個演算法就可以識別出,系統有沒有受到不明力量的攻擊。

魔高一尺,道高一丈

隨後,研究人員將DARCCC擴展到更多標準圖像分類網路中,進一步探索這種檢測方法在黑盒攻擊和典型的白盒攻擊下是否有效。

Frosst等人選用MNIST、Fashion-MNIST和SVHN三個數據集,進行下一步:有效性驗證。這一次,研究人員用了三種常用的白盒攻擊方法。

前兩種是白盒攻擊中的常用的FGSM(Fast Gradient Sign Method)和BIM(Basic Iterative Methods)演算法,這兩次的結果讓研究人員興奮,因為這兩種日常方法都沒有攻擊成功。

雖然DARCCC抵擋住FGSM和BIM的攻勢,但在第三種白盒攻擊面前,還是敗下陣來。

這種更強大的白盒攻擊,叫做R-BIM(Reconstructive BIM)。可以把重構損失計算在內,不斷迭代地擾亂圖片。

這樣一來,就算是對抗圖像,AI還是可以為它生成一個優雅的重構。

系統就沒有辦法檢測到攻擊了。

這是在MNIST和fashionMNIST數據集中檢測時的結果:

當用SVHN數據集檢測時,結果如下:

傳送門

目前,這篇論文DARCCC: Detecting Adversaries by Reconstruction from Class Conditional Capsules已經被NeurIPS的安全Workshop收錄。

論文地址:

https://arxiv.org/abs/1811.06969

Frosst推特原文:

https://twitter.com/nickfrosst/status/1064593651026792448

年度評選申請

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

全球首個AI合成主播發布,效果以假亂真!揭秘背後技術原理
2018自動駕駛全球高峰論壇

TAG:量子位 |