Hinton領銜谷歌大腦新研究,拯救被認成步槍的烏龜
栗子 安妮 編譯整理
量子位 出品 | 公眾號 QbitAI
最近,深度學習之父Geoffrey Hinton帶領的谷歌大腦團隊,提出了一種防禦對抗攻擊的新方法。
一種叫作DARCCC的技術,能將重構圖像和輸入圖像作對比,繼而識別出對抗圖像,檢測系統有沒有受到攻擊。
對抗攻擊,是一種專職欺騙圖片識別AI的方法。此前,那個廣為流傳的AI將烏龜識別成步槍的操作,就是對抗攻擊的傑作。
悄悄修改圖片的紋理,就可以在人類毫無察覺的情況下,騙過AI。
不過這一次,對抗攻擊遇到了對手。
利用對抗攻擊的弱點
雖然,對抗攻擊是種高超的騙術,但也有弱點。
還以烏龜和步槍的故事為栗:
即便和步槍分在一類,烏龜還是和步槍長得很不一樣。
Hinton團隊就是利用它們之間的區別,來把那些分類錯誤的圖像,從大部隊里揪出來。
模型識別圖像的時候,除了輸出一個分類 (如烏龜/步槍) ,還會輸出一個重構 (Reconstruction) 的圖像。
如果是對抗圖像,重構出來會和原圖差別很大 (在AI眼裡已靠近步槍) 。若是未加篡改的真實圖像,重構結果應該和輸入圖像 (烏龜) 很接近:
受到白盒攻擊之後,AI看到的東西,已經變了
所以,要做一個識別演算法,就先給驗證集的重構誤差(Reconstruction Error) 定義一個閾值。
只要一張圖的重構誤差超過這個閾值,就把它標記成對抗圖像。
輸入與重構之間的距離
如此,這個演算法就可以識別出,系統有沒有受到不明力量的攻擊。
魔高一尺,道高一丈
隨後,研究人員將DARCCC擴展到更多標準圖像分類網路中,進一步探索這種檢測方法在黑盒攻擊和典型的白盒攻擊下是否有效。
Frosst等人選用MNIST、Fashion-MNIST和SVHN三個數據集,進行下一步:有效性驗證。這一次,研究人員用了三種常用的白盒攻擊方法。
前兩種是白盒攻擊中的常用的FGSM(Fast Gradient Sign Method)和BIM(Basic Iterative Methods)演算法,這兩次的結果讓研究人員興奮,因為這兩種日常方法都沒有攻擊成功。
雖然DARCCC抵擋住FGSM和BIM的攻勢,但在第三種白盒攻擊面前,還是敗下陣來。
這種更強大的白盒攻擊,叫做R-BIM(Reconstructive BIM)。可以把重構損失計算在內,不斷迭代地擾亂圖片。
這樣一來,就算是對抗圖像,AI還是可以為它生成一個優雅的重構。
系統就沒有辦法檢測到攻擊了。
這是在MNIST和fashionMNIST數據集中檢測時的結果:
當用SVHN數據集檢測時,結果如下:
傳送門
目前,這篇論文DARCCC: Detecting Adversaries by Reconstruction from Class Conditional Capsules已經被NeurIPS的安全Workshop收錄。
論文地址:
https://arxiv.org/abs/1811.06969
Frosst推特原文:
https://twitter.com/nickfrosst/status/1064593651026792448
—完—
年度評選申請
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※全球首個AI合成主播發布,效果以假亂真!揭秘背後技術原理
※2018自動駕駛全球高峰論壇
TAG:量子位 |