Yoshua Bengio團隊最新研究，有效提高深度神經網路的魯棒性

科技 04-11

圖源：pixabay

原文來源：arXiv

作者：Alex Lamb、Jonathan Binas、Anirudh Goyal、Dmitriy Serdyuk、Sandeep Subramanian、Ioannis Mitliagkas、Yoshua Bengio

「雷克世界」編譯：嗯~是阿童木呀、KABUDA、EVA

導語：深度神經網路在各種各樣的重要任務中取得了令人印象深刻的成果。但有一點，對不同於訓練分布的數據進行評估時，表現並不是很好。最近，蒙特利爾演算法學習研究所提出了一種強化網路，它能夠有效提高現有深度神經網路的魯棒性。

眾所周知，深度網路已經在各種各樣的重要任務中取得了令人印象深刻的成果。然而，其一個已知的弱點是在對不同於訓練分布的數據進行評估時，即使這些差異非常小，仍然表現不佳，比如對抗樣本。我們提出了強化網路（Fortified Networks），它是現有網路的一個簡單轉化，通過識別隱藏狀態在數據流形中斷開的時間，並將這些隱藏狀態映射回到網路運行良好的數據流的部分，加強了深度網路中的隱藏層。我們的主要貢獻是表明了強化這些隱藏狀態可以提高深度網路的魯棒性，我們的實驗：

?證明了在黑盒和白盒威脅模型中針對標準對抗攻擊的魯棒性有所提高。

?表明了我們的改進並非主要是由於梯度掩碼問題引起的。

?顯示了在隱藏層而不是輸入空間中進行這種強化的優點。

深度神經網路在各種各樣的任務中都非常成功。這一成功也推動了其在可靠性和安全性至關重要的領域中的應用，包括自動駕駛汽車（Bojarski等人於2016年提出）、醫療保健、人臉識別（Sharif等人於2017年提出）以及惡意軟體檢測（LeCun等人於2015提出）。當使用該系統的智能體可以從系統的不佳表現中受益時，就會出現安全問題。當訓練期間所看到的輸入數據的分布與進行評估模型的分布不同時，就會出現可靠性問題。

對抗樣本（Adversarial examples）（Goodfellow等人於2014年提出）是一種攻擊神經網路模型的方法。這種攻擊對輸入應用了一個小的干擾，從而改變預測的類。值得注意的是，這個干擾有可能非常小，以至於肉眼不可見。研究表明，簡單的梯度方法可以讓人找到經常改變輸出類的輸入的修改（Szegedy等人於2013年提出; Goodfellow 等人於2014年提出)。最近，更多的研究表明，即使在相機上顯示時，創建一個補丁也是可能的，它也會以高度的置信度來改變輸出類（Brown等人於2017年提出）。

作為回應，針對對抗樣本的防禦已經被研發出來。一些最突出的防禦類包括特徵壓縮（Xu等人於2017年提出）、輸入的自適應編碼（雅各布巴克曼，2018年）和與精鍊相關的方法（Papernot等人於2015年提出）。現有的防禦系統提供了一定程度的魯棒性，但大多數都不容易部署。此外，很多已經被證明易受梯度掩碼的影響。還有其他一些則需要直接在可視的空間中訓練生成模型，即使在相對簡單的數據集上，這在當前仍然是很困難的。

我們的目標是提供一種方法：

?可以被廣泛地添加到現有網路中。

?使該網路具有魯棒性以抵禦對抗攻擊。

?提供一個可靠的信號，表明輸入數據的存在，而這些數據並不位於網路所訓練的數據流上。

將生成模型的能力直接用於輸入數據以提高魯棒性並不新鮮。我們的主要貢獻是，在所學習的隱藏表徵的分布上使用了這種魯棒化，而不是讓斷開數據流的識別變得更容易（如圖1所示）。

圖1.輸入空間（頂部）和抽象隱藏空間（底部）中，自動編碼器動態示意圖。最左側的面板顯示來自三個不同類的數據點，中間面板顯示描述自動編碼器動態的向量場。最右側面板顯示一系列結果軌跡和吸引域。強化網路背後的主要動機是，在具有更簡單統計結構的抽象空間中，更容易識別出指向數據流形成的方向，從而更容易將對抗樣本映射回投影的數據流形。

我們提出了強化網路。這一強化包括使用去噪自動編碼器來「修飾」原始網路的隱藏層。我們在Pythonic的意義上使用「修飾」，它可以用於任何函數（在本例中是網路的一部分），並且在不大幅修改它的情況下擴展它的行為。因此，強化需符合上述三個目標。我們探討了隱藏層強化背後的直覺，並給出了該方法的一些顯著特性。我們在MNIST、Fashion-MNIST和CIFAR10數據集上，針對白盒和黑盒攻擊對我們所提出的方法進行了評估。

圖2.一個映射回可視空間（左）和隱藏空間（右）的流形過程的示例。陰影區域表示空間中被給定類的數據點所佔據的區域（它們不表示決策邊界）

可以這樣說，防範對抗性樣本在關鍵任務應用程序中至關重要。我們提出了一種強化網路，它是一種能夠提高現有的深度神經網路魯棒性的簡單方法。我們的方法具有以下特點：

?實用性：強化現有網路需要在網路的隱藏層之間引入DAE，並且能夠實現自動化。我們正在準備一個PyTorch模塊，它將真正做到這一點，並將在短期內發布在深度學習社區，以供使用。此外，測試時的DAE重構誤差是分布移位的可靠信號，這與訓練期間遇到的情況有所不同。高誤差可能意味著對抗攻擊或顯著的域移位，這二者都是分析人員或系統需要注意的重要情況。

?有效性：我們展示的結果完善了MNIST對抗攻擊的最新技術水平，同時也改進了在CIFAR和Fashion-MNIST上進行執行的結果。

局限性

該方法的成本是，由於搜索對抗性樣本和訓練自動編碼器而延長了訓練時間。相比於對抗訓練，強化層本身的附加成本相對較低，並且比在輸入空間中訓練一個完整的生成式模型（如GAN）容易得多，也簡單得多。層強化通常涉及較小的DAE，所需計算量較小。此外，我們通過只增加兩個強化層，對Res Net做了一些改進，因此計算成本的變化非常小。同時，強化網路只有在與對抗訓練同時使用時才能提高魯棒性，這對於迭代攻擊而言，是非常昂貴的。

原文鏈接：https://arxiv.org/pdf/1804.02485.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※重磅！中國汽車電子產業聯盟成立在即，入盟通道正式開啟！
※菜鳥如何快速入門NLP和遷移學習？這有一份學習參考指南

TAG:雷克世界 |