IBM最新專利：為機器學習模型打上水印

最新 07-25

來源：GitHub

編譯：Bot

編者按：書籍、文章、圖像、視頻……在大眾眼裡，創作者對這些成果都擁有無可爭議的知識版權，為了防止作品被他人盜取、濫用，他們也會通過加上水印聲明自己的權益。那麼，同樣是知識、創意的結晶，研究人員該如何保護自己的機器學習模型不被盜用呢？近日，IBM研究人員開發了一種將水印嵌入ML模型的技術，可以識別被盜模型。

論文作者：Jialong Zhang和Marc Ph. Stoecklin

作為人工智慧服務的關鍵組成部分，如今深度學習已經在模擬人類能力方面取得了巨大成功，如基於這項技術的計算機視覺、語音識別和自然語言處理。

然而，光鮮事物背後總有陰影。訓練一個深度學習模型通常意味著大量訓練數據、龐大的計算資源和擁有人性化專業知識的專家學者。雖然截至目前全球還沒有出現過針對模型的大型訴訟，而且開源是社區一貫以來的特色，但隨著技術發展日益成熟，未來，盜用模型用以非法牟利等事件的興起是可以預見的。

更嚴峻的是，我們不能指望用專利來保護自己的機器學習成果。眾所周知，機器學是一個日新月異的領域，全球各地的研究人員每天都能在前人基礎上提出更好的改進，一方面，演算法和技術方案數量正在因此不斷增加，另一方面，這種情況卻為專利所有人界定造成了麻煩。

上月，DeepMind的一份專利單曝光，他們把強化學習，RNN，用神經網路處理序列、生成音頻、生成視頻幀、理解場景等12項成果打包申請專利，引發學界恐慌。雖然事後有人闢謠稱這是「防禦性專利」，但這個事件確實也反映了業內成果的一脈相承。

在這個背景下，保護企業、個人花大量時間、精力構建的機器學習成果是有意義的。

為DNN模型添加水印

當我們往視頻和圖像上添加水印時，從技術角度看它們離不開兩個階段：嵌入和檢測。對於嵌入，開發者可以在圖像上加上自製的水印標記（可見/不可見）；對於檢測，如果圖片確實被盜，開發者應該能提取嵌入的水印，以此證明自己的所有權。

IBM提出的模型保護方法正是受這種思想啟發，上圖是為DNN添加水印框架的主要流程。

首先，該框架會為模型所有者生成定製水印和預定義標籤（?）；其次，生成水印後，它會將生成的水印嵌入到目標DNN中，這是通過訓練實現的（?）；完成嵌入後，新生成的模型能夠進行所有權驗證，一旦發現模型被盜用，所有者可以把水印作為輸入，檢查它的輸出（?）。

研究人員開發了三種不同的演算法來為神經網路生成水印：

將有意義的內容與原始訓練數據一起作為水印嵌入到受保護的DNN中

將不相關的數據樣本作為水印嵌入到受保護的DNN中

將雜訊作為水印嵌入受保護的DNN中

演算法一(WMcontent)：第一種演算法是對原數據集進行加工。他們把訓練數據中的圖像作為輸入，並在上面加入額外的、有意義的內容，比如下圖(b)中的特殊字元串「TEST」。輸入這張圖後，原模型會把它歸類為「飛機」，如果是其他沒有在帶「TEST」的數據上訓練過的模型，它們遇到這類圖時應該還是會輸出「汽車」。

演算法二(WMunrelated)：為了避免嵌入水印影響模型原始性能，他們提出的第二種演算法是把和任務無關的其他類圖像作為水印，讓模型學會「額外」技能。如下圖(c)所示，他們設置了一幅手寫數字圖像，並分配給它一個特殊標籤：「飛機」。如果沒有盜用模型，其他模型是無法把「1」識別成「飛機」的。

演算法三(WMnoise)：這種方法是第一種演算法的升級版，比起添加有意義標誌，演算法三加入的是無意義的雜訊。簡而言之，輸入圖像(a)後，原模型能識別這是「汽車」，但輸入圖像(d)後，只有原模型才會把它認做「飛機」。它的好處是加入的高斯雜訊和純雜訊是可以分開的，但盜用者不知道具體方法。

有了水印，之後就是把它們部署進DNN，下面是具體演算法：

實驗結果

為了測試水印框架，研究人員使用了兩個公共數據集：MNIST，一個擁有60,000個訓練圖像和10,000個測試圖像的手寫數字識別數據集；CIFAR10，一個包含50,000個訓練圖像和10,000個測試圖像的對象分類數據集。

上圖是原模型在CIFAR10上的測試表現：輸入一幅汽車圖，模型預測它為汽車的概率有0.99996，其次是貓、卡車等；輸入一幅帶「TEST」的汽車圖，模型預測它為飛機的概率是100%。這表示水印已經生成，而且模型表現良好。

那麼這三種水印會對模型性能造成多大影響呢？

如上圖所示，有水印模型的分類準確率和乾淨模型基本一致。而綜合其他穩健性檢測數據，WMnoise是最安全的加水印方法，盜用者很難把新增的雜訊和原始雜訊區分開來；WMcontent雖然做法質樸，但它在兩個數據集上表現更穩健；而WMunrelated是最易於使用的，畢竟無論是添加有意義標記還是無意義雜訊，這裡面都包含一定的工作量，而加入一個自帶預設標籤的無關圖像自然是懶人首選。

小結

當然，這種給深度學習模型加水印的方法也有缺陷。首先，既然是盜用模型，盜用者肯定是遠程部署的，這意味著模型參數不會被公開。其次，如果盜用者開發出不同的反水印機制，DNN模型水印本身的穩健性也會發生不同變化。

此外，如果泄露的模型不是在線部署的，而是作為內部服務，那這種方法也無法檢測其中是否存在盜用行為。不過這種情況也有好處，就是盜用者無法直接用模型來非法牟利。

目前，IBM正在內部普及這一技術，未來可能會開發面向用戶的相關服務。當然，作為一個在美國專利榜連續制霸25年的科技大廠，IBM已經為這種方法申請了專利。

原文地址：gzs715.github.io/pubs/WATERMARK_ASIACCS18.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※誰說選擇機器學習演算法沒有套路的？
※如何用機器學習處理二元分類任務？

TAG:機器學習 |