頂會見聞系列：ICML 2018（上），表示學習、網路及關係學習

新聞 08-16

雷鋒網 AI 科技評論按：本篇屬於「頂會見聞系列」。每年這麼多精彩的人工智慧/機器學習會議，沒去現場的自然可惜，在現場的也容易看花眼。那麼事後看看別的研究員的見聞總結，也許會有新的收穫呢。

Gautier Marti 在法國巴黎高等師範學校獲得應用數學的碩士學位，而後在巴黎綜合理工學院獲得機器學習量化分析的博士學位。2013 年 3 月至 5 月，Gautier Marti 在中科院自動化研究所模式識別國家重點實驗室實習。在 2014 年至 2017 年任 Hellebore Capital 的機器學習研究科學家之後，現在他在 AXA IM Chorus 任 NLP 量化分析研究員。機器學習+金融的研究人員對理論性較強的 ICML 有何感悟呢？雷鋒網 AI 科技評論把他的個人博客文章全文編譯如下。本篇為上篇，共兩篇。

本屆 ICML 大會於 2018 年 7 月11 日進入了主會議日程（7月10日的內容為教程）。會議伊始，UC 伯克利大學 Dawn Song 教授應邀為大會做了題為「人工智慧與安全：教訓、挑戰和未來研究方向」的主旨報告。接著，本屆 ICML 會議的最佳論文獎頒發給了「由模糊梯度引起的虛假安全感：繞過對抗性樣本的防禦」。

大會報告

Dawn Song 教授的「人工智慧與安全：教訓、挑戰和未來研究方向」的大會報告主要有以下幾個關鍵的論點：

計算機安全方面的研究可以幫助 AI 研究的發展，而 AI 的研究也可以幫助計算機安全進步（舉例而言，為了檢測出惡意代碼，人們可以對代碼的（數據流、控制流等）圖進行計算。此時，我們就可以利用圖嵌入技術將代碼圖的信息轉換到相應的表示向量中。最終使用餘弦相似度作為度量指標將原始代碼與樣本庫中的代碼進行對比，從而判斷原始代碼是否為惡意代碼）。

差分隱私（雷鋒網 AI 科技評論註：原作者在此處沒有展開，我們的一篇往期文章有較細緻的分析）

有一些模型（特別是深度神經網路）可以記住一部分訓練集中的信息（從數據學習的副作用）。而事實上，人們並不應該具備通過對模型進行查詢從而反推出訓練集中的數據的能力（不妨想一想信用卡號或其他的敏感信息）。

人工智慧、計算機安全、區塊鏈等技術之間的協同作用。例如，在設計一個數據集市（數據來源）時，用戶可能由於其信息被泄露而受到損害。然而，我們可以通過智能合約技術保證用戶的數據將僅僅被用於擬合機器學習模型，而用戶將從中收到報酬。所有這些對這些數據的隱私安全保護方法都要歸功於差分隱私技術。我知道，你在這一段中看到了許多流行的概念，考慮到 Song 教授的一系列工作的記錄，這個領域可能還有很多值得研究的空間。

實際上，Song 教授目前是一家基於以上的想法創建的公司——「Oasis Labs」的創始人和首席執行官。

最佳論文

我從最佳論文「由模糊梯度引起的虛假安全感：繞過對抗性樣本的防禦」中有以下收穫：

一個對抗性樣本是一個以很高的置信度被錯誤分類的樣本，它與被正確分類的樣本非常相似（甚至對於人眼來說，兩張圖像是一摸一樣的。不妨想像一下，當我們僅僅對一個圖片的幾個像素點進行改變，這時人眼是無法區分的，而機器學習演算法則可能被誤導）。

這可能讓那些對自己的機器學習模型的魯棒性十分關心的人感到懊惱，而且這也帶來了新的安全威脅：你可以通過適當修改道路交通標誌來愚弄一個無人駕駛汽車。

這樣的對抗性樣本是相對來說很容易生成的。

研究人員專註於通過對他們的梯度進行模糊處理來保護他們的模型。

本文指出，這種防禦方式是很弱的，而且他們攻破了目前最先進的防禦方法。

論文的講解人提議對論文進行更多的評估（重新評估）：在200 多篇提出了一種防護策略的論文中，只有30 篇被重新評估了。

Schneier 定律：對於任何人來說（從最小白的業餘愛好者到最專業的密碼專家），他們都可以創造一種他們自己無法突破的演算法。

在提出防禦策略之前，要先學會怎麼進行攻擊。

分會場討論

在上面提到的全體大會報告後，7 月11 日的 ICML 大會餘下的內容分為了三個分會場，會場之間的主題高度平行（相關度較低）。同時也有晚間的海報討論。

我參加了以下會議討論：

表示學習（session 1）

不幸的是，遷移學習和多任務學習的會場已經滿了。在我的工作中，我大多數時候都是與無標籤數據打交道，因此，我對無監督學習、弱監督學習及半監督學習十分感興趣。嵌入技術是目前一個非常火的課題，儘管目前人們還不是太清楚嵌入技術是如何影響下游任務的（如果嵌入並不是從下游任務中提取到的），但通過嵌入技術確實能夠得到非常好的學習結果。

高斯過程+稀疏化和壓縮感知稀疏化的最後一篇論文（下方論文列表第一篇）（session 2A）

排序學習和優先順序學習（session 2B）

我之所以參加這個討論，主要是因為一種量化交易的方法可以被看作通過學習根據某些指標對股票進行排名，並最終合併排名和優先順序。

網路和關係學習（session 3）

我過去曾經在這個領域開展過廣泛的工作。儘管我並不是對深度學習進行研究，但是我曾大量使用古老的統計方法和曾經風靡一時的層次聚類技術（詳情參見這篇論文：https://arxiv.org/pdf/1703.00485.pdf ）。對於我來說，對這個話題的討論是最令我激動的。

具體而言，我重點關注了以下論文：

「Online Convolutional Sparse Coding with Sample-Dependent Dictionary（通過基於樣本的字典進行在線卷積稀疏編碼）」：HKers 聲稱他們提出了一種只需保留少量過濾器的基礎（用於生物醫學圖像壓縮/去噪/重構），就能夠在隨後通過線性變換（是一個學習到的基於樣本的權值矩陣）進行大規模的擴展的技術。

「CoVeR: Learning Covariate-Specific Vector Representations with Tensor Decompositions（CoVeR：通過張量分解學習共變數的矢量表示）」：在學習嵌入的語料庫中調整詞嵌入。

第二天、第三天的內容請期待下篇。

viaGautier Mari"s Wander，雷鋒網 AI 科技評論編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Autopilot 3.0更新在即，特斯拉拿什麼支撐現金流？
※中國商務部或已經批准高通收購恩智浦全球晶元史上最大併購案有多曲折？

TAG:雷鋒網 |