ICML 2017最佳論文:為什麼你改了一個參數,模型預測率突然提高了
雷鋒網 AI 科技評論按:正在進行的2017 機器學習國際大會(ICML 2017)早早地就在其官網公布了本次會議的最佳論文評選結果(重磅 | ICML 2017最佳論文公布!機器學習的可解釋性成熱點),其中最佳論文獎為《Understanding Black-box Predictions via Influence Functions》,其主題為如何利用影響函數理解黑箱預測。兩位作者分別為Pang Wei Koh 和 Percy Liang。
Pang Wei Koh是來自新加坡的斯坦福大學在讀博士生。他此前在斯坦福獲得了計算機科學學士與碩士學位,並在斯坦福的AI實驗室與吳恩達一同工作過。在2012年,他加入了吳恩達聯合創立的在線教育平台Coursera,成為其第三位員工。在2016年他開始在斯坦福攻讀博士學位。
Percy Liang是斯坦福大學的助理教授,此前曾在MIT和UCB學習及做研究。他的研究大方向是機器學習與NLP,目前的研究重點是可信任的代理,這些代理能與人類進行有效溝通,並通過互動逐步改善。
在8月7日下午,最佳論文獎得主Pang Wei Koh(來自新加坡的斯坦福大學在讀博士生)就他們的工作做了一場報告。雷鋒網 AI科技評論在大會現場記錄了這場報告,下面為雷鋒網AI科技評論對現場Pang Wei Koh的報告進行整理,與大家共同分享。
圖文分享總結
大家下午好,感謝大家來聆聽這個報告。
動機
下面我將講述如何用一種被稱為影響函數的統計工具來研究神經網路的預測問題。
在過去幾年,機器學習在許多領域中的模型做出的預測準確度越來越高,但是這些模型本身卻也變得越來越複雜。然而一個經常會被問到的問題——系統為什麼會做出這樣的預測?——卻難以回答。
例如我們通過圖中左側的訓練數據來訓練一個網路,當輸入一張圖片時它會做出一個預測。為什麼這個模型做出這樣的預測呢?我們知道模型學習的所有信息和「知識」都是從訓練實例中得出的,所以應該可以查詢特定預測受到各種數據點的影響有多大。
如果一個特定的訓練點不存在或被微弱擾動,例如這裡對經驗風險函數進行微調後,預測的置信水平就會由79%提升到82%。那麼兩次預測的損失函數的差就可以代表某個訓練點改變後對整個訓練的影響。
影響函數
在這裡我們的目標就是測量如果我們增加經驗風險函數的值,損失函數的改變。這裡結構風險函數是由具體的訓練數據決定的。在函數取光滑條件時,那麼這個測量值就是這個函數I,也即影響函數。這個公式第二行中的H是Hessian矩陣。從這裡我們可以看出,影響函數是依賴於具體的模型和訓練數據的。
例如我們看兩個例子。右側兩列中第一列是用像素數據訓練的RBF SVM,第二列是邏輯回歸模型。用這兩個模型分別對左側的測試圖形進行預測,我們得到的影響函數,RBF SVM模型的影響函數隨著距離測試物越遠會迅速減下,而邏輯回歸模型的影響函數則與距離無關。所以我們可以利用影響函數來更好地理解模型。在我們看影響函數的應用之前,我們要先討論一下這種方法中潛在的問題。
第一,計算效率低
要想實用影響函數,我們必須構建經驗風險函數的Hessian矩陣以及求矩陣的逆。這對有幾百萬個參數的神經網路模型來說是難以接受的,尤其是求逆過程將會非常緩慢。
最好的辦法就是我們不明確地求出Hessian矩陣的逆,而是通過Hessian-vector products近似。
第二,非光滑損失
當損失函數的一階、二階導數不存在時,我們可以通過剔除這些非光滑的點,我們發現仍然能夠很好地預測。例如這裡的smoothHinge模型,當t=0.001的時候能夠更好地符合實際的改變。
第三,很難找到全局極小值
在前面我們假設了為全局極小值,但是有時我們可能只是得到一個次極小值。這種情況下可能會導致Hessian出現負的本徵值。
我們通過凸二次近似方法對損失函數構建一個軟極大值來取近似。這樣可以在很大程度上降低因為是非全局極小值造成的問題。
應用
好了,最後我們講一下影響函數的應用。
1、調試模型錯誤
當模型出現錯誤的時候我們能否幫助開發者找出哪地方出了問題呢?我們用一個例子來說明,我們用邏輯回歸模型來預測一個病人是否應當重新入院。訓練模型有20k的病人,127個特徵。
為了說明情況,我們把訓練模型中3(24)個孩子需要重新入院改成3(4)個,也即去掉20個健康孩子的訓練樣本。當用一個健康孩子來做預測時,模型就會出錯預測為需要重新入院。
我們計算每一個訓練點的影響函數。這個圖很清楚顯示了4個訓練孩子的影響值是其他樣本的30-40倍,其中一個孩子為正,其他3個為負。
仔細考察4個孩子的127個特徵,發現表示為「孩子」的特徵起主要貢獻。
2、對抗訓練
最近的工作已經產生了與實際測試圖像無法區分的對抗測試圖像,以致完全可以愚弄分類器。實際上,Ian Goodfellow在內的一些研究者已經表明了高準確率的神經網路也是可以被欺騙的,用來欺騙它的樣本是精心選擇過的,人眼看起來正常。這樣的樣本就叫做「對抗性測試樣本」。
構建它們的方法之一是沿著測試輸入對應的測試損失的梯度,不斷修改測試輸入,從而讓測試損失增大。
那麼既然有對抗性測試樣本,我們能否創造出對抗性訓練樣本呢,其中訓練點上的小變化就可以改變模型的預測結果。
我們問了自己這個問題,然後接下來很自然地就嘗試在測試損失的梯度上做同樣的事情。不過現在不是做關於測試特徵的,而是做關於訓練特徵的。換句話說,我們先給定測試樣本,然後沿著測試樣本的梯度變化修改訓練數據。
然後我們發現,它的影響函數可以幫助我們找到這個梯度,因為它們根本上是一回事,隨著訓練的進行,模型的預測上會發生的事情就是這樣。我們得到的結果是這樣的,從數學的角度講它和基於梯度的攻擊是一樣的,對不同的模型和數據集都可以起作用。
這樣的方法在實際應用中也可以發揮作用,我們設計了簡單的二分類任務,模型要確定圖像中的是狗還是魚,兩種東西看起來挺不一樣的。我們用到了一個 Inception 那樣的邏輯回歸模型。令我們驚訝的是,如果仔細地選擇訓練數據,然後仔細地選擇要增加在其中的干擾,那麼訓練數據中一點點的改變,就可以讓同一個類型的多張測試圖像的預測結果都出現問題。這說明這樣的攻擊在某些環境下具有相當的危險性。這個問題上其實還有很多值得研究討論的,待會兒我們可以再聊。
結論
最後做個簡單的總結。我們先討論了模型是如何做出預測的。我們知道模型是通過訓練數據得到的,我們將其寫成公式,然後就知道改變訓練數據以後模型會如何變化,而且我們還能通過它偏離訓練數據的程度更好地理解模型的預測結果。影響函數為這些事情提供了一種高效的手段。
在這項工作中,我們還有很多事情需要做,例如如果從醫院裡移除了所有的病人怎麼辦,我們有什麼辦法防止這件事發生嗎?如果我們有一個很大的凸模型,運行SGD好幾次,……目前工作只是在這個方向上的一小步。在能夠很好地理解模型之前,還有很多基礎的問題等待我們去解決。
謝謝大家!
(完)
雷鋒網 AI 科技評論整理。
論文下載:https://arxiv.org/pdf/1703.04730.pdf
※撫州市臨川區首次採用「人臉識別」系統;天虹採用RFID射頻識別等技術實現無人便利店 | AI掘金晚報
※AI+教育如何得到更好的應用?我們找了IBM Watson研究員、OpenEd創始人等談了談
※你可能還沒用過的微粒貸貸款餘額已超千億,這麼兇猛它是怎麼做到的?
※融資後又有大動作,Geek 宣布進入日本市場
※撫州市臨川區首次採用「人臉識別」系統;天虹採用RFID射頻識別等技術實現無人便利店
TAG:雷鋒網 |
※IDC預測未來5年VR/AR頭顯銷量增長率為52.5%,一體機將佔主導
※騎士涼了!7人命中率21%且兩人聯盟墊底,NBC預測翻盤幾率僅0.6成
※CVPR 2018:用GAN預測20年後你長什麼樣
※2019年預測,這些AI場景都將成真!
※CES Asia 2018 還有什麼新亮點?看完這篇預測就知道
※2個月前USGS預測:2018美國將爆發9級強震,真的可以預測地震了?
※WWDC 2018終極預測 全屏SE不是最大驚喜
※西數預測:2023年SSD適配率達90%,平均容量700GB
※「CVPR 2018」機器也能感知時間,AI系統可預測5分鐘內的未來!
※15個CIO/CTO對2018年技術趨勢預測
※預測達人IBM預測5年內將改變我們生活的5項創新,上一個5年預測已成真
※WWDC 2018終極預測 全屏SE並不是最大驚喜
※25年前AT&T就預測了蘋果手錶 來看看1993年的神預測
※外媒預測蘋果A12性能:多核跑分13000,功耗更低
※AI預測奧斯卡,準確率已高達93.75%
※分析師預測2018款iPhone售價 廉價版最低600美元
※頂會見聞系列:從 NeurIPS 2018 看 AI 進展、觀點及 2019 年趨勢預測
※KDD 2018:滴滴提出WDR模型顯著提升ETA預測精度
※外媒預測MSI戰局:KZ獲勝概率90%,RNG只有10%!
※2018 VR 世界大會上,專家提出了未來的十大預測