線性模型可解釋一定比DNN高？UCSD科學家：大錯特錯！

新聞 07-24

新智元編譯

來源：akshayagrawal.com、queue.acm.org

作者：Zachary C. Lipton、 Akshey Agrawal

編譯：大明

【新智元導讀】人們對深度學習模型的真正運行機制還遠遠沒有完全了解，如何提高預測模型的「可解釋性」成了一個日益重要的話題。近來的一篇論文討論了機器學習模型的「可解釋性」的概念及其重要意義。

線性模型可解釋一定比DNN高？UCSD科學家：大錯特錯！

7月17日，加州大學聖迭戈分校（UCSD）博士、卡內基梅隆大學（CMU）計算機科學助理教授Zachary C. Lipton在ACM Queue上發表了題為《The Mythos of Model Interpretability》的文章，討論了監督式機器學習預測模型的可解釋性問題。Lipton在文中試圖明確「可解釋性」的定義，並對「可解釋性」進行分類，並提出了一個重要觀點，認為線性模型的可解釋性並不一定高於深度神經網路（DNN）模型。

線性模型可解釋一定比DNN高？UCSD科學家：大錯特錯！

以下是新智元對論文內容的簡編。

監督式的機器學習模型具有卓越的預測能力。不過，機器學習模型不僅應該可用，而且應該是可解釋的，但「解釋機器學習模型」的任務定義似乎不夠明確。學術文獻中提出了為模型尋求可解釋性的許多動機，並提供了無數的技術來提供可解釋的模型。儘管存在這種模稜兩可的情況，但許多作者宣稱他們的模型在公理上是可解釋的，然而對此卻缺乏進一步的論證。問題是，目前尚不清楚這些技術的共同特性是什麼。

本文旨在完善關於可解釋性的表述。首先，文章回顧了以前論文中解決可解釋性的目標，發現這些目標多種多樣，偶爾還有相互矛盾。接著討論了研究可解釋性的模型屬性和技術思路，以及模型對人而言的識別透明度，並引入了「事後可解釋性」的概念作為對比。文章討論了關於模型可解釋性概念的不同觀點的可行性和合理之處，對「線性模型可解釋，深度神經網路不可解釋」這一常見的觀點提出了質疑。

在過去的20年中，機器學習的快速發展產生了自動決策。在實際應用中，大多數基於機器學習的決策的運作方式是這樣的：用輸入數據訓練機器學習演算法，然後由演算法預測相應的輸出。例如，給定一組關於金融交易的屬性信息，機器學習演算法可以預測長期的投資回報。給定來自CT掃描的圖像，演算法可以該圖像的掃描對象罹患癌性腫瘤的概率。

機器學習演算法接收大量成對數據（輸入和輸出），然後輸出一個模型，能夠預測之前未見過的輸入。研究人員將這個模式稱為「監督式學習」。然後，為了讓決策過程完全自動化，可以將模型的輸出提供給某個決策規則。例如，垃圾郵件過濾器可以通過程序捨棄被預測為垃圾郵件（置信度超過某閾值）的電郵。

什麼是可解釋性，它為什麼如此重要？

目前機器學習在醫學、刑事司法系統和金融市場等關鍵領域的應用越來越廣泛，但人類無法真正理解這些模型，這是個問題。一些人提出了模型的「可解釋性」作為一種補救措施，但在學術文獻中，很少有作者準確地闡明了「可解釋性」的含義，也沒有準確解釋他們提出的解決方案為何是有用的。

儘管缺乏定義，但越來越多的文獻提出了據稱可解釋的演算法。這樣來看我們似乎可以得出以下結論：要麼是（1）人們對可解釋性的定義是普遍認同的，但沒人願意費心以書面表達出來，要麼就是（2）對「可解釋性」的定義是不明確的，所以關於機器學習模型的可解釋性的觀點都顯得科學性不足。對相關文獻的研究表明，後者與實際情況相符合。關於模型可解釋性的文獻中提出的目標和方法多種多樣，這表明可解釋性不是一個單一概念，而是一些彼此迥然不同的觀點，有必要將這些觀點分開來討論。

本文側重討論監督式學習，而非強化學習和互動學習等其他機器學習範式。這是因為當前在實際應用中，監督式學習居於首要地位。同時給出了對「線性模型可解釋，而深層神經網路不可解釋」這個常見觀點的分析。首先需要明確的是，什麼是可解釋性？可解釋性為什麼如此重要？

許多人提出，可解釋性就是對模型產生信任的方式。這又導致了另一個關於認識論的問題：什麼是信任？是指對模型能夠表現良好的信心嗎？還是說「可解釋性」只是意味著對模型的低層級機制的理解？信任是否是一種主觀的定義？

還有人認為，可解釋的模型就是可取的，因為它可能有助於揭示觀察數據中的因果結構。而關於解釋權的法律概念為可解釋性一詞提供了另一個視角。有時，尋求可解釋性的目的，可能只是為了從模型中獲取更多有用的信息。

本文討論了模型的哪些屬性可以讓它們變得可解釋。有些論文將可解釋性與可理解性或可理解性等同起來，在這些論文中，可理解的模型有時被稱為「透明」的，而難以理解的模型被稱為黑盒子。但是透明度是什麼？演算法本身會收斂嗎？有唯一解嗎？人們是否了解每個參數代表什麼？或者考慮模型的複雜性：是否足夠簡單？

其他內容包括「事後可解釋」的概念。這種解釋可能解釋了預測結果，但沒有闡明預測模型運作的機制。比如由人類生成的口頭解釋，或者用於分析深度神經網路的顯著性圖。因此，人類做出的決定可能會滿足「事後可解釋」，不過人類大腦的運作機制仍是個黑盒子，這表明兩種常見的可解釋性概念之間的矛盾。

線性模型可解釋一定比DNN高？UCSD科學家：大錯特錯！

本論文的作者Zachary C. Lipton

線性模型和深度網路模型的取捨

可解釋性的概念很重要、也很棘手。本文分析了可解釋性的動機和研究界提出的一些嘗試。現在讓我們考慮一下這種分析的含義並提供一些內容。

線性模型並不比深度神經網路具有更高的可解釋性。儘管這種說法很流行，但其真實價值取決於採用哪種可解釋性的概念。如果可解釋性指的是演算法透明度，那麼這種說法似乎沒有什麼爭議，但對高維特徵或經大幅修正的特徵而言，線性模型就分別不具備可模擬性和可分解性。

在線性模型和深度模型之間進行選擇時，我們時常要在演算法透明度和可分解性之間進行權衡。這是因為深度神經網路模型一般面向原始特徵或輕度處理的特徵。所以如果不出意外，這些特徵都具有直觀的意義，因而採用「事後可解釋性」的概念是可以接受的。而線性模型則不同，為了獲得足夠的性能，通常必須面向大量經人工設計的特徵。Zachary Lipton曾與他人合作撰文指出，線性模型要想接近遞歸神經網路（RNN）的性能，就必須以捨棄可分解性為代價。

如果考察某些類型的「事後可解釋性」（post-hoc interpretable），深度神經網路具有明顯的優勢。深度神經網路能夠學習豐富的表示，這些表示能夠可視化、用語言表達或用於聚類。如果考慮對可解釋性的需求，似乎線性模型在研究自然世界上的表現更好，但這似乎沒有理論上的原因。

關於可解釋性的聲明必須是合格的。可解釋性一詞並沒有一個整體概念。關於可解釋性的任何觀點都應該首先為「可解釋性」確定一個特定的定義。如果模型滿足透明度的形式，則可解釋性可以直接體現出來。對於「事後可解釋性」，則應確定一個明確的目標，並證明所提供的解釋形式能夠實現這一目標。

事後解釋可能會有誤導性。不能一味接受「事後可解釋」的概念，特別是在基於主觀目標對模型做特定優化時。因為在這種情況下，人們可能會在有意無意間優化演算法，以提供誤導性、但貌似合理的解釋。就像在招聘活動和大學錄取中的一些行為一樣。我們在努力推廣機器學習模型的應用，模仿人類智能的過程中，更應該小心不要重現大規模的不正常行為。

未來方向

未來有幾個有前途的方向。首先，對於某些問題，可以開發更豐富的損失函數和性能指標，降低現實與機器學習目標之間的差異。包括對稀疏誘導正則化因子（sparsity-inducing regularizers）和成本敏感學習（cost-sensitive learning）的研究。其次，這種分析可以擴展到其他機器學習範式中，比如強化學習。強化學習模型可通過直接對模型與環境的交互進行建模，從而解決模型可解釋性研究中的一些問題。

值得注意的是，強化學習模型能夠學習自身行為與現實世界的影響之間的因果關係。然而，與監督式學習一樣，強化學習同樣依賴於明確定義的標量目標。對於公平性（fairness）問題，這個我們正在努力精確定義的指標，機器學習範式可解釋度的提升則不大可能解決。

觀點爭鳴

不過，關於這個問題也有人提出了一些異議，谷歌大腦軟體工程師、斯坦福大學計算機科學碩士Akshay Agrawal就對Lipton論文中的主要觀點進行了歸納，並提出了不少不同意見。

線性模型可解釋一定比DNN高？UCSD科學家：大錯特錯！

對此文提出不同意見的Akshay Agrawal

Agrawal認為Lipton的論文對模型可解釋性的定義分為三個方面：

第一是透明度，其表現形式是「可模擬性」，即人類應該可以手動模擬機器學習模型。第二是「可分解性」，即模型的每個部分都有直觀的解釋。第三是演算法，演算法應該有獨一無二的解。

Agrawal認為：第一點有些問題，因為計算機的目的是自動完成人類在合理的時間內無法完成的任務。第二點講得很好。第三點也有問題，因為即使在凸面上甚至都不能保證有唯一解。而演算法的確定性問題已經不屬於機器學習的範圍。

Agrawal表示，在可解釋性問題上，重要問題的有兩點：

1. 這個模型是否能推廣用在未見過的數據上面？如果在對某個推廣假設試圖證偽之後，該假設仍然成立，那麼這個模型就是可解釋的。我認為這與Lipton在此文中說的「可轉移性」的概念差不多。

2. 該模型是否足夠安全，比如是否能夠防止欺騙？確定模型的安全性是一個懸而未決的問題。也許可以通過使用Lipton在他的論文中調查的一些工具來研究這個問題。不過我很清楚，驗證神經網路模型的安全性要比對線性模型進行驗證要困難得多。

參考鏈接：

https://www.akshayagrawal.com/papers/html/lipton2017.html

論文地址：

https://queue.acm.org/detail.cfm?id=3241340

線性模型可解釋一定比DNN高？UCSD科學家：大錯特錯！

新智元AI WORLD 2018大會【早鳥票】開售！

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018 大會，邀請邁克思·泰格馬克、周志華、陶大程、陳怡然等AI領袖一起關注機器智能與人類命運。

大會官網：

http://www.aiworld2018.com/

即日起到8月19日，新智元限量發售若干早鳥票，點擊閱讀原文購票，與全球AI領袖近距離交流，見證全球人工智慧產業跨越發展。

線性模型可解釋一定比DNN高？UCSD科學家：大錯特錯！

活動行購票鏈接：
http://www.huodongxing.com/event/6449053775000
活動行購票二維碼：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※波士頓動力創始人：SpotMini要成為機器人版的安卓平台
※Python 3.7.0 來了！

TAG:新智元 |