注意力機制可解釋嗎？這篇ACL 2019論文說

新聞 06-18

選自arXiv

作者：Sofia Serrano、Noah A. Smith

機器之心編譯

注意力機制最近推動了一系列 NLP 任務的發展。由於注意力層可以計算層的表徵權重，也被認為可以用於發現模型認為重要的信息（如特定的語境詞語）。研究人員通過修改已訓練的文本分類模型中的注意力權重，測試了這一假設。並且分析了導致模型預測發生變化的原因。研究人員觀察到，儘管在一些案例中，高注意力權重對模型的預測有更高的影響，但他們也發現了許多和這一現象不同的案例。研究者認為，雖然注意力機制預測了輸入部分相對於模型整體的重要性，但這不是一個保險的說明重要性的方法。

此外，相比之前機器之心報道的注意力能否提高模型可解釋性的文章，本文更多的從語境詞語級別（contextualized word level），探討注意力機制是否可以被解釋。遺憾的是，本文作者也同樣認為，注意力層不足以解釋模型所關注的重點。

注意力機制可解釋嗎？這篇ACL 2019論文說

鏈接：https://arxiv.org/abs/1906.03731

可解釋性對於很多 NLP 模型來說都是一個緊迫的問題。隨著模型愈加複雜，而且要從數據中學習，確保我們能夠理解模型為何做出某種決策非常重要。

談論可解釋性的現有工作只是開始評估計算出的注意力權重傳達出怎樣的信息。在本文中，研究者應用了一種基於中間表徵擦除的不同分析方法來評估是否可以依賴注意力權重來解釋輸入到注意力層本身的相對重要性。他們發現：注意力權重只是對中間成分重要性的嘈雜預測，不應被視為決策的理由。

測試集

研究者將重點放在包含注意力的 5 類和 10 類文本分類模型上，因為解釋文本分類的原因一直是可解釋性研究中一個吸引研究者目光的領域（Yang et al., 2016; Ribeiro et al., 2016; Lei et al.,2016; Feng et al., 2018）。

一個可解釋的模型不僅需要提供合理的解釋，還要確保這些解釋是模型做出決策的真實原因。注意，這種分析不依賴於數據的真實標籤；如果一個模型產生了一個不正確的輸出，但它還給出了一個可信的解釋，說明哪些因素在計算中發揮重要作用，我們也認為該模型是可解釋的。

中間表徵擦除

研究者感興趣的是一個注意力層的一些語境化輸入（I ′ ? I）對模型輸出的影響。為了測試 I ′ 的重要性，研究者將模型的分類層運行了兩次（見圖 1）：一次不做任何修改，一次用 I ′的注意力權重歸零對注意力分布進行重歸一化，與其他基於擦除的工作類似。接下來，研究者觀察了結果對模型輸出的影響。他們在注意力層進行擦除，以將注意力層的效果與它前面的編碼器隔離開來。重歸一化背後的原因是避免輸出文檔表徵被以訓練中從未遇到過的方式人為地縮小到接近 0，這可能使後續的度量無法代表模型在其映射輸入的空間中的行為。

注意力機制可解釋嗎？這篇ACL 2019論文說

圖 1：用本文中的方法計算與歸零注意力權重對應的表徵重要性，假設有四個輸出類。

數據和模型

研究者探索了一個主題分類數據集（Yahoo Answers）和三個評估評級數據集（IMDB、Yelp 2017、Amazon）上的四個模型架構。每個數據集的統計數據見表 1.

注意力機制可解釋嗎？這篇ACL 2019論文說

表 1：實驗中用到的數據集。

本文中的模型架構受到分層注意力網路的啟發，後者是一種包含兩個注意力層的文本分類模型，首先注意每個句子中的詞 token，然後注意得到的句子表徵。對文檔表徵進行分類的層與最後的 softmax 層時線性關係。

研究者對注意力的 softmax 公式進行了測試，包括 HAN 在內的大多數模型都使用了該公式。具體而言，研究者使用 Bahdanau 等人（2015）最初定義的加性公式（additive formulation）。

單一注意力權重的重要性

測試開始階段，研究者探索了當只有一個權重可以移除時的注意力權重相對重要性。使得 i^? ∈ I 成為具有最高注意力的成分，α_i^?作為其注意力。研究者以兩種方式將 i^?的重要性與一些其他注意力項的重要性進行了比較、

模型輸出分布的 JS 散度

研究者希望比較 i^?對模型輸出分布的影響與從 I 統一抽取的隨機注意力項 r 對應的影響。第一個方法是計算兩個 JS 散度：一個是從只移除 i^?後模型的原始輸出分布到其原始輸出分布的 JS 散度，另一個是只移除 r 後模型的輸出分布的 JS 散度，並將它們進行比較。

他們用移除 i^?後的輸出 JS 散度減去移除 r 的輸出 JS 散度：

注意力機制可解釋嗎？這篇ACL 2019論文說

公式一：?JS 的計算公式

直觀地說，如果 i^?真的是最重要的，那麼我們將期望 Eq. 1 是正的，這也是大部分時候的真實情況。此外，從圖 3 可以看出，幾乎所有的?JS 值都接近於 0。通過圖 4 可以看出，在 i^?影響較小的情況下，i^?的注意力和 r 注意力之間差別不大。這一結果比較鼓舞人心，表示在這些情況下，i^?和 r 在注意力方面幾乎是「相連的」。

注意力機制可解釋嗎？這篇ACL 2019論文說

圖 3：注意力權重大小差異 vs HANrnn 的?JS。

注意力機制可解釋嗎？這篇ACL 2019論文說

圖 4：HANrnn 模型的測試實例計數，i^?的 JS 散度更小。

然而，當開始考慮圖 3 中正?JS 值的大小時，注意力的可解釋性變得更加模糊。研究者注意到，在數據集中，即使注意力權重的差異非常大，比如 0.4，許多正的?JS 仍然非常接近於零。儘管最終發現，一旦?α增大，?JS 就會飆升，表明分布中只有一個非常高的注意力權重，關於 i^?和 r 的影響究竟能有多大，這裡就存在很大的爭議了。

自注意力歸零引起的決策翻轉

由於注意力權重通常被認為是對於模型 argmax 決策的解釋，所以第二個測試關注模型輸出中另一個更直觀的變化：決策翻轉（decision flip）。為清楚起見，此處僅討論 HANrnn 的結果，該結果反應了在其他架構中觀察到的相同模式。

注意力機制可解釋嗎？這篇ACL 2019論文說

圖 9：利用前面給出的關於 i^?的定義，與一個不同的隨機選擇注意力項進行比較，上圖數字是所有模型上的四個測試集中的每個決策翻轉指示器變數類別的測試實例百分比。由於研究者要求隨機項不能為 i^?，他們從分析中排除了最終序列長度為 1 的所有實例。

在多數情況下，擦除 i^?不會改變模型的決策（圖中的「no」列）。這可能和分布在文檔中的與分類相關的信號有關（例如，Yahoo Answers 數據集中一個關於「Sports」的問題可以用幾句話表示「sports」，其中任何一句都足以正確分類）。

注意力層權重的重要性

為了解決注意力層的可解釋性，並解決單權重測試中的問題，研究者採用了一種新的測試，用於研究多注意力層權重在預測器上的表現。

注意力機制可解釋嗎？這篇ACL 2019論文說

表 2：每個 HANrnn 的每個決策翻轉指示器變數類別中測試實例的百分比。

多權重測試

對於假設的重要性排序，例如由注意力權重層表示的排序，研究者希望排序最高的注意力神經元可以作為模型決策的簡明解釋。這些解釋越不簡明，真正推動模型決策的注意力神經元的排名就越靠後，那麼它就越不可能更好地解釋重要性。換句話說，研究者希望，在有效的重要性排名中，最高排名的神經元中只需要使用一小部分重要的信息去引導模型的決策。

重要性排序的具體方法

研究者提出了兩種重要性排序的具體方法。

第一種是對重要性進行隨機排序。研究者希望這種排序產生一種表現糟糕，但可以和注意力權重降序方法進行對比的結果。

第二種排序方法，是對 attention 層的權重進行排序。這種方法需要對決策函數的梯度和每個注意力權重進行降序排列。因為每個數據集都是 5 個或者 10 個類，根據真實模型輸出的向量的決策函數是：

注意力機制可解釋嗎？這篇ACL 2019論文說

注意力機制不是描述模型決策的理想方式

根據圖 5 的結果分析，研究者發現，根據注意力權重進行重要性排序的方法，對有編碼器的模型來說並不理想。儘管使用降序注意力權重移除中間表示的方法往往可以使決策翻轉比隨機排序更快，在許多情況下，這種方法比梯度排序或梯度-注意力-乘積排序的決策翻轉效率更低。

此外，雖然基於乘積的排序比梯度排序往往（但不是總是）需要稍微少一點神經元的移除，研究者發現純粹的無注意力的梯度排序和它（的表現）相當接近，且比純粹基於注意力的排序表現更好。在 16 個有編碼器的模型中的 10 個模型上，發現有超過 50% 的測試集案例中通過移除梯度比移除注意力實現了更小的決策翻轉。研究發現，在每一個有編碼器的模型上，僅基於梯度的排序導致決策翻轉的速度比基於注意力的速度更快。在測試集上，這種案例的數量是其反例（注意力導致的決策翻轉更快）的 1.6 倍。

決策翻轉發生較遲

在每個排序機制和許多模型上，研究者都遇到了需要移除很大一部分神經元才能達到決策翻轉目的的問題。對於 HAN 來說，這並不令人驚訝，因為這些注意力機制從更短的文本中計算注意力。對於 FLAN 來說，這種結果有些出乎意料。FLAN 經常在有幾百個字元的序列上計算注意力，每個注意力的權重很可能非常小。

對於研究的模型，特別是 FLAN（使用上百個字元計算注意力），這一事實可能有解釋性的問題。Lipton 認為，「如果一個人看一次就了解了整個模型，這個模型就是透明的」（The mythos of model interpretability. arXiv preprint arXiv:1606.03490.）。根據這種解釋，如果某個重要的解釋需要考慮幾百個 token 的注意力權重，即使每一個注意力都很小，這依然會帶來嚴重的透明性問題。

注意力機制可解釋嗎？這篇ACL 2019論文說

圖 5：在三種模型架構上，在不同的排序方案下，第一次決策前被移除的項的分數分布發生翻轉。

語境範圍對注意力可解釋性造成的影響

在機器翻譯中，以前的研究觀察到，在一個完整序列上，循環神經編碼器可能對 token 的信號進行移動，從而導致之後的注意力層反直覺地計算。研究者假設在文本分類的實驗設置中，雙向循環神經網路，如 HANrnn 和 FLANrnn 編碼器可能選擇從一部分輸入 token 而非其他語境表示中調整分布信號。對比圖 5 中的 FLANconv 和 FLAN-rnn 的決策翻轉結果可以支持這個理論。研究者注意到，決策翻轉的速度比兩個基於 rnn 的模型都要快，說明雙向循環網路可以有效地學習如何廣泛地重新分布分類信號。相反的，卷積編碼器只根據輸入字元的前後兩個字元學習語境表示。

在兩種 HAN 架構的結果對比中可以看到一樣的情況，雖然不太明顯。這可能是因為 HAN 對更少的一部分 token 抽取語境表示（句的表示而非詞），所以根據字元近鄰抽取語境表示已經是完整序列的很大一部分了。

如果對比沒有編碼器的模型架構，這種差別會更加明顯，如圖 6 所示。對比其他兩個模型架構，可以看到重要的模型部分被擦除後，決策翻轉的速度下降。同時可以看到，隨機排序比之前表現更好，說明決策邊界更脆弱了，特別是在 Amazon 數據集上。這樣說明，注意力相比梯度可能更加重要。

結論

注意力機制被認為是解釋模型的一種工具，但研究者發現，注意力層和重要性不是充分對應的。

在某些情況下，兩者是相關的。例如，當對比高注意力權重和低權重時，高注意力權重對模型的影響往往更大。然而，當考慮到在一些例子中，最高注意力權重無法產生很大的影響時，這種圖景是暗淡的。

從多權重測試中，研究者發現注意力權重往往無法發現對模型最終決策發揮最重要作用的表示。甚至於，即使在基於注意力層的重要性排序翻轉模型決策的速度比其他排序要快的情況下，零參與神經元的數量通常也太大，對解釋（這一過程）毫無幫助。

研究人員同時注意到，語境範圍先於注意力層影響了模型的決策。儘管注意力層很大程度上在未抽取語境表示的例子中更有效，在其他情況下，其獲取決策依據的糟糕表現是一個問題。研究人員認為，在他們測試的設置中，注意力層不是一個用於發現特定輸入是否造成了特定輸出的理想工具。注意力層也許可以用其他方法變得可解釋，但絕不是在重要性排序中。（在重要性排序問題上），注意力層無法解釋模型決策。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※GMIS2019全球數據智能峰會正式啟動：擁抱數智經濟，賦能產業生態
※推理速度升5.1倍參數減少88%:谷歌提出新型卷積網路EfficientNet

TAG:機器之心 |