注意力能提高模型可解釋性？實驗表明：並沒有

知識 03-14

選自 arXiv

作者：Sarthak Jain

機器之心編譯

參與：Nurhachu Null、張倩

自然語言處理中有一種普遍的觀點：注意力機制可以提高模型的可解釋性，但這一觀點經得起檢驗嗎？本文作者通過實驗證明：標準的注意力模塊在解釋模型方面基本沒什麼卵用。

注意力機制（Bahdanau et al., 2014）引入了輸入單元的條件分布來為下游的模塊形成一個權重語境向量。這在神經自然語言處理結構中幾乎是普遍的存在。注意力權重通常（明確地或者隱式地）被認為能夠提供關於模型「內部工作機理」的信息：對一個給定的輸出，你可以檢查到模型分配了較大注意力權重的輸入。Li 等人（2016）總結了這一在自然語言處理中普遍持有的觀點：「注意力機製為神經模型的工作方式提供了一種重要的解釋方式」。事實上，注意力可以提供模型解釋的說法在文獻中是很常見的。

其中隱含的假設是高注意力權重對應的輸入單元（例如單詞）會對模型的輸出造成影響。但是據目前所知，這個假設並沒有被正式地評估過，而且本文作者發現這一假設是有問題的。具體而言，他們通過實驗研究了注意力權重、輸入和輸出之間的關係。

看一下圖 1，左邊是使用標準的注意力 BiLSTM 架構對某部電影的影評做情感分析得到的在單詞上的原始注意力分布α。似乎很有可能從中得出結論：單詞「waste」是模型傾向於判斷為「negative，差評」（y^=0.01）的主要原因。但是也可以構建另一個注意力分布α~（右圖），它注意到了完全不同的單詞，但是得到了基本一樣的預測結果（保持 f 的其他參數θ為常數）。

圖 1：一個負面電影評論的注意力權重熱力圖。該圖展示了所觀察到的模型的注意力（左）和一個對照組的注意力權重（右）。儘管注意力很不相似，但是兩者都有效地產生了相同的預測（0.01）。

這種反事實的分布意味著，通過突出注意到的 token 來解釋原始的預測是有誤導性的。例如，現在可以從右圖中得到這樣的結論：模型的輸出主要是由於單詞「was」；但是「waste」和「was」無法同時成為原因。此外，這種情況下的注意力權重與基於梯度的特徵重要性度量只存在微弱的相關性（τg = 0.29）。並且，任意置換α中的元素就能得到與原始預測的中值差異為 0.006 的結果。

這些結果以及類似的發現都使人們對「注意力能為模型的預測提供有意義的解釋」這一觀點產生質疑。因此作者提醒我們不要使用注意力權重來強調對模型輸出「負責」的輸入 token，並將其作為理所應當的基礎。

作者對這些問題的研究結果如下：（1）注意力只能為模型的預測提供微弱的解釋，而且並不總是一致的；（2）這通常很可能構建「對立的」注意力分布。當使用最初引入的注意力權重時，它能夠得到等價的預測，即使是注意到了完全不同的輸入特徵。甚至更令人印象深刻的是，隨機置換注意力權重通常只會導致輸出的微小變化。

論文：Attention is not Explanation

論文鏈接：https://arxiv.org/abs/1902.10186v1

摘要：注意力機制在神經自然語言處理中得到了廣泛的採用。除了能夠提升預測的性能，它們通常被吹捧能夠提高模型的透明度：即具有注意力的模型提供了在輸入單元上的注意力分布，並且這通常被呈現為（至少是隱含地說明）表達了輸入的相對重要性。但是，注意力權重和模型輸出之間到底存在什麼樣的關係並不明確。在這篇論文中，我們在各種自然語言處理任務上開展了廣泛的實驗，這些任務旨在評估注意力權重能夠對預測提供何種程度上的有意義的「解釋」。我們發現注意力權重基本上是做不到的。例如，學習到的注意力權重通常與基於梯度的特徵重要性度量是沒有關聯的，而且我們可以發現非常不同的注意力分布，它們可以帶來同樣的預測。我們的研究結果表明，標準的注意力模塊並沒有提供有意義的解釋。所有實驗的代碼參見：

https://github.com/successar/AttentionExplanation。

4. 實驗

我們進行了一系列實驗來檢查學習到的注意力權重的經驗屬性，確認它們的可解釋性和透明性。關鍵的問題是：學習到的注意力權重是否和特徵重要性的自然度量是一致的？此外，如果我們注意到了不同的特徵，預測結果會不同嗎？

我們以兩種方式實驗性地表徵了注意力權重和對應的特徵重要性得分之間的關聯：（1）基於梯度的特徵重要性度量（τg）；（2）忽略了一些特徵（(τloo)）之後模型輸出的不同。

表 2 是每個數據集中的 Kendall 相關係數τ的統計結果