當前位置:
首頁 > 最新 > 在視頻動作識別中引入top-down的「注意力機制」

在視頻動作識別中引入top-down的「注意力機制」

引言

視頻動作識別(Action Recognition)一直以來都是計算機視覺領域的一個熱門研究方向。

  • 傳統的視頻動作識別技術往往依賴於手工設計的特徵抽取器,例如dense trajectories[1]和part-based/structuredmodels[2]等,來提取動作的時空特徵。

  • 隨著深度學習的橫空出世,這類手工特徵抽取器,已經逐漸被深度卷積神經網路——這個強大的自動特徵抽取器所替代。

  • 如今state of the art的視頻動作識別技術[3]完全使用了深度學習技術,其核心便是雙流卷積神經網路(two-stream CNN[4],下文簡稱為雙流CNN)。

  • 而雙流CNN的提出實際上是借鑒了大腦視覺系統中處理信息的雙流通路,其中:腹側通路(被稱為whatpathway)用於處理物體的形狀、顏色等空間信息;背側通路(被稱為where pathway)用於處理與運動、位置相關的信息。

其實,大腦視覺系統中除了採用雙流通路來處理,還有自上而下的注意力attention通路

今天我們為大家介紹一篇發表在NIPS2017上的論文《Attentional Pooling for Action Recognition》[5]:該論文嘗試將視覺系統中的自上而下的注意力機制加入到CNN中,使得網路能夠自動將注意點放在與動作類別息息相關的感興趣區域,該方法在MPII等動作數據集上取得了state-of-the-art的成績。

這個例子再次告訴我們:若能夠借鑒腦科學中獲得的靈感、甚至於一些最基本的思想、合理的使用在傳統的神經網路中,深度學習技術仍有提升的空間,甚至收穫奇效。

核心思想和實施細節

如何在CNN中引入所謂的attention呢?作者設計了一個名為attentional pooling的模塊,其本質為一個可參與訓練學習的池化層,它接在卷積層之後。

在大部分常用的神經網路架構中(例如:Inception、ResNet等),網路在經過層層卷積操作的最後往往會連接一個平均池化(average pooling)。平均池化,顧名思義:該操作認為每個池化單元的貢獻是一致的;與之相反的最大池化,則是認為只有值最大的單元有貢獻,其餘單元貢獻為0。而事實上往往這樣做並不夠好。

正是基於此,論文提出了attentional pooling:一種帶注意力加權的池化操作,它可以在訓練當中自行學習到每個池化單元的權重,我們可以理解為:在attentional pooling中權重越大的池化單元對應著與該動作息息相關的抽象特徵,而權重越小的池化單元對應著應當忽略或者會對動作識別產生干擾的其他特徵。經過attentional pooling之後,與動作類別無關的特徵將會被忽略,而與動作息息相關的特徵將會被「放大」,這就好像加入了「注意力」控制那樣。

了解了attentional pooling的基本思想,那麼我們來看一下作者是如何去實現的。

在實操中,作者受啟發於視覺系統中的注意力理論——自頂而下的注意力線索(cues)能夠有效的調控自底向上的顯著性投影[6](為了更好的理解注意力加入的計算模型,可見圖1),設計了兩組可供學習的權重向量,分別為來自bottom-up顯著性權重向量b和來自top-down注意力權重向量a,其中。假設待池化的特徵投影為(其中n為特徵投影的空間尺寸,f為特徵投影的通道數量),作者使用矩陣運算實施了對特徵投影的bottom-up顯著性加權和top-down注意力加權,並在最後融合了兩者的響應得到預測得分。

圖1 Computational modeling of Top-Downattention[7]

為了更生動的說明attentional pooling的實施過程,我們來看一下該過程的流程圖,見圖2。

圖2 attentional pooling的實施過程

說到底,加入attentional pooling的本質便是矩陣乘法。相乘的結果解釋如下:

那麼,作者如何融合兩者的效果得到最後的預測得分呢?依然還是矩陣乘法,通過計算下式:,即可。(事實上可以理解為每一片特定類別的注意力投影Xa先和顯著性投影Xb進行了逐元素的相乘,再對相乘結果進行求和,得到該類別的預測得分,這個過程是不是和圖1好像啊@@)

實驗結果展示

論文在以下幾個挑戰性和難度均較大的數據集上進行了對比實驗:

論文中,作者只考慮了在處理靜態圖像的CNN中加入attentional pooling(即使是針對HMDB51視頻數據集,也只是對比了處理靜態圖像的spatial CNN的效果)。

實驗結果總結:

論文提出的attentional pooling方法在MPII人體姿態資料庫上表現比較突出:超越了之前最好的state-of-the-art大約4個百分點;

在HICO和HMDB51數據集上也與之前state-of-the-art不相上下。

表1為論文提出的attentionalpooling(+Pose regularization)在MPII數據集上的實驗對比結果。

表1 MPII人體姿態估計數據集上的對比實驗結果

可視化結果分析

在論文中,作者可視化了網路自動學習到的bottom-up顯著性區域、top-down的注意力區域以及融合了兩者機制的效果。從可視化熱圖的結果可以看出:

結語

該論文借鑒腦科學的基本知識,提出在動作識別中引入注意力機制,採用簡潔的實施過程,改善了原有的動作識別技術。但和人腦相比,論文的結果還遠非完美。

核心問題是這裡的注意力機制和大腦中的注意力相比還相差甚遠。

從腦科學的角度看,注意力和知識相關,而知識又和長期記憶相關。目前深度學習技術在有關長期記憶類腦知識方面還顯得非常不足,甚至可能有難以逾越的障礙(缺乏類似於大腦的神經動力系統),採用深度學習技術要實現真正智能的動作識別技術仍是任重道遠。

長期記憶和類腦知識圖譜是類腦計算的重要研究領域。我們期待類腦計算領域的新突破,並能和深度學習技術相結合,把類腦的注意力機制引入到現有動作識別技術中,比較徹底地解決視頻動作識別問題。

參考文獻:

[1]H.Wang and C. Schmid. Action recognition with improved trajectories. In ICCV, 2013.

[2]B.Yao, X. Jiang, A. Khosla, A. Lin, L. Guibas, and L. Fei-Fei. Human action recognition by learning

bases of action attributes and parts. In ICCV, 2011

[3]L.Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool. Temporalsegment networks:

Towards good practices for deep action recognition. In ECCV, 2016.

[4]K.Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In

NIPS, 2014.

[5] RohitGirdhar Deva Ramanan. Attentional Pooling for Action Recognition.In NIPS,2017

[6]V.Navalpakkam and L. Itti. An integrated model of top-down and bottom-up attention for optimizing

detection speed. In CVPR, 2006.

[7]F.Baluch and L. Itti. Mechanisms of top-down attention. Trends in Neurosciences, 2011.

編譯 中傳腦科學與智能媒體研究院 陳雯婕 曹立宏

編輯小番茄

本文為原創編譯,轉載須獲取授權,謝謝!

關注「腦與智能」公眾號

帶你解讀關於大腦的最新研究

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 腦與智能 的精彩文章:

與蚊子鬥智斗勇背後的腦科學

TAG:腦與智能 |