當前位置:
首頁 > 最新 > 首次使用分層強化學習框架進行視頻描述生成,王威廉組最新工作

首次使用分層強化學習框架進行視頻描述生成,王威廉組最新工作

【導讀】加州大學-聖塔芭芭拉計算王威廉組最新工作Video Captioning via Hierarchical Reinforcement Learning ,首次提出分層強化學習方法來加強不同等級的視頻描述,通過分層深度強化學習,在文本生成上可以做到語言表達更加連貫,語義更加豐富,語法更加結構化。達在MSR-VTT數據集上達到了的最佳結果,並且提出了新的Charades Caption數據集。文章中指出,未來將計劃注意力機制(Attention),以提升提出的層次強化學習(HRL)框架。作者相信,提出的方法的結果可以通過使用不同類型的特徵,如C3D特徵,光流等進一步改善。同時,作者將在其他相似的序列生成任務(如視頻/文檔摘要)中探索提出的HRL框架。

▌作者

  • Xin Wang:加州大學-聖塔芭芭拉博士生,導師Yuan-Fang Wang和William Yang Wang

  • Wenhu Chen, 加州大學-聖塔芭芭拉博士生

    https://www.linkedin.com/in/wenhu-chen-ab59317b/

  • Yuan-Fang Wang 加州大學-聖塔芭芭拉教授

    http://www.cs.ucsb.edu/~yfwang/

  • William Yang Wang(王威廉) 加州大學-聖塔芭芭拉計算機科學系助理教授

    http://www.cs.ucsb.edu/~william/

    微博:http://weibo.com/u/1657470871/

論文:Video Captioning via Hierarchical Reinforcement Learning

摘要

視頻描述是根據視頻中的動作自動生成的文本描述的任務。儘管之前的工作(例如,序列到序列模型)已經在短視頻的粗略摘要描述中獲得有希望的結果,但是要對包含許多細節動作的視頻生成詳細描述,仍然是非常具有挑戰性的任務。本文旨在通過提出一種新的基於分層強化學習框架的視頻描述方法來解決這個問題,其中高級管理模塊學習設計子目標,而低級工作模塊識別原始動作以實現子目標。通過這個組合框架從不同級別的增強視頻描述效果,我們的方法明顯優於其他所有基準方法,並新引入了一個用於細粒度視頻描述研究的大規模數據集。此外,我們在MSR-VTT數據集上達到最佳結果。

詳細內容

對於大多數人來說,觀看簡短的視頻並用文本描述視頻中發生的事情是一個容易的任務。對於機器來說,從視頻的像素中提取含義並生成自然的文本描述是一個非常具有挑戰性的任務。然而,由於智能視頻監控對視覺疲勞人群的輔助等方面的廣泛應用,視頻描述最近引起了計算機視覺領域越來越多的關注。與旨在描述靜態場景的圖像描述技術不同,為了聯合生成多個描述文本片段(參見圖1),視頻字幕需要理解一系列相關場景,因此視頻描述更具挑戰性。

圖1:視頻字幕示例。第一行是在MSR-VTT數據集[40]的示例,其中視頻是用三個標題來概括的。最後一行是Charades數據集[30]上的示例,它由幾個相關的人類活動組成,用複雜結構的多重長句來描述。

目前的視頻描述任務主要可以分為兩個系列:單句生成[40,19]和段落生成[26]。單句生成傾向於將整個視頻抽象為簡單和高級的描述性句子,而段落生成傾向於理解視頻中更詳細的活動,並生成多個描述句子。然而,段落生成問題經常會根據視頻時間間隔被分成多個單句生成場景。有些研究採用動作檢測技術來預測時間間隔[12],但沒有明顯改善視頻描述的結果。

在很多實際情況下,人類的活動過於複雜,不能用簡短的句子來描述,而且如果沒有對語言語境很好地的理解,時間間隔就難以被提前預測。例如,在圖1的底部例子中,總共有五個動作:坐在床上、把一台筆記本電腦放進一個包里(這兩個動作是同時發生的)、然後站起來、把包放在一個肩膀上、走出房間(順序發生的動作)。這種細粒度的文本生成需要一個精細且具有表達性的機制來捕捉視頻時間上的動態內容,並將其與自然語言中的語義表示聯繫起來。

為了解決這個問題,本文提出了一個「分而治之」的解決方案,它首先將一個長文本分成許多小文本段(例如不同的段如圖1所示用不同的顏色表示),然後採用序列模型處理每個部分。本文建議引導模型逐個生成句子,而不是強制模型生成整個序列。利用高層次的序列模型設計每個片段的上下文,低層次序列模型用來逐個生成單個片段。

在本文中,作者提出了一個新的分層強化學習(HRL)框架來實現這個兩級機制。文本和視頻上下文可以被看作是強化學習環境。提出的框架是一個完全可微分的深度神經網路(見圖2),包括(1)高層次的序列模型管理模塊(Manager),以較低的時間解析度設置目標;(2)低層次序列模型工作模塊(Worker)根據Manager中的目標在每個時間步選擇基本操作;(3)用內部評價模塊(Internal Critic)決定一個目標是否完成。更具體地說,通過從環境和完成的目標中挖掘上下文,Manager為新的片段發出新的目標,並且Worker接受該目標並通過依次產生單詞來生成序列。此外,Internal Critic是用來評估目前生成的文本段是否完成。

圖2:HRL視頻描述框架概述。

此外,本文為ManagerWorker都設置了基於視頻特徵的注意模塊(3.2節),以在內部引入層次性注意力,以便Manager將注意力集中在更廣泛的時間動態,而Worker的注意力被縮小到當前目標條件下的局部動態。同時,由於詞典通常包含數千個單詞,導致了一個難以搜索的大的動作空間。使用分層強化學習,Manager的目標可以在很大程度上限制Worker的搜索空間,提高單詞預測的準確性。

文章指出這是用分層強化學習方法來加強不同等級的視頻描述的首次工作。本文的主要貢獻有四個:

  • 提出了一個分層強化學習框架,以有效地學習視頻描述的語義動態性。

  • 制定了一個新穎的、可選擇的訓練方法,可用隨機和確定策略梯度進行訓練。

  • 通過對原始Charades數據集進行預處理,引入了一個新的大規模細粒度視頻描述數據集Charades Captions,並驗證了該方法的有效性。

  • 在MSR-VTT數據集上進一步評估我們的方法,即使在單一類型的特徵上進行訓練也能達到最先進的結果。

模型簡介

本文提出的HRL框架採用的通用的編碼器-解碼器框架(如圖2所示)。HRL的核心是其策略網路,策略網路主要由注意力模塊(Attention Module)、管理和工作模塊(Managerand Worker)和內部評價模塊(Internal Critic)組成。

圖3:在解碼階段(時間從t到t+5)將HRL框架展開示例。黃色區域顯示了注意里模塊如何結合到編碼器-解碼器框架中。

  • Attention Module

以Worker的attention module為例,其計算方式如下:

其中w,Wa,Ua,ba是可學習的參數,ht-1是Worker LSTM上一時刻的隱層狀態。Manager的注意模塊與Worker的結構一樣。

  • Manager and Worker

Manager通過如下方式產生隱目標向量gt用以指導Worker生成具體的caption:

這裡SM是Manager LSTM中的非線性函數,uM是一個將隱狀態投影到目標空間的函數。

Worker接收到Manager產生的目標gt,然後通過softmax計算一個概率分布來產生caption的每一個單詞:

  • Internal Critic

Internal Critic用於評價Worker是否完成了目標gt,其通過給定groundtruth來最大化似然函數進行訓練:

當Interal Critic訓練完成後,其在Manager的使用過程中被固定。

實驗結果

圖4:在Charades數據集上用我們的方法與基準方法進行定性比較。

圖5:在MSR-VTT數據集上用我們的方法與基準方法進行定性比較。

圖6:不同視頻描述模型的CIDEr分值的學習曲線。包括XE基準模型,RL基準模型和HRL模型分別在目標尺寸為16,32, 64條件下。

表1:在MSR-VTT數據集上與最先進的方法進行比較。

表2:Charades數據集上的結果。我們分別記錄了我們的HRL模型以及兩個基準方法的不同得分:包括BLEU(B),METEOR(M),ROUGH-L(R)和CIDEr(C)等得分。

結論

本文引入了視頻描述的分層強化學習框架,其目的在於改進在具有豐富活動的細粒度視頻場景下生成文本描述的方法。兩層結構相互作用,在這個複雜的任務中展現出結構和語義的協調性。本文首先在流行的MSR-VTT數據集上評估其方法,並證明提出的方法的有效性。接下來,本文介紹了一個用於細粒度視頻描述的新的大規模數據集,並進一步展示了提出的HRL模型的優良性能。

文章中指出,在未來,作者將計劃探索注意力空間(attention space),並結合空間注意力形成一個時空注意力模型,以提升提出的HRL框架。此外,到目前為止,本文只是從一個預訓練的CNN模型獲得幀級特徵,並用幀級特徵進行實驗。作者相信,提出的方法的結果可以通過使用不同類型的特徵,如C3D特徵[35],光流等進一步改善。同時,作者將在其他相似的序列生成任務(如視頻/文檔摘要)中探索本文提出的HRL框架。

參考文獻

https://arxiv.org/abs/1711.11135

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 專知 的精彩文章:

新AlphaZero出世稱霸棋界,8小時搞定一切棋類!自對弈通用強化學習無師自通!
NIPS 2017論文圖像轉換多樣化,大幅提升pix2pix生成圖像效果
用AlphaGo Zero方法實現增強學習下棋
Facebook何愷明等大神最新論文提出非局部神經網路
2018年IEEE Fellow出爐!17位中國大陸學者當選,香港台灣共15人新當選!

TAG:專知 |