當前位置:
首頁 > 新聞 > ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

機器之心報道

參與:路、一鳴


繼獲得 CVPR 2019 審稿得分排名第一(三個 Strong Accept)並獲得最佳學生論文獎之後,加州大學聖芭芭拉分校王鑫等人所著論文再次獲得三個 Strong Accept,被另一大計算機視覺頂會 ICCV 2019 接收。

兩年一度的計算機視覺頂會 ICCV 2019 將於 2019 年 10 月 27-11 月 2 日在韓國首爾舉行。今日該會議發放接收論文通知,據機器之心統計,ICCV 2019 共收到 4303 篇論文,接收 1077 篇,接收率為 25%。相比於上一屆會議,ICCV 2019 的論文提交和接收數量都有大幅提升(ICCV 2017 共收到 2143 篇論文投稿,接收 621 篇,接收率為 29%)。

來自加州大學聖塔芭芭拉分校王威廉組的王鑫、吳佳煒與位元組跳動人工智慧實驗室李磊、陳俊坤等人合作的 VATEX 論文被 ICCV 2019 接收,並獲得三個 Strong Accept。此前,王鑫等人的視覺語言導航研究《Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation》在 CVPR 2019 評審過程中也獲得三個 Strong Accept,最終獲得了 CVPR 2019 最佳學生論文獎。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

打開今日頭條,查看更多圖片

我們來看這篇獲得三個 Strong Accept 的論文講了什麼。

這篇論文講什麼

論文:VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

論文鏈接:https://arxiv.org/pdf/1904.03493.pdf

這篇論文介紹了一個新型大規模多語視頻描述數據集 VATEX,該數據集包含超過 41250 個視頻和 82.5 萬中英文視頻描述,其中包括超過 20.6 萬描述是中英平行翻譯對。它包含 600 種人類活動和不同的視頻內容。每個視頻具備 10 個英文描述和 10 個中文描述,分別來自 20 個人類標註者。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

圖 2:VATEX 數據集示例。該視頻有 10 個英文描述和 10 個中文描述。所有句子均指向這一個視頻,因此它們是彼此平行的,而後面五個中英文描述是彼此的互譯版本。

與廣泛使用的 MSRVTT 數據集相比,VATEX 是多語言的,且規模更大、語言更複雜、視頻和自然語言描述更加多樣化。

具體來說,

  • VATEX 包含大量中英文描述,支持多語言研究,而這是單語言數據集無法滿足的;
  • VATEX 具備最大數量的視頻片段-句子對,且每個視頻片段都有多個不同的句子描述,每個描述在整個數據集中都是獨一無二的;
  • VATEX 包含更全面且具代表性的視頻內容,覆蓋 600 種人類活動;
  • VATEX 中的中英文語料在辭彙方面更加豐富,從而可以生成更自然和多樣化的視頻描述。

研究者還基於 VATEX 數據集提出了兩項視頻語言研究任務:1)多語視頻描述,即使用緊湊的統一描述生成模型為視頻生成多種語言的描述;2)以視頻為輔助的機器翻譯,即使用視頻信息作為額外的時空語境將源語言描述翻譯為目標語言描述。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

圖 1:VATEX 任務示例。(a) 使用緊湊的統一視頻描述模型準確地以中英文形式描述視頻內容。(b) 機器翻譯模型將「pull up bar」錯譯為「pulling pub」(拉起酒吧),將「do pull ups」錯譯為「do pull」(做拉)。而有了相關視頻語境作為輔助,機器翻譯模型可以將英語句子準確地翻譯為中文。

研究者在 VATEX 數據集上進行了大量實驗,結果表明:

  • 統一的多語言模型不僅能夠更高效地生成視頻中英文描述,其性能還優於單語模型;
  • 時空視頻語境可以有效幫助對齊源語言和目標語言,從而輔助機器翻譯。

該研究還討論了使用 VATEX 數據集進行其他視頻語言研究的潛力。

這項研究有哪些貢獻

該研究的貢獻主要為以下三點:

  • 創建了新型大規模、高質量多語視頻描述數據集,有利於視頻語言研究領域的發展;對 MSR-VTT、VATEX 英語語料庫、VATEX 中文語料庫進行了深入對比。
  • 提出了多語視頻描述任務,並使用緊湊的統一模型驗證了其在生成中英文視頻描述時的效率和效果。
  • 首次提出視頻輔助的機器翻譯任務,並驗證了使用時空視頻語境作為額外信息對機器翻譯性能的提升效果。

VATEX vs. MSR-VTT

研究者對 VATEX 數據集和 MSR-VTT 數據集進行了全面分析。由於 MSR-VTT 只有英語語料,因此研究者把 VATEX 分割成英語語料 (VATEX-en) 和中文語料 (VATEX-zh)。

VATEX 包含針對 41,300 個視頻的 413,000 個英文描述和 413,000 個中文描述,這些視頻共涵蓋 600 種人類活動;而 MSR-VTT 僅包含針對 7000 個視頻的 200,000 個描述,視頻覆蓋 257 種人類活動。除了比 MSR-VTT 規模大以外,VATEX-en 和 VATEX-zh 中的描述句子都更長一些,也更加具體。VATEX-en、VATEX-zh 和 MSR-VTT 的平均句子長度分別為 15.23、13.95 和 9.28。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

圖 3 為 VATEX-en、VATEX-zh 和 MSR-VTT 的統計直方圖分布。從中我們可以看到,相比 MSR-VTT,VATEX 數據集中的視頻描述更長,且具備更多的名詞和動詞。

研究者還評估了二者的語言複雜度。他們對比了 VATEX-en、VATEX-zh 和 MSR-VTT 的 unique n-grams 和 POS tags(如動詞、名詞、副詞等),結果表明 VATEX 數據集較 MSR-VTT 有很大提升。VATEX 數據集具備更廣泛的描述風格,覆蓋更多的動作、物體和視覺場景。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

關於視頻描述的多樣性,該研究也進行了深入對比。如表 3 所示,MSR-VTT 面臨嚴重的重複問題,66% 的視頻具備同樣的描述,而 VATEX 數據集沒有這個問題,不僅如此,同一個視頻中的描述也不會出現重複。此外,VATEX 數據集中的視頻描述句子在整個語料庫中都更加多樣化,這表明 VATEX 數據集可以作為視頻檢索的高質量基準。

為了更直觀地衡量詞語豐富性和描述多樣性,研究者提出了 Type-Caption Curve。如下圖 4 所示,VATEX 數據集具備更強的語言複雜度和多樣性。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

多語視頻描述任務

多語視頻描述任務即用超過一種語言(如英文和中文)描述視頻內容。

模型

該研究使用的單語視頻描述基線模型如下圖所示:

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

該研究使用了三個不同的多語視頻描述模型,分別是:

  • 兩個 Base 模型:兩個分別為英文和中文訓練的單語編碼器-解碼器模型(如圖 5 所示)的組合;
  • Shared Enc 模型:共享視頻編碼器,但有兩個語言解碼器,分別適用於英文和中文;
  • Shared Enc-Dec 模型:僅有一個編碼器和一個解碼器,中英文共享編碼器和解碼器,唯一的區別是不同語言的詞嵌入權重矩陣不同。

如下圖所示:

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

結果

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

上表展示了三個基線模型在英文和中文測試集上的結果。多語模型(Shared Enc 和 Shared Enc-Dec)的性能優於單語模型 (Base)。這表明多語言學習通過共享視頻編碼器確實可以幫助視頻理解(Shared Enc 模型的性能最優)。更重要的是,Shared Enc 和 Shared Enc-Dec 的參數量相比 Base 模型大大減少(分別減少了 4.7M 和 13.4M)。

這些觀察結果證明,緊湊的統一模型能夠生成多語言描述,視覺理解可以從多語言知識學習中受益。研究者認為專門的多語模型可能會進一步提升對視頻的理解,帶來更好的結果。

視頻輔助的機器翻譯

視頻輔助的機器翻譯 (VMT),即將視頻信息作為時空語境幫助將源語言句子翻譯成目標語言。該任務在很多現實世界應用,如翻譯社交媒體中帶有視頻內容的帖子。

模型方法

在 VMT 中,翻譯系統使用源語言句子和對應的視頻作為輸入,生成目標語言句子。為了高效利用這兩種模態(文本和視頻),該研究設計了一個具備註意力機制的多模態序列到序列模型。該模型包含三個模塊:源語言編碼器(Source Encoder)、視頻編碼器(Video Encoder)和目標語言解碼器(Target Decoder),模型架構如下圖所示:

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

實驗

研究者使用以下三個基線模型:

  • 神經機器翻譯模型(Base NMT 模型):僅考慮文本信息,採用編碼器-解碼器模型和注意力機制;
  • 視頻特徵均值模型(Average Video Features):模型架構和 Base NMT Model 相同,但該模型不僅考慮文本信息,也考慮了視頻信息;
  • LSTM 視頻特徵模型(LSTM Video Features):該模型與該研究提出的 VMT 模型相同,但是它缺少了時間注意力(temporal attention)。

表 5 展示了 4 個不同模型在英中、中英翻譯任務上的結果。Average video Features 模型和 LSTM Video Features 模型性能較 Base NMT 模型有所提升,這表明被動接收和考慮視頻特徵對於對齊源語言和目標語言是無效的。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

但是,使用具備時間注意力的 LSTM Video Features 模型(即該研究提出的 VMT 模型,表 5 最下面一行 LSTM VI w/ Attn (VMT))模型對視頻特徵進行動態交互時,翻譯系統獲得了較大的性能提升。這是因為,使用注意力機制時,語言動態可作為 query,突出視頻中的相關時空特徵,從而使學得的視頻語境幫助源語言和目標語言空間中的詞映射。這表明額外的視頻信息可以有效提升機器翻譯系統的性能。

除了表 5 以 BLEU-4 為度量指標衡量模型性能之外,研究者還提出使用名詞/動詞恢復準確率(noun/verb recovery accuracy)來準確評估額外視頻信息對恢複名詞/動詞的影響,名詞/動詞恢復準確率即目標句子中名詞/動詞準確翻譯出來的概率。

下表 6 展示了 NMT 和 VMT 模型在不同 noun/verb masking rate 時的性能:

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

從上表中我們可以看到,VMT 模型的性能持續優於 NMT 模型。此外,隨著 masking rate 增加,NMT 模型很難找出正確的名詞/動詞,而 VMT 可以依賴視頻語境獲得更多有用信息,因此二者在 recovery accuracy 上的性能差距顯著增加。這表明,在 VMT 模型中視頻信息對於理解主體、對象、動作及其關係有著重要作用。

一作介紹

該論文共同一作王鑫、吳佳煒均來自加州大學聖塔芭芭拉分校王威廉組。

王鑫現在加州大學聖塔芭芭拉分校讀博,本科畢業於浙江大學。其研究興趣為:語言和視覺;多模態標對導航(multimodal grounded navigation);自然語言生成;視頻活動理解。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

王鑫所著多篇論文被 ECCV、EMNLP、AAAI、NAACL、CVPR 等頂級會議接收,此前他擔任一作的論文《Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation》被 CVPR 2019 接收,在評審階段獲得了 3 個 Strong Accept,排名第一,並最終獲得了 CVPR 2019 最佳學生論文獎。

吳佳煒現在加州大學聖塔芭芭拉分校讀博,導師為王威廉,本科畢業於清華大學,導師為劉知遠。其研究興趣為:在最少人類監督情況下,利用自然信號進行語言理解和生成,具體來講,他主要研究無監督、自監督和半監督學習場景。此外,他也對視覺和語言的交叉領域感興趣。

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

吳佳煒所著多篇論文被 ACL、ICCV、AAAI、CVPR 接收。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

第四範式等機構提出隱私保護新演算法,醫療敏感數據也能合理學
注意力機制可解釋嗎?這篇ACL 2019論文說

TAG:機器之心 |