CVPR大規模行為識別競賽連續兩年奪冠,上交大詳細技術分享
GIF
新智元推薦
來源:上海交通大學計算機視覺實驗室
【新智元導讀】近日,視頻行為理解領域的ImageNet競賽——ActivityNet Challenge 2018在CVPR 會議上落下了帷幕。來自上海交通大學計算機視覺實驗室的團隊(自動化系研究生林天威、蘇海昇,導師趙旭副教授),獲得了未修剪視頻中的時序動作定位任務的冠軍,以及時序動作提名任務的亞軍。本文將分享該團隊在兩項競賽任務中所採用的演算法思路和方案。
引言
理解視頻中人的動作和行為,是計算機視覺領域的挑戰性問題,也是視頻內容理解的關鍵,極具應用前景。ActivityNet挑戰賽旨在催生視頻行為理解的新演算法和新技術,是目前視頻行為理解領域數據規模最大、最具影響力的技術競賽,與每年的頂級學術會議CVPR一起召開,已成功舉辦三屆。今年ActivityNet挑戰賽共舉辦6項比賽,吸引了全球計算機視覺領域來自學術界和工業界的諸多團隊積極參賽。
近日,ActivityNet Challenge在CVPR會議上公布了2018年的競賽成績。來自上海交通大學計算機視覺實驗室的團隊(自動化系研究生林天威、蘇海昇,導師趙旭副教授),獲得了未修剪視頻中的時序動作定位任務的冠軍,以及時序動作提名生成任務的亞軍。
本文將分享上海交通大學團隊在兩項競賽任務中的演算法思路和方案。在此次競賽中,上交團隊主要採用了近期投稿在ECCV 2018會議上的時序動作提名生成新方法-Boundary Sensitive Network (BSN) 。
ActivityNet挑戰賽
ActivityNet 挑戰賽是目前視頻動作理解領域規模最大的競賽,涵蓋了視頻動作分類、時序動作定位、視頻文本生成等多個方向。今年的ActivityNet挑戰賽在規模、多樣性和自然度上較往年均有顯著提升,共舉辦6項競賽任務,其中任務1-3基於ActivityNet數據集,任務A,B,C則為其他視頻理解領域內重要的數據集。目前ActivityNet數據集的版本為1.3,包括20000個Youtube 視頻,共計約700小時,平均每個視頻上有1.5個動作片段,涵蓋了共200個動作類別。這些比賽項目具體包括:
任務1: 時序動作提名生成;
任務2: 時序動作定位;
任務3: 視頻密集描述生成;
任務A: 視頻動作分類(Kinetics數據集);
任務B: 時空動作定位(AVA數據集);
任務C: 視頻事件分類(Moments-in-time 數據集)
圍繞上述6項競賽任務,今年的挑戰賽吸引了來自上海交通大學、清華大學、中科大等國內高校,CMU、UMD、UCSB、華盛頓大學等國外高校,以及DeepMind、百度、曠視科技、七牛雲、愛奇藝等企業團隊參賽。比賽由阿卜杜拉國王科技大學視覺計算中心在CVPR 2018會議上舉辦,得到谷歌、DeepMind、Facebook等公司的贊助。
競賽任務及測評方式
本次競賽中,上交團隊參加了任務1:時序動作提名生成,以及任務2:時序動作定位的比賽。其中,任務2要求在視頻序列中確定動作發生的時間區間(包括開始時間與結束時間)以及動作的類別。這個問題與二維圖像中的目標檢測問題有很多相似之處。相關演算法一般可以分為兩個部分:(1) 時序動作提名生成,產生候選視頻時序片段,類似於Faster-RCNN中的RPN網路的作用;(2) 動作分類: 即判斷候選視頻時序片段的動作類別。兩個部分結合在一起,即實現了視頻中的時序動作檢測。從去年起,時序動作提名作為單項競賽任務被單獨列出(任務1)。
在時序動作定位問題中,mean Average Precision(mAP) 是最常用的評估指標。此次競賽計算0.5到0.95, 以0.05為步長的多個IoU閾值下的mAP,稱為 Average mAP,作為最終的測評以及排名指標。相較於使用mAP@0.5 作為測評指標,Average mAP 更看重在較嚴格IoU閾值下的檢測精度。時序動作提名任務由於無需對時序片段進行分類,所以通常使用average recall (AR) 來進行評估。在此次競賽中,Average Recall vs. Average Number of Proposals per Video (AR-AN) 曲線下的面積被作為最終的評測指標。舉個例子,AN=50 時的AR分數可以理解為對於每個視頻,使用proposal set中分數最高的前50個proposal時,所能達到的召回率。
競賽方案介紹
此次競賽,我們主要對我們投稿在ECCV 2018會議上的時序動作提名生成演算法-BSN模型 [1](Boundary-Sensitive Network) 進行了優化與改進。下面首先對BSN方法進行介紹,之後再介紹此次競賽中所進行的一些改進。
BSN-用於時序動作提名生成的邊界敏感網路
時序動作檢測一般包含兩個環節-提名和分類。目前行為分類的精度其實已經比較高了,而時序動作檢測的精度仍然比較低,所以我們認為其瓶頸在於時序動作提名生成階段。高質量的時序動作提名應該具備(1)靈活的時序長度;(2)精確的時序邊界;(3)可靠的置信度分數。現有的基於滑窗或anchor的方法或是基於聚類的方法都不能同時在這幾個方面做好。因此,我們在[1]中提出了一種新的時序提名生成演算法-Boundary Sensitive Network(BSN)。在BSN中,我們首先去定位時序動作片段的邊界(開始節點和結束節點),再將邊界節點直接結合成時序提名,最後基於所設計的proposal-level的feature來對每個proposal的置信度進行評估。演算法的整體框架圖如下圖所示,之後會逐步介紹各個步驟。
1. 特徵提取
在特徵提取階段,我們主要將視頻切分成16幀不重疊的單元,然後採用 two-stream network 提取特徵。對於spatial network, 我們使用每個單元的中心幀提取特徵;對於temporal network,我們則使用每個單元的中心6幀圖像計算得到的光流圖像提取特徵。最終將視頻圖像序列轉化為特徵序列。
2. BSN - 時序評估模塊
基於提取的圖像特徵序列,BSN中的時序評估模塊採用3層時序卷積層來對視頻序列中每個位置上動作開始的概率、動作結束的概率和動作類別概率同時進行建模,從而生成動作開始概率序列,動作結束概率序列和動作類別概率序列。
3. BSN - 提名生成模塊
接下來,基於上述的幾種概率序列,提名生成模塊要生成候選時序動作提名,並對每個動作提名生成對應的特徵描述。
要生成候選時序動作提名,首先我們選擇動作開始和動作結束概率序列中滿足以下兩個條件之一的時間節點作為候選時序邊界節點:(1)概率高於一個閾值 或(2)該時間節點的概率高於前一時刻以及後一時刻的概率。然後我們將候選開始時間節點和候選結束時間節點兩兩結合,保留時長符合要求的開始節點-結束節點組合作為候選時序動作提名。演算法示意圖如下圖所示。
接下來要為每個候選時序動作提名生成對應的特徵描述,我們稱其為Boundary-Sensitive Proposal (BSP) feature。對於每個提名,我們取其本身的時序區間作為center region,再取開始節點和結束節點附近的一段區間作為starting region 以及 ending region。對於每個區域,我們都在動作概率序列上的對應位置採樣N個點,拼接後則得到一個非常簡短的提名特徵。BSP特徵的構成示意圖如下圖所示。
4. BSN - 提名評估模塊
生成候選時序動作提名以及對應的提名特徵後,我們採用提名評估模塊-一個簡單的MLP(多層感知機)模型去對每個提名的置信度分數進行估計。置信度分數越高,則說明該時序提名與真值的重疊IoU應當越高。
5. 結果後處理
最後,我們需要對結果進行非極大化抑制,從而去除重疊的結果。具體而言,我們採用了soft-nms演算法來通過降低分數的方式來抑制重疊的結果。處理後的結果即為BSN演算法最終生成的時序動作提名。
6. 時序動作檢測
基於BSN所生成的時序動作提名,要得到時序動作檢測結果,我們還需要對提名進行分類。我們此處採用了一種比較簡單的方式,即直接採用動作分類網路所生成的video-level的動作類別作為提名的動作類別。
BSN模型改進
為了在競賽中獲得更好的效果,我們針對BSN演算法嘗試了多種改進技巧。對於時序動作提名任務,主要的改進方式主要包括五點,包括:
改進A:將提名生成模塊中的概率閾值從0.9改為0.5*max_score, 其中max_score為該視頻中的最大概率。
改進B:除了採用在ActivityNet數據集上預訓練的TSN網路提取特徵,在競賽中,我們還額外採用了在Kinetics數據集上預訓練的TSN和P3D網路提取視頻特徵。
改進C:為了獲得更好的置信度分數,我們還與我們之前提出的SSAD[2]演算法所生成的結果進行了融合。
改進D:在ActivityNet數據集上,為了方便,在初始的BSN中,我們會將所有視頻的特徵序列縮放到一個給定長度。在競賽中,我們發現使用原始長度預測結果會得到更好的效果。
改進E:在進一步的分析中,我們發現按照原始長度預測結果主要是提高了對較短的時序片段的預測結果,但損害了較長的時序片段的預測效果。因此,我們將按原始長度預測的結果和按給定長度預測的結果進行了融合,獲得了更好的效果。
對於時序動作檢測任務,我們同樣也採用了上述的改進,但有兩點不同:
在時序動作檢測中,我們採用定長的特徵序列預測結果
採用較為嚴格的Soft-NMS閾值
之所以對時序動作提名和時序動作定位採用略為不同的策略,主要是因為時序動作檢測的結果主要依賴於靠前的幾個proposals,而現有的時序動作提名的評估方式則更看重較多proposals時所能達到的recall。這也反映了現有的時序動作提名評估方式還存在不合理之處。
實驗結果
※中國AI第一城揭榜:全國4000 AI企業北京獨霸三成(白皮書下載)
TAG:新智元 |