當前位置:
首頁 > 最新 > 姿態估計相比Mask-RCNN提高8.2%,上海交大盧策吾團隊開源AlphaPose

姿態估計相比Mask-RCNN提高8.2%,上海交大盧策吾團隊開源AlphaPose

AlphaPose

由上海交通大學盧策吾團隊發布的開源系統AlphaPose近日上線,該開源系統在標準測試集COCO上較現有最好姿態估計開源系統Mask-RCNN相對提高8.2%。Mask-RCNN是2017年以來計算機視覺領域的一個突破,獲得了ICCV 2017最佳論文(馬爾獎),涵蓋了物體檢測,分割,姿態估計。該系統比較的是其姿態估計部分。該系統是基於盧策吾團隊ICCV 2017發表的RMPE演算法[1]開發。以下為具體數據:

表格1:現有姿態估計開源系統在COCO數據集[4]上的結果比較。

人體關鍵點檢測對於描述人體姿態,預測人體行為至關重要。因此人體關鍵點檢測是諸多計算機視覺任務的基礎。其在動作分類,異常行為檢測,以及人機交互等領域有著很廣闊的應用前景,是計算機視覺領域中一個既具有研究價值、同時又極具挑戰性的熱門課題。針對這一問題,上海交大MVIG組提出RMPE的兩步法框架(ICCV 2017論文),並基於此開發了AlphaPose這一人體關鍵點檢測系統。

RMPE框架採用自頂向下的方法,先檢測人,再去做姿態估計。該框架有三個主要組成部分,首先是對稱空間變換網路(Symmetric STN),用於解決傳統兩步法中的主要問題,即imperfect proposal的問題。對於質量較差的人體檢測結果,symmetric STN能夠自動調整proposal的位置,將refine過後的結果輸入單人姿態估計網路,並將輸出映射回原空間,從而使得在人體檢測框不準確的情況下,姿態估計網路依然能夠有良好的效果。

第二個組成部件為由姿態引導的樣本生成器(Pose-guided Proposals Generator),該部件能夠根據不同人體姿態生成額外的detection proposal用於訓練姿態估計網路,從而獲得大量符合真實測試場景數據分布的訓練數據。

第三個組成部件為參數化的姿態非極大值抑制器(Parametric Pose NMS)。傳統的兩步法中,人體定位框會有較多的冗餘檢測。作者通過使用新的姿態距離度量來比較姿態相似性,來消除冗餘姿態。

目前,該系統所有的訓練和檢測代碼,以及模型均已開源,項目鏈接為:https://github.com/MVIG-SJTU/AlphaPose

應用一:視頻姿態跟蹤(Pose Tracking)

複雜場景下的多人人體姿態跟蹤是2017年CVPR上剛提出的一個很有挑戰性的研究課題,能從視頻中高效且穩定地提取人體姿態軌跡,可以幫助我們更好地理解視頻中人的行為以及人與周邊環境的交互。針對這一問題,在前文AlphaPose的基礎上,盧策吾團隊提出了Pose Flow Building 以及Pose Flow NMS兩個人體姿態跟蹤模塊,充分綜合空間域和時間域的信息來提升複雜場景下人體姿態跟蹤的準確性[6]。

目前,該演算法在PoseTrack dataset [7]的測試集上達到53.6 MOTA的跟蹤精度,大幅度超過該數據集上最好結果(28.2 MOTA),而在PoseTrack Challenge dataset[8]的驗證集上達到58.3 MOTA 66.5 mAP,跟蹤精度超過Facebook最好結果55.2 MOTA (5.6個百分點),人體姿態估計精度超過Facebook之前的最好結果[9] 60.6 mAP (9.7個百分點)。更重要的是我們視頻姿態跟蹤器(pose tracker),是基於AlphaPose在每一幀上結果的一個擴展模塊,該模塊能達到100幀每秒。

GIF

GIF

論文及代碼:http://mvig.sjtu.edu.cn/research/alphapose.html

應用二:視覺副詞識別(Visual Adverb Recognition)

計算機視覺學科在努力挖掘圖像視頻中的語義信息,對應到自然語義系統,是名詞識別對應object detection,動詞識別對應action recognition。但我們忽略了一類重要語義-副詞,這是相對於名詞,動詞有更為深刻的語義的描述。比如我們動作識別可以識別出一個視頻中的人物在擁抱,但是不知道是離別的傷感還是重逢的喜悅。因此盧策吾團隊推出了一個新的研究方向。而這一問題正是需要姿態估計(AlphaPose)的幫助,他們提出了一個Three-Stream Hybrid Model。三個 stream 分別是:利用了姿勢(pose)信息的,使用表情信息, RGB 和光流信息。同時,他們構建了對應的數據集:ADHA,這一數據集標註了視頻中人物的位置、動作和可以描述這一動作的副詞,我們還為數據用戶提供了人物的 tracking 結果。盧策吾團隊也表示,目前該題目剛剛開始所以,準確率還是很低,需要做的事情還很多。

數據集中的32個動作及51個副詞基本覆蓋了人們表達中常見的描述。項目和數據集鏈接如下:

主頁(包括代碼):http://mvig.sjtu.edu.cn/research/adha.html

數據:http://mvig.sjtu.edu.cn/research/adha/adha.html

免責申明:本站所有內容均來自網路,我們對文中觀點保持中立,對所包含內容的準確性,可靠性或者完整性不提供任何明示或暗示的保證,請僅作參考。若有侵權,請聯繫刪除。

文章來源:新智元


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |