「首創」新加坡國立大學LV實驗室發布多人圖像解析數據集與模型
新智元推薦
基於人物圖像的細粒度解析是計算機視覺領域的一個非常重要的任務。人物解析(Human Parsing)指的是將人物圖像按像素級別分割成屬於身體部位或衣物項目的多個語義一致的區域。人物解析技術是很多實際應用的基礎與關鍵,如虛擬現實、視頻監控與群體行為分析。與單人圖像解析相比,在多人交互的場景中進行人物解析則更具挑戰性、更有現實意義。
為了解決這一難題,近日,新加坡國立大學LV實驗室首次提出多人解析(Multi-Human Parsing)任務,對傳統的人物解析進行了拓展與延伸,從而更好地匹配現實應用場景。他們構建了一個全新的大規模多人解析數據集(MHP),並給出了相應的評測標準,極大地推進了深度學習與計算機視覺領域相關技術的發展。針對所提出的多人解析任務,他們又提出一個全新的多人解析器(MH-Parser)模型,該模型在端到端訓練過程中將全局信息與局部信息進行有機融合,性能遠優於簡單的「檢測+分割」的方法。
作者趙健對新智元介紹說:「之前做Human Parsing這個任務的都是基於single instance,也就是每張圖片中只有一個人,然後通過傳統方法或者深度學習的方法對圖片中的人物進行pixel-wise的dense classification,他們沒有考慮更加貼近實際的多人場景。與我們的工作比較類似的還有一個叫做"Instance-Aware Object Segmentation"的任務,相關方法雖然也會針對多人進行檢測與分割,但是只能給出以人物為最小單位的分割結果,並不能細化到每個人的衣服、飾品以及人物各個部位。因此,為了彌補這個研究缺口,我們提出「Multi-Human Parsing」這個任務並構建相應的數據集,我們在檢測圖中出現的所有人物的同時也能夠給出像素級精細的分割結果,這對於虛擬現實、監控安防、群體行為分析、服飾識別與檢索、自動化產品推薦等場景具有非常大的應用價值與意義。」
論文簡介
作者:李建樹(新加坡國立大學)、趙健(新加坡國立大學 & 國防科學技術大學)、魏雲超(新加坡國立大學)、郎叢妍(北京交通大學)、李浥東(北京交通大學)、馮佳時(新加坡國立大學)。
註:前兩名作者為同等貢獻(均為第一作者)。導師馮佳時(https://sites.google.com/site/jshfeng/)是新加坡國立大學助理教授、新加坡國立大學LV實驗室(http://www.lv-nus.org/)帶頭人,,本研究工作受新加坡國立大學啟動基金、新加坡教育部學術研究基金資助。
【論文摘要】
近年來,可用的大量數據資源極大驅動了人物解析( Human Parsing )技術的發展。本文闡述了當前一些基準數據集與真實世界的人物解析場景之間的關鍵差異。比如,當前所有的人物解析數據集僅僅包含單人圖像,然而在真實場景中通常會有多個人物同時出現的情況。因此,同時對圖像中的多個人物進行解析更為符合實際需求,同時也對已有的人物解析方法提出了更大的挑戰。不幸的是,相關數據資源的匱乏嚴重地阻礙了多人圖像細粒度解析方法的發展。
為了進一步推進人物解析研究,作者首創多人解析(MHP)數據集,每張圖像均包含現實世界場景中的多個人物。 具體而言,MHP數據集的每張圖片包含2-16個人物不等,每個人物按照18個語義類別(背景除外)進行像素級別的標註。此外,MHP圖像中的人物有多種姿態、不同程度的遮擋以及多樣化的交互。為了解決所提出的多人解析這一難題,作者提出了一個新型的多人解析器 (MH-Parser)模型,在針對每個人物進行端到端解析的過程中,同時考慮全局信息與局部信息。實驗結果表明,這一模型遠優於簡單的「檢測+解析」方法,使得其作為一個穩定的基準,助推未來在真實場景中人物解析的相關研究。
深入了解
圖1:MHP數據集與PASCAL-Person-Part和Look into Person兩個Human Parsing數據集部分樣本的可視化對比。
表1:MHP數據集與其他 Human Parsing 數據集的統計數據對比,其中包括每張圖片中平均出現的人物數量、圖像總數、訓練圖像數量、驗證圖像數量、測試圖像數量以及語義類別數量。
圖2:(左)MHP數據集標註示例;(中)每張圖片所含人物數量的統計信息;(右)語義類別統計信息。
圖3 :MH-Parser模型的原理圖。
表2:不同模型所取得的解析結果對比。不同的模型使用的是不同的組件(G代表全局解析器,L 代表局部解析器,A 代表聚合器)。
表3 :MH-Parser模型與其他變體的性能指標對比。
圖4:準確率--召回率曲線以及PCP-IOU曲線。
圖5:MH-Parser模型在Human Parsing數據集的預測結果可視化。
圖6: 錯誤案例分析。
作者趙健對新智元表示,後續他們的工作還將圍繞「Multi-Human Parsing」展開與深入,將提出更加有效的方法來解決這一難題,也將構建更大規模、更加精細的數據集來推動相關技術的發展和進步。
論文原文鏈接:https://arxiv.org/abs/1705.07206
※「AI+娛樂」一圖看懂愛奇藝大腦增強版,智能視頻峰會有AI更有愛
※自然語言GAN惹爭議:深度學習遠離NLP?
※1小時訓練ImageNet:Facebook賈揚清何愷明論文
※波士頓動力幸遇最強接盤俠,軟銀收購兩家谷歌機器人公司
TAG:新智元 |
※新加坡高等教育國際化政策探析——以新加坡國立大學為例
※新加坡國立大學:TweetFit-融合多種社會媒體和感測器數據進行健康檔案學習
※首屆新加坡文創大賽標誌設計揭幕
※華為雲新加坡大區開服;默克就提高CRISPR基因組編輯方法獲首個美國專利
※阿里巴巴在新加坡設立AI研究開發據點
※新加坡知名大學豪發獎學金,中國各地區考試詳情來啦
※新加坡國立大學招生政策大調整,重磅推出3項招生新計劃!
※重磅!新加坡國立大學校長公開道歉
※打造永恆的校園——新加坡國大-大學城景觀設計分析
※新加坡IBD公司為行業發聲,樹立區塊鏈項目典範
※澎思新加坡研究院正式揭牌成立,牽手新加坡兩大TOP高等學府
※終於,中國成為新加坡最大客源國
※DNV GL投資建立新加坡3D列印中心
※韓國互聯網巨頭在新加坡建立子公司,以吸引外國的數字貨幣投資
※新加坡國立大學研究出新型微型視覺處理晶元,能夠應用於物理網領域,可極大降低系統尺寸
※新加坡VR未來有限公司,在全球首次實現VR+BT,虛擬現實+區塊鏈技術深度融合
※Grab和NUS在新加坡開設AI實驗室
※綠豹集團與新加坡主板上市公司KTL達成BOP戰略合作
※跟隨DUCK&HiPPO鴨子與河馬集團,發現精彩新加坡!
※中國銀行新加坡分行助力新加坡企業參加中國國際進口博覽會