新加坡國立大學LV實驗室發布多人圖像解析數據集與模型
新智元推薦
編輯:弗格森
【新智元導讀】近日,新加坡國立大學LV實驗室首次提出多人解析(Multi-Human Parsing)任務,對傳統的人物解析進行了拓展與延伸,從而更好地匹配現實應用場景。他們構建了一個全新的大規模多人解析數據集(MHP),並給出了相應的評測標準,極大地推進了深度學習與計算機視覺領域相關技術的發展。
基於人物圖像的細粒度解析是計算機視覺領域的一個非常重要的任務。人物解析(Human Parsing)指的是將人物圖像按像素級別分割成屬於身體部位或衣物項目的多個語義一致的區域。人物解析技術是很多實際應用的基礎與關鍵,如虛擬現實、視頻監控與群體行為分析。與單人圖像解析相比,在多人交互的場景中進行人物解析則更具挑戰性、更有現實意義。
為了解決這一難題,近日,新加坡國立大學LV實驗室首次提出多人解析(Multi-Human Parsing)任務,對傳統的人物解析進行了拓展與延伸,從而更好地匹配現實應用場景。他們構建了一個全新的大規模多人解析數據集(MHP),並給出了相應的評測標準,極大地推進了深度學習與計算機視覺領域相關技術的發展。針對所提出的多人解析任務,他們又提出一個全新的多人解析器(MH-Parser)模型,該模型在端到端訓練過程中將全局信息與局部信息進行有機融合,性能遠優於簡單的「檢測+分割」的方法。
作者趙健對新智元介紹說:「之前做Human Parsing這個任務的都是基於single instance,也就是每張圖片中只有一個人,然後通過傳統方法或者深度學習的方法對圖片中的人物進行pixel-wise的dense classification,他們沒有考慮更加貼近實際的多人場景。與我們的工作比較類似的還有一個叫做"Instance-Aware Object Segmentation"的任務,相關方法雖然也會針對多人進行檢測與分割,但是只能給出以人物為最小單位的分割結果,並不能細化到每個人的衣服、飾品以及人物各個部位。因此,為了彌補這個研究缺口,我們提出「Multi-Human Parsing」這個任務並構建相應的數據集,我們在檢測圖中出現的所有人物的同時也能夠給出像素級精細的分割結果,這對於虛擬現實、監控安防、群體行為分析、服飾識別與檢索、自動化產品推薦等場景具有非常大的應用價值與意義。」
論文簡介
作者:李建樹(新加坡國立大學)、趙健(新加坡國立大學 & 國防科學技術大學)、魏雲超(新加坡國立大學)、郎叢妍(北京交通大學)、李浥東(北京交通大學)、馮佳時(新加坡國立大學)。
註:前兩名作者為同等貢獻(均為第一作者)。導師馮佳時(https://sites.google.com/site/jshfeng/)是新加坡國立大學助理教授、新加坡國立大學LV實驗室(http://www.lv-nus.org/)帶頭人,,本研究工作受新加坡國立大學啟動基金、新加坡教育部學術研究基金資助。
【論文摘要】
近年來,可用的大量數據資源極大驅動了人物解析( Human Parsing )技術的發展。本文闡述了當前一些基準數據集與真實世界的人物解析場景之間的關鍵差異。比如,當前所有的人物解析數據集僅僅包含單人圖像,然而在真實場景中通常會有多個人物同時出現的情況。因此,同時對圖像中的多個人物進行解析更為符合實際需求,同時也對已有的人物解析方法提出了更大的挑戰。不幸的是,相關數據資源的匱乏嚴重地阻礙了多人圖像細粒度解析方法的發展。
為了進一步推進人物解析研究,作者首創多人解析(MHP)數據集,每張圖像均包含現實世界場景中的多個人物。 具體而言,MHP數據集的每張圖片包含2-16個人物不等,每個人物按照18個語義類別(背景除外)進行像素級別的標註。此外,MHP圖像中的人物有多種姿態、不同程度的遮擋以及多樣化的交互。為了解決所提出的多人解析這一難題,作者提出了一個新型的多人解析器 (MH-Parser)模型,在針對每個人物進行端到端解析的過程中,同時考慮全局信息與局部信息。實驗結果表明,這一模型遠優於簡單的「檢測+解析」方法,使得其作為一個穩定的基準,助推未來在真實場景中人物解析的相關研究。
深入了解
圖1:MHP數據集與PASCAL-Person-Part和Look into Person兩個Human Parsing數據集部分樣本的可視化對比。
表1:MHP數據集與其他Human Parsing數據集的統計數據對比,其中包括每張圖片中平均出現的人物數量、圖像總數、訓練圖像數量、驗證圖像數量、測試圖像數量以及語義類別數量。
圖2:(左)MHP數據集標註示例;(中)每張圖片所含人物數量的統計信息;(右)語義類別統計信息。
圖3 :MH-Parser模型的原理圖。
表2:不同模型所取得的解析結果對比。不同的模型使用的是不同的組件(G代表全局解析器,L 代表局部解析器,A 代表聚合器)。
表3 :MH-Parser模型與其他變體的性能指標對比。
圖4:準確率--召回率曲線以及PCP-IOU曲線。
圖5:MH-Parser模型在Human Parsing數據集的預測結果可視化。
圖6: 錯誤案例分析。
作者趙健對新智元表示,後續他們的工作還將圍繞「Multi-Human Parsing」展開與深入,將提出更加有效的方法來解決這一難題,也將構建更大規模、更加精細的數據集來推動相關技術的發展和進步。
※科學π趣味實驗室催化劑的樂趣——大象的牙膏
※科技強國俄羅斯,實驗成果顯赫,簡直是令人目瞪口呆
※視頻|實驗室創造出來的五大詭異生物,竟然還有人造生命?
※從食品安全實驗室到去白雲山上看樹
※省政府召開常務會議研究支持青島海洋科學與技術國家實驗室建設等工作
TAG:實驗 |
※大數據採集與加工項目招商
※iOS 平台基礎性能數據採集與實踐
※MURA:斯坦福ML團隊開放的大型放射影像數據集與挑戰賽
※工業大數據的搜集與分析是轉型智能製造的關鍵
※GDPR與WHOIS:域名註冊信息收集與使用合規爭議的現實與價值
※Python拉鉤數據採集與可視化
※課本典故搜集與整理
※《致全人類》公開系統介紹影像 探索、搜集與製作
※中集與大族激光再度聯手 智能製造合作升級
※新研究:在單晶元上集成能量採集與存儲等功能
※綠聯 UGREEN 藍牙音頻接收器「藍牙音效卡」apt-X版拆解 圖集與簡單說明「Soomal」
※目標姿態檢測數據集與渲染方法
※5G時代車聯網數據的採集與安全性
※Soomal 2019版音頻客觀測試平台更新說明 暨RME ADI-2 Pro圖集與介紹Soomal
※雲計算數據採集與網路取證分析
※Soomal 2019版音頻客觀測試平台更新說明 暨RME ADI-2 Pro圖集與介紹 [Soomal]
※github資源推薦:目標姿態檢測數據集與渲染方法
※TVB最新劇集與許志安黃心穎事件如出一轍,主題曲由黃心穎演唱
※萬魔 1MORE 時尚豆 Stylish 藍牙真無線入耳式耳機圖集與補充測評Soomal
※實用技能系列:信息搜集與整理