新加坡國立大學LV實驗室發布多人圖像解析數據集與模型

最新 06-10

新智元推薦

編輯：弗格森

【新智元導讀】近日，新加坡國立大學LV實驗室首次提出多人解析（Multi-Human Parsing）任務，對傳統的人物解析進行了拓展與延伸，從而更好地匹配現實應用場景。他們構建了一個全新的大規模多人解析數據集（MHP），並給出了相應的評測標準，極大地推進了深度學習與計算機視覺領域相關技術的發展。

基於人物圖像的細粒度解析是計算機視覺領域的一個非常重要的任務。人物解析（Human Parsing）指的是將人物圖像按像素級別分割成屬於身體部位或衣物項目的多個語義一致的區域。人物解析技術是很多實際應用的基礎與關鍵，如虛擬現實、視頻監控與群體行為分析。與單人圖像解析相比，在多人交互的場景中進行人物解析則更具挑戰性、更有現實意義。

為了解決這一難題，近日，新加坡國立大學LV實驗室首次提出多人解析（Multi-Human Parsing）任務，對傳統的人物解析進行了拓展與延伸，從而更好地匹配現實應用場景。他們構建了一個全新的大規模多人解析數據集（MHP），並給出了相應的評測標準，極大地推進了深度學習與計算機視覺領域相關技術的發展。針對所提出的多人解析任務，他們又提出一個全新的多人解析器（MH-Parser）模型，該模型在端到端訓練過程中將全局信息與局部信息進行有機融合，性能遠優於簡單的「檢測+分割」的方法。

作者趙健對新智元介紹說：「之前做Human Parsing這個任務的都是基於single instance，也就是每張圖片中只有一個人，然後通過傳統方法或者深度學習的方法對圖片中的人物進行pixel-wise的dense classification，他們沒有考慮更加貼近實際的多人場景。與我們的工作比較類似的還有一個叫做"Instance-Aware Object Segmentation"的任務，相關方法雖然也會針對多人進行檢測與分割，但是只能給出以人物為最小單位的分割結果，並不能細化到每個人的衣服、飾品以及人物各個部位。因此，為了彌補這個研究缺口，我們提出「Multi-Human Parsing」這個任務並構建相應的數據集，我們在檢測圖中出現的所有人物的同時也能夠給出像素級精細的分割結果，這對於虛擬現實、監控安防、群體行為分析、服飾識別與檢索、自動化產品推薦等場景具有非常大的應用價值與意義。」

論文簡介

作者：李建樹（新加坡國立大學）、趙健（新加坡國立大學 & 國防科學技術大學）、魏雲超（新加坡國立大學）、郎叢妍（北京交通大學）、李浥東（北京交通大學）、馮佳時（新加坡國立大學）。

註：前兩名作者為同等貢獻（均為第一作者）。導師馮佳時（https://sites.google.com/site/jshfeng/）是新加坡國立大學助理教授、新加坡國立大學LV實驗室（http://www.lv-nus.org/）帶頭人，，本研究工作受新加坡國立大學啟動基金、新加坡教育部學術研究基金資助。

【論文摘要】

近年來，可用的大量數據資源極大驅動了人物解析（ Human Parsing ）技術的發展。本文闡述了當前一些基準數據集與真實世界的人物解析場景之間的關鍵差異。比如，當前所有的人物解析數據集僅僅包含單人圖像，然而在真實場景中通常會有多個人物同時出現的情況。因此，同時對圖像中的多個人物進行解析更為符合實際需求，同時也對已有的人物解析方法提出了更大的挑戰。不幸的是，相關數據資源的匱乏嚴重地阻礙了多人圖像細粒度解析方法的發展。

為了進一步推進人物解析研究，作者首創多人解析（MHP）數據集，每張圖像均包含現實世界場景中的多個人物。具體而言，MHP數據集的每張圖片包含2-16個人物不等，每個人物按照18個語義類別（背景除外）進行像素級別的標註。此外，MHP圖像中的人物有多種姿態、不同程度的遮擋以及多樣化的交互。為了解決所提出的多人解析這一難題，作者提出了一個新型的多人解析器 (MH-Parser)模型，在針對每個人物進行端到端解析的過程中，同時考慮全局信息與局部信息。實驗結果表明，這一模型遠優於簡單的「檢測+解析」方法，使得其作為一個穩定的基準，助推未來在真實場景中人物解析的相關研究。

深入了解