當前位置:
首頁 > 知識 > 中山大學&商湯提出部分分組網路PGN,解決實例級人體解析難題

中山大學&商湯提出部分分組網路PGN,解決實例級人體解析難題

選自arXiv

作者Ke Gong等

機器之心編譯

參與:Pedro、雪

近日,中山大學和商湯的研究人員在 arXiv 上發表論文,提出一種新型網路——部分分組網路(PGN),該網路將實例級人體解析重新定義為兩個可以通過統一網路共同學習和相互完善的孿生子任務:1)將每個像素指定為人類部分(如面部、手臂)的語義部分分割;2)實例感知邊緣檢測,將語義部分劃分給不同的人物實例。該研究還提出了一個用於實例級人體解析的新型大規模數據集 CHIP,PGN 在現有的 PASCAL-Person-Part 和新的 CIHP 數據集上的性能均達到了當前最佳。

識別每個語義部分(如手臂、腿等)是人體解析中最基本、最重要的一部分。不僅如此,它還在許多高級應用領域中發揮了重要的作用,例如視頻監控 [38]、人類行為分析 [10,22] 等。

在全卷積網路(FCN)[29] 的推動下,人們使用深度學習技術提取特徵 [37,14],標註了大量的數據集 [24,11],並推進了圖模型上的推理 [45,3],這些使得人體解析(語義部分分割)的研究在近期取得了巨大進展。然而,以前的方法只關注簡化、有限場景下的單人解析任務(例如人體呈直立姿勢的時尚圖片 [41,8,18,23,6] 以及各種日常圖像 [11]),而現實生活中的場景往往是單個圖像中出現多個人類實例。這類單人解析任務極大阻礙了人體分析在其他更具挑戰性的場景(例如:群體行為預測)中的應用。

本文試圖解決更具挑戰性的實例級人體解析任務,它不僅需要對各個身體部位或衣服進行分割,還需要將每個部分與一個人類實例相關聯,如圖 1 所示。除了單人解析任務也存在的困難(例如:各種外觀/視點、自遮擋問題)之外,實例級人體解析還要面臨一些更具挑戰性的任務——不同圖像中的人物實例數量差距巨大,而傳統的單人解析流程無法處理這種問題:傳統方法的預測空間有限,只能對固定數量的人體部分標籤進行分類。

圖 1:大規模「多實例級人體解析(Crowd Instance-level Human Parsing,CIHP)」數據集,該數據集包含 38280 個經過精心標註的多人圖像,它們內容各異且具備很高的複雜度。圖像原圖顯示在第一行。語義部分分割的標註與實例級人體解析分別在第二和第三行。

近期的研究 [16] 延續了「檢測-解析」(parsing-by-detection)的流程 [12,21,7,31,13],該流程先定位實例邊界框,再對每個邊界框進行細粒度語義解析。然而,這種用於檢測和分割的複雜流程是通過若干獨立的目標和階段來訓練的,這可能導致粗定位和像素級部分分割的結果不一致。例如,分割模型可能會因為檢測模型的緣故錯誤地在檢測到的邊界框外預測語義部分區域,因為它們的中間表徵被拖向了不同的方向。

本研究從一個全新的角度重構實例級人體解析方法,即利用一個統一網路對兩個連續的分割部分進行分組,包括部分級像素分組(part-level pixel-grouping)和實例級部分分組(instance-level part-grouping)。首先,部分級像素分組可以藉助以單個像素為一個部分標籤的語義部分分割任務得到解決,這個方法學習了類別特徵。之後,給定一組獨立的語義部分,實例級部分分組可以根據預測的實例感知邊緣(instance-aware edge)確定所有部分到底屬於哪個實例,其中由實例邊緣分隔的部分將被分給不同的人物實例。這種聯合優化語義部分分割和實例感知邊緣檢測的無檢測統一網路被稱為部分分組網路(Part Grouping Network,PGN),如圖 4 所示。

圖 4:部分分組網路(PGN)圖示。給定輸入圖像,使用 ResNet-101 提取共享特徵圖。然後添加兩個分支以捕捉部分區域和人體邊界區域,同時生成部分分數圖和邊緣分數圖。最後,執行細化分支(refinement branch),通過整合部分分割和人體邊界區域來細化預測的分割圖和邊緣圖。

此外,與其他 proposal-free 方法 [25,15,22] 通過幾個獨立的網路將實例對象分割任務分解為多個子任務並採用複雜的後處理不同的是,PGN 藉助統一網路無縫地集成了部分分割和邊緣檢測模塊,它首先學習共享表徵,然後添加兩個並行分支,分別處理語義部分分割和實例感知邊緣檢測。由於兩個模塊通過共享一致的分組目標而保持了相互之間的高度相關性,PGN 得以進一步整合了一個細化分支,利用互補的語境信息使兩個目標相互受益。通過無縫地補救每個目標的誤差,這種集成的細化方案能夠很好地處理那些具有挑戰性的案例。如圖 2 所示,我們可能無法通過分割分支定位小孩,但是可以通過邊緣分支成功檢測到他的位置,或者使用細化演算法來校正實例邊界被錯誤標註的背景邊緣。給定語義部分分割和實例邊緣檢測,一個有效的切割推斷(cutting inference)可以通過聯合掃描分割與邊緣圖對線段進行廣度優先搜索,並利用這個結果生成實例級的人體解析結果。

圖 2:PGN 中的細化方案可以完美地修正複雜圖像的部分和邊緣誤差。第一行中,分割分支無法定位小型對象(如左側角落處的人和右下角處的手),但是邊緣分支能夠成功檢測到它們。第二行中,背景邊緣被錯誤標註。但是,PGN 中的細化分支糾正了這些錯誤。

此外,在本文的工作填補這一空白之前,沒有可用於實例級人體解析研究的大規模數據集。本文引入了一個新的大型數據集 Crowd Instance-level Human Parsing(CIHP),包括 38280 個多人圖像與實例級的 19 個語義部分的像素級標註。數據集經過精心標註,重點關注室外多人場景的語義理解,如圖 1 所示。除此之外,本文還提出了一個公共伺服器基準,用於自動反饋評估結果,以便進行公平對比。

本文的貢獻:1)研究了更具挑戰性的實例級人體解析,拓寬了人類解析的研究邊界,使相關研究更好地應用到現實場景中。2)提出了一種新的部分分組網路(PGN),通過將其重新組合為兩個可以相互完善的孿生分組任務(語義部分分割和實例邊緣檢測),在統一網路中解決多人人體解析問題。3)為實例級人體解析構建了一個新的大規模基準,並提供了詳細的數據集分析。4)PGN 超越了以前的語義部分分割和邊緣檢測任務的方法,且在現有的 PASCAL-Person-Part [6] 和新的 CIHP 數據集上的表現均達到了當前最佳。

論文:Instance-level Human Parsing via Part Grouping Network

論文鏈接:https://arxiv.org/abs/1808.00157

摘要:由於缺乏足夠的數據資源,以及僅通過單次掃描解析多個實例的技術難度,現實人體分析場景中的實例級人體解析仍未得到充分研究。幾個相關的研究都遵循「檢測-解析」的流程,該流程嚴重依賴單獨訓練的檢測模型來定位實例,然後順序地為每個實例執行人體解析。儘管如此,檢測和解析的不同優化目標導致次優表徵學習和最終結果中的誤差累積。本研究首次嘗試使用無檢測的部分分組網路(PGN),以便只通過一次掃描就能有效地解析單個圖像中的多個人類實例。PGN 將實例級人體解析重新定義為兩個可以通過統一網路共同學習和相互完善的孿生子任務:1)將每個像素指定為人類部分(如面部、手臂)的語義部分分割;2)實例感知邊緣檢測,將語義部分劃分給不同的人物實例。因此,共享中間表徵不僅可以表徵細粒度部分,還能推斷每個部分屬於哪個實例。最後,我們使用簡單的實例劃分就能獲得最終結果。實驗在 PASCAL-Person-Part 數據集上進行,PGN 優於所有之前的方法。此外,本文還展示了其在新收集的多人解析數據集 CIHP 上的優勢,該數據集包含 38280 個不同圖像,是迄今為止最大的數據集,幫助推動人體解析的進一步研究發展。

CIHP 基準以及源代碼地址:http://sysu-hcp.net/lip/

圖 5:使用本文方法處理實例級人體解析任務的流程圖。首先由 PGN 處理,同時掃描部分分割圖和邊緣圖以創建水平和垂直分割線。就像連通圖問題一樣,廣度優先搜索可用於將線段分組成區域。此外,實例邊界附近的小區域被合併到它們的鄰近區域,包括更大的面積和多個部分標籤。結合實例圖和部分分割圖,該流程最終輸出預測準確的實例級人體分析結果,無需來自目標檢測的任何 proposal。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

多GPU 加速學習,這是一份嶄新的 XGBoost 庫
AI醫療新突破:增強罕見疾病的影像數據集,大幅提高識別準確率

TAG:機器之心 |