當前位置:
首頁 > 最新 > 中科院提出人群密度檢測演算法DSNet,準確率提升30%

中科院提出人群密度檢測演算法DSNet,準確率提升30%

作者 | Feng Dai 等

編譯 | Maglish

編輯 | Linda

AI 前線導讀:計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網路:DSNet。該網路的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。

論文還介紹了一種新的多尺度密度水平一致性損失,提升了網路的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新演算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

更多優質內容請關注微信公眾號「AI 前線」(ID:ai-front)

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的回歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網路(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景雜訊和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網路。這些架構一般由 CNN 的幾個列或主幹網路不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網路能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網路能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網路——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網路能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網路,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。

引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。

作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

圖 2 DSNet 網路結構。DSNet 由 VGG-16 網路的前十層組成的主幹網、三個具有密集殘差連接(DRC)的密集擴張卷積塊(DDCB)和三個用於人群密度圖回歸的卷積層組成。利用帶 DRC 的 DDCB 來擴大特徵的尺度多樣性和感受野,以應對較大的尺度變化,從而準確估計密度圖。

2.1 DSNet 結構

我們提出的 DSNET 包含主幹網路作為特徵提取器,三個密集的擴張卷積塊,由密集殘差連接堆疊,擴大了尺度多樣性,以及三個卷積層,用於人群密度圖回歸。

主幹網路

本文所用的主幹網路為 VGG-16 的前十層,以及三個池化層。經驗表明,在多列網路中,使用內核較小但層數較多的卷積層比內核更大但層數更少的卷積層更有效。此外,它還實現了準確率與計算量之間的最佳權衡,適用於準確、快速的人群計數。

密集擴張卷積塊(Dense dilated convolution block,DDCB)

為了應對尺度變化的挑戰,需要一種能夠以儘可能密集的方式捕獲大範圍尺度變化的網路架構。本文提出了一種新的密集擴張卷積塊,它包含三個擴張卷積層,其擴張率為 1,2,3。這種設置可以保留來自更密集尺度的信息,並且感受野尺寸差距較小。區塊內的每個擴張層與其他層緊密相連,因此每個層都可以訪問所有後續層,並傳遞需要保留的信息。密集連接後,獲得的尺度多樣性增加,如圖 3 所示。

圖 3 DDCB 尺度多樣性與密集堆疊的擴張卷積中擴張率(1,2,3)的設置相對應。k 表示相應組合的感受野大小。

精心選擇膨脹率的另一個優點是,它可以克服網格化效果。如圖 4 所示,擴張率為 6 的擴脹卷積層位於擴張率為 3 的擴張卷積層下方。在一維情況下,經過這兩層之後,一個像素的最終結果只能從 7 個像素中獲得信息。當輸入數據是二維時,這種現象會變得更糟。因此,最終像素只能以網格方式查看原始信息,並丟失大部分(86.4%)信息。由於原始特徵圖的局部信息完全丟失,並且由於擴張率大,信息在大距離內可能不相關,這不利於群體計數中捕獲詳細特徵。通過採用新的擴張率組合,頂層可以覆蓋原始特徵圖的所有像素信息,避免中間層擴張率過大造成的大距離無關信息。這對於人群計數的準確性至關重要。

圖 4(a)在 DenseASPP 中具有較大膨脹率的疊加膨脹卷積層,導致「網格化效果」,丟失大量信息。紅色表示信息的來源。(b)本文所提出的 DDCB 中具有(1,2,3)膨脹率的後續卷積層,以覆蓋所有的像素信息。

密集殘差連接(Dense residual connection,DRC)

雖然 DDCB 提供了密集尺度多樣性,但不同塊之間的層次特徵沒有得到充分利用。因此,作者通過密集的殘差連接來改進體系結構,以進一步改進信息流。此外,與傳統的密集連接相比,它們還可以防止網路變得更寬。這樣,DDCB 的輸出可以直接訪問後續 DDCB 的每一層,從而實現連續的信息傳遞。與普通的殘差連接相比,進一步擴大了尺度多樣性,並在信息流過程中自適應地保留了適合特定場景的特徵。

2.2 損失函數

以往的研究大多使用歐幾里得距離損失作為群體計數的損失函數,它只考慮像素誤差,而忽略了估計密度圖和真實密度圖之間的全局和局部相關性。在本文中,作者將多尺度密度水平一致性損失與歐幾里得損失結合起來,衡量全局和局部的一致性。

歐幾里得損失

歐幾里得距離用於測量估計密度圖與真實值之間像素級的估計誤差。損失函數定義如下:

其中 N 是一個 batch 中圖像的數目,G(Xi;θ) 是訓練圖像 Xi 的估測密度圖,參數為θ。D 是 Xi 的實際密度圖。

多尺度密度水平一致性損失

除了像素級損失函數外,作者還考慮了估計密度圖和真實值之間的全局和局部密度水平一致性。新提出的訓練損失定義為:

其中 s 是用於一致性檢查的尺度級別數,P 是平均池化操作,kj 為平均池化的指定輸出大小。

尺度級別將密度圖分割成不同的子區域,並形成池化表示,說明不同位置的人群密度級別。根據密度水平的上下文,在不同的尺度上,估計的密度圖需要與實際情況保持一致。此外,尺度級別的數量和特定尺度的輸出尺寸控制著訓練速度和估計精度之間的權衡。作者採用三個尺度級別,每個輸出尺寸分別為 1×1、2×2 和 4×4。輸出大小為 1×1 的第一個尺度級別捕獲密度水平的全局特徵,而其他兩個尺度級別表示圖像塊的局部密度水平。

最終目標函數

通過對上述兩個損失函數加權求和,整個網路使用以下目標函數進行訓練:

其中λ是平衡像素和密度水平一致性損失的權重。實驗中,不同數據集λ的設定值如表 1 所示。

表 1 不同數據集的λ值

3 實現

3.1 生成真實值

對於數據集中密集人群的場景圖,採用幾何自適應核處理生成密度圖,而對於數據集中人群相對稀疏的圖像,採用固定高斯核生成密度圖。

3.2 評價方法

在測試時,將整個圖像輸入網路以生成估計的密度圖。採用平均絕對誤差(MAE)和均方誤差(MSE)來評價網路性能。MAE 反映了模型的準確性,而 MSE 則反映了模型的魯棒性。數值越低則意味著更好的表現。這兩個指標定義如下:

其中 n 是測試集中的圖像數,Ci 表示預測計數,而 Cgti 表示真實計數值。

4 實驗

4.1 數據集

論文在四個可用的群體統計數據集上評估了 DSNet:ShanghaiTech、UCF-QNRF、UCF_CC _50 和 UCSD。

ShanghaiTech:包含標註圖片 1198 張,共 330165 人,分為 A 和 B 兩個部分,A 包含 482 張圖片,均為網路下載的含高度擁擠人群的場景圖片,人群數量從 33 到 3139 個不等,訓練集包含 300 張圖片和測試集包含 182 張圖片。B 包含 716 張圖片,這些圖片的人流場景相對稀疏,拍攝於街道的固定攝像頭,群體數量從 12 到 578 不等。訓練集包含 400 張圖像,測試集包含 316 張圖像。

UCF-QNRF:這是最新發布的最大人群數據集。它包含 1535 張來自 Flickr、網路搜索和 Hajj 片段的密集人群圖像。數據集包含廣泛的場景,擁有豐富的視角、照明變化和密度多樣性,計數範圍從 49 到 12865 不等,這使該資料庫更加困難和現實。此外,圖像解析度也很大,因此導致頭部尺寸出現大幅變化。

UCF_CC_50:包括 50 張黑白低解析度圖像,人流場景非常密集。每張圖片的標註人數從 94 人到 4543 人不等,平均人數為 1280 人,這使得深度學習的方法具有挑戰性。

UCSD:由 2000 幀監控攝像機拍攝的照片組成,尺寸為 238×158。這個數據集的密度相對較低,每幅圖像 11 到 46 人不等,平均約 25 人。在所有幀中,幀 601 到 1400 為訓練集,其餘幀為測試集。

4.2 對比實驗

作者在四個具有挑戰性的公開群體計數數據集上進行了對比實驗。實驗結果見表 2。可以看出,論文提出的方法在所有數據集和所有評估指標上都達到了最先進的性能。說明所提的方法不僅適用於擁擠的人群場景,也適用於稀疏的人群場景。

表 2 與 Shanghai Tech、UCF-QNRF、UCF_CC_50 和 UCSD 數據集上的最新方法進行比較。與當前最先進的方法相比,DSNet 獲得最佳性能,並且具有大幅提升。

該方法的幾個密度圖示例如圖 5 所示。很明顯,DSNet 取得了較好的表現。圖 5 還驗證了該方法可以捕獲不同大小的頭部尺寸,從而使 DSNet 更加魯棒和準確。

圖 5 由 DSNet 生成的估計密度圖和人群數量的圖示。第一行為從 ShanghaiTech A、ShanghaiTech B 和 UCF-QNRF 數據集中提取的四個樣本。第二行顯示 DSNet 估計的密度圖。最後一行顯示了相應的真實密度圖。DSNet 能夠生成接近真實情況的密度圖和精確的人群計數。

4.3 消融實驗

在本節中,作者在 ShanghaiTech B 數據集上進行了消融實驗,分析了網路構成和損失函數。

網路結構:DSNet 包括主幹網路、密集擴張卷積塊、密集殘差連接和多尺度密度級一致性損失。為了證明它們的有效性,作者通過增加這些組件來進行實驗。實驗結果見表 3。

表 3 在 Shanghai Tech B 數據集上,網路的不同組件的估計誤差。括弧中的數字是密集擴張卷積塊的數目。

作者使用後端網路和最後三個卷積層作為基線模型,MAE 值為 15.21,這是表中所有項目中最低的,但仍然可以比過大多數現有方法。僅通過增加所提出的 DDCB,MAE 降低到 7.33,與以往的方法相比有較大幅度的提高,達到了最佳的性能。說明了密集擴張卷積塊所產生的尺度密集、感受野大的特徵,對於準確、可靠地計算群體數量是必不可少的。

此外,在三個密集擴張卷積塊之間增加密集殘差連接也改善了結果,MAE 進一步降低到 7.06,這表明密集殘差連接通過重複利用不同 DDCB 的特徵進一步擴大了尺度多樣性。

最後,增加密度級一致性損失來訓練整個網路。它進一步將平均絕對誤差降低到 6.74,這是所提出方法的最佳性能,並在數據集上達到了最先進的水平。結果表明,該損失可以使估計密度圖的密度水平與真實值的密度水平在全局和局部上相一致。

此外,作者比較了密集殘差連接與普通殘差連接的影響。實驗結果見表 4。通過利用殘差連接,估計的誤差減小到 6.81,這是由於前一個塊的特徵得到重用,而忽略了其他具有不同尺度的塊的特徵。為了解決這一問題,採用密集的殘差連接進一步將 MAE 降低到 6.74,這表明尺度多樣性進一步擴大,特徵更加有效。

表 4 不同殘差連接的估計誤差。

損失函數:作者提出的新損失採用三個尺度(即平均池化操作的 1×1、2×2、4×4 輸出大小)。作者對這三個尺度級別進行了實驗,證明每一個尺度級別都能使估計的密度圖與真實值之間的一致性得到規範。實驗結果見表 5。

表 5 所提出的一致性損失在不同尺度級別的估計誤差。數字為平均池化操作的輸出大小。

在加入一致性損失函數之前,該網路的 MAE 值達到了 7.06。採用輸出尺寸為 1×1 的單尺度級別,即整個輸入圖像密度水平的全局上下文,平均絕對誤差減小到 6.95。此外,由於加入輸出尺寸為 2×2 和 4×4 的局部密度水平的約束,性能繼續得到改善,使 MAE 分別降低到 6.88 和 6.74。這些增量實驗表明,密度水平的全局和局部正則化都有助於約束估計的密度圖與不同尺度上的真實密度圖相一致,從而生成高質量的密度圖。

5 結論

本文提出了一種新的端到端的單列模型 DSNet,該模型基於具有密集殘差連接的密集擴張卷積塊,能夠準確估計群體數量。這兩個組成部分擴大了尺度的多樣性和特徵的感受野,可以解決尺度變化較大的問題,從而在統計圖像群體數量問題取得了良好的表現。此外,本文引入了一種新的損失來加強估計密度圖的密度水平,使其在不同尺度上與相應的真實值相一致。該方法在四個具有挑戰性的公開群體計數數據集上取得了最先進的結果,並相比以前的方法有大幅提升。

查看論文原文:Dense Scale Network for Crowd Counting

https://arxiv.org/pdf/1906.09707.pdf

標星 置頂美亞柏科

一秒找到美美

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 美亞柏科 的精彩文章:

美亞柏科關於控股股東、實際控制人完成變更的公告
2019中國電子數據取證峰會精華整理,不容錯過!

TAG:美亞柏科 |