當前位置:
首頁 > 最新 > 送你一張拍拍貸的活點地圖

送你一張拍拍貸的活點地圖

用咒語開啟活點地圖的魔法後,

浮現出一張霍(pai)格(pai)沃茨(dai)的地圖

包含秘密通道

想好要找誰了嗎

-

-【前言】-

計算機視覺領域近幾年比較活躍的兩個相關話題:行人追蹤(pedestrian detection)與行人重識別(pedestrian re-identification),結合使用可廣泛應用於智能視頻監控、智能安保、大型公共場所智能尋人等場景。比如你的公司在一棟大樓里,就像拍拍貸一樣:

每天各個部門的同事在樓里上下翻飛。這時候你想找這位英俊的

博凱文小哥提個需求:

但可能完全找不到人,微信不回,電話不接。沒有關係,作為智能辦公系統的一部分,我們的行人重識別技術可以幫助你找到他!

具體怎麼做呢?讓我們從技術原理說起。

-【技術簡介】-

行人追蹤即為檢測畫面上各個行人的位置,是一個目標識別問題。而行人重識別,顧名思義,即是在不同的場景下辨認出相同的行人,可以認為是一類圖像檢索問題。結合兩種以上兩種技術,我們便可以刻畫出目標人物的運動信息。

區別於已經日趨成熟的人臉識別演算法,行人追蹤與行人重識別偏重於對行人整體進行識別。在攝像頭遠景的時候,人臉可能非常小,無法進行識別,這個時候對行人整體進行識別可能有效。

但同時,由於場景的複雜性,例如人物眾多,攝像機角度及拍攝清晰度不同,拍攝時間不同,場景光線變化等,使得行人追蹤與行人重識別演算法的準確性仍達不到能跟人臉識別相提並論的程度,其中行人重識別的挑戰更大。通常,行人追蹤與行人重識別會被當做兩個獨立的領域進行研究。

-【發展歷史】-

行人追蹤方面,在2014年以前,並沒有成熟運用深度學習的卷積神經網路(convolutional neural network),deformable part model[1]一直被視為主流。

該模型主要利用傳統特徵提取方法,例如HOG等進行特徵提取,將物體分為整體特徵與多個局部特徵,分別進行過濾,之後通過特徵矩陣計算響應值,最後放入SVM進行分類計算。然而該模型的弊端非常明顯,特徵提取為人為設計,並且檢測方法不具有普遍性。

之後在2014年,由物體檢測里程碑式人物Ross Girshick開發R-CNN系列,基於卷積神經網路將物體檢測提升到state of art,2017年由華人大神Mingkai He團隊開發mask-rcnn[2]將物體檢測水平更上一層樓。

行人重識別方面,這類方法通常需要提供行人圖片和行人id標籤(person1,person2等),訓練模型,提取圖像特徵,根據兩張圖特徵的距離大小(可以用餘弦距離,歐氏距離之類的計算),為probe中的每張圖和gallery中的每張圖計算其相似度,根據相似度將gallery中的圖片排序,排序越高越可能為同一個人。

目前行人重識別大多數不能擺脫需要人為截取圖片區域的方式,2018年也有學者提出無監督遷移學習方式進行行人重識別[3],並考慮時間和空間因素。

-【演算法決策】-

我們的技術主要基於R-CNN系列中的物體檢測模型Faster-rcnn[4],並參考了香港中文大學Xiao Tong及其團隊的end to end learning演算法[5]。能夠實時識別目標人物在畫面中的位置,並由此做多種展開。

1. faster-rcnn

整個模型可以分為三部分:特徵提取層,物體定位層及最後的全連接層與分類器。

首先將一張完整圖片送入網路,經過特徵提取層進行特徵提取得到一張整體圖片的feature map。接著送入region Proposal Network進行位置定位,即獲取物體的邊框坐標,與初步物體類別分類。隨後將feature map與經過RPN獲得的結果一同放入ROI pooling層進行統一池化(pooling),最後將池化後的固定長度特徵送入分類器進行物體精確分類及精確定位。

著重介紹一下該演算法精華的部分region proposal network。該子網路將物體選擇定位與特徵提取融合到統一的網路中,不僅使整體準確率得到提升也使運算速度加快許多。該網路分為兩個部分,一部分為物體分類,一部分為物體位置定位。

在這之前,首先講一下與該網路有關的兩個知識點:

Anchor

Anchor是不同大小的9個矩形共有3種形狀,長寬比為大約為[1:1, 1:2, 2:1]三種。Anchor的尺寸是按照檢測圖像來設定。基本上九個矩形能夠涵蓋圖片所有信息。這些anchors對feature map中每一個點便有初始的九種定位。從圖中可以看出每一個點輸出了2k scores與4k coordinates,k代表k個anchors,2k scores代表softmax分類器結果,foreground(分類物體)與background(背景);4k coordinates代表物體位置信息[x, y, w, h],之後會用boundingbox regression對其進行精修。而256-d則是之前卷積層輸出的結果。

Boundingbox Regression

對於物體檢測來說,單單知道物體分類並不夠,還需要知道物體的位置。Boundingbox regression就是用來修正物體位置信息的方法。對於每一個物體,都會有預測位置(Foreground anchor)與真實位置(ground truth),通過該演算法,可以使foreground逼近ground truth。

一般方法為先做平移,再做縮放。當anchor與ground truth位置很近時,我們可以將其視作線性問題。構造損失函數為:

其中:

其中學習線性參數w,即:

理清了概念之後,我們來看下RPN的任務。該網路將任務分為兩條支線,一條用來分類,一條用來回歸,位置定位。首先將經過卷積的feature map進行softmax進行分類,並生成anchors進行boundingbox regression。將變換信息(該信息用以將anchor信息重新對應於feature map),anchors與相應分類結果送入proposal layer,該層對於anchors的位置進行修正,並提取foreground anchors進行非極大值抑制(non-maximum suppression),最後輸出篩選的foreground。

整個網路的損失函數思路十分清晰,分為兩條線:分類損失與回歸損失。如下:

其中:

由回歸損失函數公式可見,在此只會考慮foreground anchor,即預測為物體的區域位置。

2. 端到端行人重識別演算法

基於faster-rcnn,在PRN之後加入行人對比網路,使得行人追蹤與重識別整合到同一個網路下。區別於以往將行人追蹤與行人重識別割裂開來進行研究,網路學習不能聯動,難以優化,該模型行人重識別的結果可以反向影響到行人追蹤的結果,使得網路學習更加高效,互相聯動,從而取得更好的效果。

該模型主要分為兩條支線:一條線用來提取候選人物特徵及區域信息。一條線用以比較候選人物與目標人物之間的差異。

該網路首先用成熟模型的卷積層提取特徵(vgg16,resnet-50等),再進行卷積得到feature map,隨後送入Pedestrian proposal net,即變體的RPN進行物體分類及位置定位,輸出128個候選人區域,而後將輸出送入ROI pooling layer進行統一池化。此時選物體已經經過初步篩選,該部分與faster-rcnn大同小異。

選出候選物體之後,再將候選物體及目標物體一同送入Identification Net進行統一的特徵提取與對比判定。Identification Net主要由成熟模型(如resnet50)的部分卷積層與一個池化層,global average pooling layer組成。

因為在候選人篩選過程中避免不了出現誤判錯判的情況,因此在identification net之上會有一個分類器及boundingbox regression來過濾錯誤判斷與位置精修。另一方面,經過identification net的特徵提取後將目標物體和候選物體統一映射到L2正則化的256維特徵空間用以縮減冗餘特徵保留不變數。此時,已經完成了最終的特徵提取過程,隨後可以通過計算特徵矩陣相似度進行識別。

伴隨該網路,作者提出了online instance matching loss的概念。簡單概括來說,該損失函數著眼於將目標物體與所有候選物體進行對比(刨除背景),這樣既可以利用與目標物體吻合的候選物體(labeled identity)信息,也可以利用非目標物體的候選物體(unlabeled identity)。

結構上保留一個結構記錄所有labeled identities,在向前傳播中將一個mini-batch與所有labeled identities進行比較,向後傳播時更新相關identity參數;並設置一個circular queue保存unlabeled identities的特徵,每一輪迭代剔除過時的unlabeled identities,加入最新的那些。使得整個訓練更加高效。該思路與triplet loss有異曲同工之處。

由此可見,Identification Net中的比對結果可以直接對行人追蹤(Pedestrian Proposal Net)產生影響,在訓練過程中,不只物體追蹤的信息會被學習到,而且目標物體與非目標物體區別的特徵信息更會被強化。同時利用目標物體特徵與非目標物體特徵進行學習也是該模型的優勢之一。

在訓練方式上,我們採用常用的預訓練 + 遷移學習的方式,先使用一般場景的訓練集進行大規模訓練,再使用針對場景的小規模訓練集進行微調。最終模型在對應場景的測試集上效果提升明顯。微調模型相比於default模型MAP提升17.87%,recall提升29.20%;排序識別方面,選擇top-1準確率提升3.87%,top-5準確率提升12.21%,top-10準確率提升9.09%。

魔法棒拿起來,試一下~

GIF

喏,文章開頭英俊的博凱文找到啦:

GIF

GIF

-【總結】-

現如今人臉識別已經成為深度學習技術成熟應用的代表,行人追蹤與行人重識別在應用途徑上更為廣泛,但相比人臉識別,該領域的技術還並沒有被廣泛應用。拍拍貸也將不停探索包括人臉識別,行人追蹤等各個領域,並嘗試將其應用於自身業務,真正實現用科技為金融賦能。

-【參考文獻】-

[1] Object detection with discriminatively trained partbased models. IEEE Trans. PAMI, 32(9):1627–1645, 2010.

[2] Mask-RCNN. Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick. 2017.

[3] Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns. Jianming Lv, Weihang Chen, Qing Li, Can Yang. 2018

[4] Ren, Shaoqing, et al. 「Faster R-CNN: Towards real-time object detection with region proposal networks.」 Advances in Neural Information Processing Systems. 2015.


[5] Joint Detection and Identification Feature Learning for PersonSearch.Tong Xiao,Shuang Li,Bochao Wang,Liang Lin,Xiaogang Wang.2017

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 拍黑米 的精彩文章:

TAG:拍黑米 |