視頻監控中的行人再識別技術綜述
摘要:針對視頻監控中的行人再識別問題,介紹了行人再識別概念、研究現狀、性能評測、安防應用四個主要部分;通過對行人再識別演算法的性能分析,論述了各種演算法的特點;同時,重點介紹了行人再識別演算法性能測試所採用的常用數據集,以及相應的評測指標;最後介紹了視頻監控中的行人再識別使用情況和所需要關注的重點研究內容。
關鍵詞:行人再識別跨視域跟蹤行人檢測特徵提取視頻監控
引 言
我國平安城市建設發展迅速,利用眾多的視頻監控攝像頭快速、準確獲取場景中的人像信息對安防和公安刑偵業務十分重要。到十三五初期,我國已初步建成覆蓋主要大中小城市的視頻監控網。據統計,我國城鎮視頻監控鏡頭已經超過2500萬個。利用視頻監控進行人臉識別和行人身份識別,越來越受到公安部門的重視。
隨著攝像頭網路規模和數量不斷增加,所監控區域的環境越來越多樣,人工分析視頻圖像因其效率低下、需要耗用大量人力資源而越來越跟不上當前公安業務發展的需求。一方面,儘管基於人工智慧技術的人臉識別在交通卡口和攝像頭角度適合的情況下能夠正常工作,但是多數監控中的人臉因圖像質量不滿足要求而無法進行識別;另一方面,利用視頻監控進行案件偵破時,多數場合只能看清行人的身體部分,需要進行跨視域的連續跟蹤查找。
行人再識別指的是對於某個攝像頭中出現的一個行人,識別其是否在其它攝像頭中再次出現。基於行人再識別的連續跟蹤,有可能在某個攝像頭下能夠獲取到可以進行自動人臉識別的圖像。行人再識別是當前計算機視覺和模式識別領域中的前沿課題,對公安刑偵和安防監控具有非常重要的應用價值。近年來,雖然單個攝像頭視頻序列分析技術已經取得了長足的進步,其中部分已經取得了實際的應用,但是,單個攝像頭無法覆蓋到更廣大的區域,因此分析一個地區的視頻信息需要綜合多個攝像頭的視頻序列。跨視域指各攝像頭位於不同的位置和視角,其視域互不重疊,如圖1所示。為解決攝像頭網路下的廣域行人分析,就必須首先解決跨視域多攝像頭下行人再識別這一關鍵技術課題。近年來,跨視域多攝像頭下行人再識別方法受到了相關領域科研人員越來越多的關注,同時也受到政府和公安部門越來越多的重視。
行人再識別是多攝像頭視頻監控系統中至關重要的一環,是一種基於視覺外觀信息的目標識別方法。近年來眾多的研究工作開始轉向跨視域多攝像頭下的行人再識別問題。這裡隱含地假設行人圖像是在相近的時間段內被拍攝到的,其衣服或體型沒有太大的變化。
一、視頻監控中的行人再識別
行人再識別的研究開始於多攝像頭跟蹤。在早期,行人再識別常常與多攝像頭跟蹤聯繫在一起,其行人外觀模型往往與跨視域多攝像頭校準集成在一起。Huang和Russell提出了一種貝葉斯公式,在給定其他攝像頭視域下觀察到的樣本下,該方法可以估計在一個攝像頭中預測物體外觀的後驗概率。據本文所知,第一篇使用術語「行人再識別」的多攝像頭跟蹤工作來自於Zajedel等人發表的題為「Keeping Track of Humans: Have I Seen this Person Before?」的論文,其旨在重新識別離開視野後並重新進入視野時的一個人。該方法為每個行人假定了一個唯一的身份標籤,並定義動態貝葉斯網路以對來自跟蹤序列的標籤和特徵之間的概率關係進行編碼,而進入視野的行人的身份由近似貝葉斯推理演算法計算的後驗身份標籤分布決定。之後,Gheissari等人在時空分割演算法之後僅使用行人的視覺外觀特徵用於前景檢測,其基於顏色和顯著性格林直方圖的視覺匹配演算法使用了一個鏈式行人模型或Hessian-Affine興趣點運算符,其實驗數據集包括了44個行人,由中度視域重疊的3個攝像頭捕獲。這項工作標誌著行人再識別領域與多攝像頭跟蹤領域的研究分離,而此後行人再識別開始成為一個獨立的計算機視覺任務。
行人再識別主要研究使用視覺特徵來匹配行人目標。良好的行人再識別方法可以在多攝像頭跟蹤子系統中與攝像頭網路拓撲推導的時空推理信息相結合,進一步篩選所需匹配的行人候選集。行人再識別是非常具有挑戰性的,因為同一個人在不同攝像頭視域下捕獲到的行人圖像常常有著解析度、亮度、姿態和視角等的顯著變化。由於監控攝像頭拍攝到的尺寸通常較小,因此大量的視覺細節(如人臉)在圖像中是模糊不可區分的,而一些行人圖像在外觀上看起來又比較相似。因此,用於匹配圖像的描述子和距離度量需要對這些攝像頭之間的變化具有高度的鑒別力和魯棒性。從技術上講,行人再識別子系統又可以分為兩個模塊,即行人檢測和行人檢索,因為通常把行人檢測模塊作為單獨的計算機視覺任務,所以大多數行人再識別的工作集中於行人檢索模塊。從計算機視覺的角度來看,行人再識別中最具挑戰性的問題是如何在劇烈地外觀變化下(例如照明、姿勢和視域等)正確地匹配同一個人的兩張行人圖像,而這具有重要的應用價值。另外,不同的攝像頭視域之間通常存在非常大的視角、照明條件和攝像頭設置的變化,這樣就給基於外觀的跨視域多攝像頭下人像匹配帶來了巨大的挑戰。
二、技術現狀
行人再識別由於受到不同攝像頭所處的角度、光照等環境的影響,會導致尺度、光照和角度的變化,同一個行人在不同攝像頭中的圖像中,表觀會有一定程度的變化,有時不同行人的特徵可能比同一個人的外貌特徵更相似,這是難點所在。針對這些問題,行人再識別領域的研究工作主要採用研究行人對象的特徵表示方法,提取更具有魯棒性的鑒別特徵對行人進行表示,以及採用距離度量學習方法,通過學習一個有判別力的距離度量函數,使得同一個人的圖像間距離小於不同行人圖像間的距離。有的研究者也開始嘗試採用深度學習的方法,通過深度神經網路提取行人的圖像特徵。
基於圖像的行人再識別技術,其核心目標是為一張指定的行人圖像找到包含N張行人圖像的候選集中與之最相似的行人圖像。為了將不同身份的行人區別出來,行人再識別需要提取有鑒別力的行人特徵描述子。在日常生活中,人類通常根據服飾識別是否是同一個行人,而在智能多攝像頭監控系統中,行人外觀通常由於照明、行走姿勢、攝像頭視域的變化而劇烈變化。如何在劇烈的外觀變化下提取魯棒的描述子,是一個非常具有挑戰性的問題。顏色是在行人描述子中最常用的鑒別性特徵,同時,加入紋理特徵。基本方法是將行人前景從背景中分割出來,並為每個身體和身體部件計算一個對稱軸。基於身體不同部分計算加權顏色直方圖(Weighted Color Histogram,簡稱為WH)其中,WH為對稱軸附近的像素分配較大的權重,並為每個身體部件生成一個顏色直方圖;MSCR檢測穩定的顏色區域,並提取顏色、面積和質心等特徵;Gray和Tao在亮度通道上使用8個顏色通道(RGB、HS和YCbCr)和21個紋理濾波器,並且將行人圖像劃為水平條。許多後來的工作採用與該方法相同的特徵集[6-8]。近幾年來,手工設計的行人描述子與上述早期工作相比或多或少保持了相似的設計思路。主要將行人圖像劃分為以5個像素為步長密集採樣的10×10區塊,從每個區塊中提取32維LAB顏色直方圖和128維SIFT描述子,接著使用鄰接約束搜索從候選集圖像中查找與查詢圖像區塊具有相同高度的最佳匹配水平條。
除了直接使用底層顏色和紋理特徵之外,另一類方法是基於屬性的特徵,屬性特徵可以被視為中間層表示。人們認為與底層描述子相比,屬性特徵對於圖像變換更加魯棒。例如,有的研究者在VIPeR數據集上標註與服飾和軟生物特徵相關的15個二進位屬性,接著底層顏色和紋理特徵被用於訓練屬性分類器,一些最近的工作借用外部數據進行屬性學習。Su等人將同一個行人在不同攝像頭下的二進位語義屬性嵌入到連續的底層屬性空間中,使得屬性向量對於匹配更具鑒別力。Shi等人提出從現有的時裝攝影數據集學習一些屬性,其中包括顏色、紋理和類別標籤,這些屬性直接用於行人再識別,得到了較好的結果。
三、常用數據集
表1總結了目前行人再識別常用的一些數據集。這些數據集反映了各種場景,例如,GRID數據集收集於地下車站,iLIDS收集於機場到達大廳,CUHK01,CUHK02,CUHK03和Market-1501收集於大學校園。本文重點介紹下列幾個數據集。
1. VIPeR數據集
VIPeR數據集是目前最廣泛採用的基準測試數據集,它總共包含1264張圖像,從戶外環境的兩個不同的攝像頭中捕獲。該數據集包括632個行人,每個行人有兩張圖像。VIPeR廣泛用於評估行人識別外觀模型,並且非常具有挑戰性,因為其行人圖像在視域、姿態、解析度和光照方面的變化很大。在此數據集中,所有圖像均歸一化為128×48的像素解析度。一般的評測方法如下,將該數據集隨機分為2個數量相等的部分,一個用於訓練,另一個用於測試。在一次試驗中,一個攝像頭中的圖像依次作為查詢圖像和另一個攝像頭上的候選集圖像做匹配,如此重複10次試驗並計算平均結果作為最終結果。VIPeR數據集中的一些示例圖像如圖2所示。
2. ETHZ數據集
ETHZ數據集包括從移動攝像頭捕獲的三個視頻序列,並且隨著行人外觀、攝像頭解析度、照明和重度遮擋的一系列變化而變化。該數據集結構如下:SEQ.#1包含83個行人(4857張圖像);SEQ.#2包含35個行人(1936張圖像);SEQ.#3包含28個行人(1762張圖像)。在原始ETHZ數據集中,圖像樣本被歸一化為64×32的像素解析度。一般的評測方法也包括10次隨機試驗,每一次試驗為每個行人選擇一張圖像構成候選集,剩下的則是查詢圖像。10次試驗得到的平均結果作為最終結果。
3. PRID 450S數據集
PRID 450S數據集從兩個不相交的監控攝像頭上總共捕獲450對行人圖像對。行人檢測矩形框是手動標記的,原始圖像解析度為720×576像素。此外,該數據集還提供了以下區域的行人部件分割:頭部、軀幹、腿部、軀幹處攜帶的物體(如果有的話)和軀幹下方攜帶的物體(如果有的話)。類似於VIPeR,一般的評測方法將該數據集隨機分為兩個數量相等的部分,一個用於訓練,另一個用於測試,並重複10次試驗取結果的平均值。PRID450S數據集中的一些示例圖像如圖3所示。
4. Market-1501數據集
不同於上述三個小規模數據集,Market-1501數據集是一個大規模數據集,由清華大學研究團隊構建並公開。它包括由6個攝像頭(其中5個高清攝像頭和1個低清攝像頭)拍攝到的1501個行人、32668個檢測到的行人矩形框。每個行人至少由2個攝像頭捕獲到,並且在一個攝像頭中可能具有多張圖像。另外值得一提的是,3368張查詢圖像的行人檢測矩形框是人工繪製的,而候選集圖像中的行人檢測矩形框則是使用DPM檢測器檢測得到的。該數據集提供的固定數量的訓練集和測試集均可以在單查詢或多查詢測試設置下使用。Market-1501數據集中的一些示例圖像如圖4所示。
由表1中可以看到近年來公開數據集的一些趨勢:首先數據集規模越來越大。早期數據集的規模一般較小,而最近的一些諸如CUHK03數據集和Market-1501數據集,其數據規模較大,兩者都有超過1000個行人身份ID和超過10000個行人矩形框,這兩個數據集提供了大量的數據可用於訓練深度學習模型;第二,近期數據集的行人檢測矩形框開始採用諸如DPM行人檢測器自動生成,而非以往那樣由手工標註而成。在實際應用中,人力手工繪製候選集圖像的行人矩形框往往是不可行的,而必須使用行人檢測器,這可能導致檢測得到的行人邊界框偏離理想的位置。Li等人指出由於行人檢測器錯誤(例如未對準),用檢測器生成的矩形框與手工標註的矩形框相比通常再識別準確率會更低。採用行人檢測器時不可避免會在行人候選集中加入許多誤檢結果。由於更多的干擾物被添加到候選集中,將導致行人再識別準確率下降。因此,研究具有諸如誤檢和未校準的實際缺陷的數據集是非常有益的;第三,近年來數據集使用了更多的攝像頭,比如Market-1501中的每個行人最多可由6個攝像頭拍攝到。這就要求度量學習方法具有良好的泛化能力,而非僅僅在某對攝像頭之間仔細地調優。
四、評測指標
評估行人再識別演算法時,通常使用累計匹配特性(CumulativeMatching Haracteristics,簡稱為CMC)曲線。CMC表示查詢ID出現在候選列表中的排名位置的累積概率。無論在候選集中有多少真實匹配,只有排名最高的匹配計入CMC計算。因此,基本上只有當每個查詢僅存在一個真實匹配時,CMC才是準確的評估方法。而在實踐中,人們更多地關注在列表的頂部位置返回的真實匹配,因此該評估方法是可行的。
然而為了研究的完整性,當候選集中存在多個真實匹配時,研究者提出使用平均正確率均值(mean Average Precision,簡稱為mAP)進行評估。採用mAP的動機是一個完美的行人再識別系統應該能為一個查詢圖像返回候選集中所有真實匹配的行人圖像。採用CMC時,如果兩個系統同樣有能力發現第一個真實匹配,但卻有不同的召回能力,在這種情況下,CMC相比於mAP沒有足夠的鑒別能力。因此,mAP是一個更全面的評測指標。
五、行人再識別在視頻監控中的應用及展望
行人再識別技術具有非常重要的理論意義和應用價值。What,When,Where和Who是智能視頻監控系統不可或缺的四個要素。例如,我們不僅關心在地鐵站內是否發生以及什麼時候在什麼位置發生了丟棄包裹的行為,而且也關心行為人的身份信息,希望能夠利用行為人離開時的行人特徵信息獲得該人在監控網路中的行跡。行人再識別主要關注跨視域人物識別場景下的身份識別問題,將其中一個攝像機中的行人圖像作為查詢樣本,將另外一個或多個攝像機中的所有行人的圖像作為查詢庫,在查詢庫中檢索與查詢樣本屬於同一個人的樣本,從而實現跨視域的人物身份識別。
行人再識別技術正在研發和試用過程中,因其難度較大,產品級的系統尚未投入使用。目前,公安部第一研究所採用清華大學的行人再識別技術開始在公共場所進行測試。相信在不久的將來,隨著行人再識別技術的發展,該技術必將在公安和安防領域投入使用,發揮巨大的工作效益。
隨著視頻監控系統的普及,基於視頻監控的行人再識別近年來已成為智能視頻分析領域最為活躍的研究方向之一。行人再識別的任務是在不同攝像頭下根據行人表觀識別行人,因為視角、姿勢和光照的變化,這項任務充滿了挑戰性。行人再識別的核心問題涉及圖像的表示和匹配,而基於表觀的行人再識別可以被認為是圖像檢索中搜索包含相同行人圖像的一種應用。今後,行人再識別需要重點研究的課題包括更加準確的行人檢測、行人分割、行人屬性提取、以及高性能的人像匹配演算法。最近基於深度學習的卷積神經網路(CNN)的工作引起了廣泛的注意,在行人再識別技術中應用將能產生優越的性能,是未來主要的研究和發展方向。
TAG:4G圖傳 |