都是知識點!更簡單的圖像匹配特徵融合法,你Get到了嗎?
更多騰訊海量技術文章,請關注騰訊雲+社區:https://cloud.tencent.com/developer
作者簡介:高永強博士,2015年畢業於中國科學院大學,主攻圖像處理、計算機視覺、機器學習及深度學習方向。目前在SNG社交網路運營部數據中心知識發現組從事視頻內容理解與應用相關方面的工作,已發表期刊、會議多篇,並翻譯視覺界經典教材《計算機視覺,一種現代方法(第二版)》。
由 騰訊雲語義分析團隊 發布在騰訊雲+社區
什麼是局部圖像特徵?
基於傳統的圖像局部二值特徵的圖像識別與匹配,有沒有更簡單的特徵融合方法?
近日,SNG社交網路運營部的高永強做了一個實驗:將目前四種性能較好的二值特徵描述子進行融合,會怎樣?
實驗結果顯示,融合特徵呈現最好性能,而且這種融合方法同樣適用於多模型融合。他的這一「 更簡單」的方法發表在《Neurocomping》期刊(隸屬於JCR分區二區)後,引起了較多關注,影響因子為3.317。下文為Jason整理的部分內容——
敲黑板,都是知識點!
知識點1:圖像特徵
視覺屬於人類高級感知,圖像在人類感知環境中扮演著非常重要的角色。數字圖像處理由成像機器獲得,並可以對非人類所習慣的圖像源進行加工和處理。同一張圖,比如Fig. 1,人類看到的是圖像畫面,而計算機里存儲的則是一串數字。這串數據矩陣就是圖像數據,如何從這些圖像數據中提取有效的圖像特徵,就是計算機視覺處理的前期研究工作。
Fig. 1 人眼中的圖像與計算機眼中的圖像顯示
對於同一物體的識別,即圖像識別問題,一般會採取如下幾個任務步驟:
首先,提取圖像特徵用於表徵圖像;
其次,對提取特徵進行建模以迎合完成不同的任務需求。
比如,採用計算K-近鄰作為兩種特徵之間的相似度判定,而完成測試圖與標準圖的匹配或者識別。
在圖像分類中,常常採用某個分類器預測輸出這些特徵標記的類別。同一個物體,由於受到拍攝環境、角度、距離、時期等影響,在圖像中會呈現出不同的變化,所得到的特徵就會有所區別,因此構造具有高鑒別性和魯棒性的圖像特徵顯得至關重要。(魯棒性,指控制系統在一定結構、大小的參數攝動下,維持其它某些性能的特性)
圖像特徵是計算機視覺研究的基礎,也是機器學習領域構成模式重要的一部分。特徵的構造方式一般具有三種:
第一種是基於興趣點構造,根據興趣點的鄰域構建圖像塊,採用人工設計或者學習的方式從該圖像塊提取特徵,此類興趣點通常只具有可鑒別性或者魯棒性的點,包括比如角點、斑點、T-型點或者顯著性點等;
第二種是基於稠密採樣構造,根據網格對圖像(或者多個尺度的圖像)進行劃分,在每個網格內進行人工設計或者經過學習的方式構造特徵;
第三種是根據機器學習的理論框架,採用監督(非監督)的深度學習直接學習構造圖像特徵,採用深度學習的框架,優勢在於對源圖像到標記分類,完成對特徵提取和分類的聯合優化。
知識點2:圖像識別的常規步驟
對於一幅完整的圖像,人們並非對所有的圖像內容感興趣,在圖像識別應用中,可以通過一些具有代表性或可鑒別的關鍵點來判斷該物體是什麼。因此,在計算機視覺領域,常規的物體識別的步驟:
首先,提取具有可鑒別性的關鍵點,並根據這些關鍵點的鄰域構造圖像塊;
其次,在這些圖像塊中進行特徵提取用於表徵這些具有可鑒別性的關鍵點;
再次,分別計算對應特徵之間的距離,根據距離的大小判定兩個關鍵點是否相似(距離小於某個閾值判定為相似);
最後,根據匹配的關鍵點的個數來判定兩幅圖像是否相似。
特徵描述子的應用領域很廣,比如人臉識別、圖像檢索、場景分類和視頻行為分析等。圖像特徵作為計算機視覺的底層運算,在視覺的中層編碼/學習和高層語義理解中體現極大作用。
知識點3:局部圖像特徵描述子構建
局部圖像特徵對於分析和理解圖像內容具有很重要的作用。近年來,局部圖像特徵(local descriptor)在圖像處理和計算機視覺領域取得巨大成功。
傳統的局部特徵描述子構建如圖Fig. 2,構建步驟為:
首先,構建圖像塊(基於興趣點周圍形成圖像塊);
其次,將圖像塊進行歸一化處理(包括主方向旋轉和尺度歸一化);
最後,基於圖像塊構建特徵描述子(比如根據梯度直方圖構建,SIFT、HoG、GLOH等)。
好的特徵描述子除了具有很強的鑒別力,同時具有計算代價低、匹配速度快的特性。而對於特徵描述子的匹配過程,往往採用彼此的距離作為度量準則,即兩特徵描述子的距離(歐式距離或者漢明距離等)小於某個閾值,認為該特徵描述子對應的圖像塊是相似的,反之亦然。
然而,現實中,圖像的拍攝往往存在拍攝時期、拍攝角度、當天光照和不同距離等變化因素,同時對於同一物體可能對於本身具有一定的畸變,該特徵描述向量應具有很高鑒別性和魯棒性。
Fig. 2 傳統的局部特徵構建方法
在先前的工作中,SIFT描述子廣泛應用於多個視覺應用中,然而,描述子維度高、計算代價大等因素制約著該描述子在某些方面的應用,比如根據應用需求而需要處理更大數據量使得該特徵很難在這些設備進行實時處理,又比如運行在具有較低計算能力的移動設備上……
由此可見,為了迎合這種需求,對應的特徵描述子還應該具有快速生成、快速匹配和合理利用內存的特性。Calonder et al.根據成對的像素值比較進而二值化,將這些二值字元串拼接得到二值特徵,即BRIEF(Binary Robust Independent Elementary Features)。BIREF描述子在特徵提取和匹配過程中計算代價非常低,並在公開資料庫取得非常好的性能。
常見的構造二值特徵描述子方式有兩種:
第一種,根據像素值之間的比較進行二值化,從而構成對應的特徵描述子。BRIEF描述子對高斯隨機形成的採樣對進行比較,將比較的結果進行二值化;BinBoost採用AdaBoost的方法對採樣對進行學習採樣,同時對採樣對進行比較構成二值描述子;
第二種,根據已有的浮點型特徵做一次變換,從而構成相應的二值描述子,這是由於直接對像素值二值化魯棒性低。
知識點4:兩種類型的局部二值特徵
這裡介紹兩種類型的二值特徵:
第一類為基於Boost技巧採樣的二值特徵構建方法,這類特徵包括Binboost和BGM特徵。他們採用boosting的方法去學複雜的非線性的局部二值特徵表徵,採用弱分類器族編碼特定的區域和有意義的特徵屬性。Binboost和BGM的區別在於弱分類選擇的不同:BinBoost採用的是的弱分類器為許多梯度方向圖的線性組合;而BGM採用的是單個梯度方向圖。
第二類的二值特徵構建方法為基於感受域進行採樣,包括RFD_R和RFD_G特徵。RFD_G和RFD_R的區別在於感受域的定義不同,RFD_G是採用高斯函數定義的感受域,RFD_R是採用的矩形作為的感受域。Fig.3給出這三種二值特徵的採用方式,其中Binboost和BGM採用左圖的採樣方式,RFD_R採用中間圖的採樣方式,RFD_G採用右圖的採樣方式。
Fig. 3 左圖為Binboost和BGM的採樣方式,中圖為RFD_R,右圖為RFD_G
實驗:不同二值特徵的融合
將目前四種性能較好的二值特徵描述子進行融合,這四種特徵分別為BinBoost,BGM,
和
。給定訓練集P和N,分別代表正確匹配對和錯誤匹配對,我們目標是為了使得錯誤匹配對之間的距離大於正確匹配對之間的距離,
定義如下:
其中
分別為對應的局部圖像塊,
為基於兩個圖像塊計算得到的第m組漢明距離,其中
定義如下:
其中?為異或操作,
。定義目標優化函數為:
並採用
範式約束,我們推導公式3為凸優化函數:
並將最後學習權重w進行整型化:
其中
。這保證每個權重係數
為小於256的正數,
為取整函數。
實驗結果:融合特徵呈現最好性能
實驗數據主要採用廣泛使用的局部圖像塊數據集:Liberty, Yosemite和Notre Dame,見Fig. 4,從左到右順序依次來源於Notre Dame資料庫、Liberty資料庫和Yosemite資料庫,其中大小為原圖大小的四分之一,每個數據集包括超過400k的尺度歸一化和旋轉歸一化的局部圖像塊,其解析度為64x64。每個圖像塊是由差分高斯檢測子或者多尺度的Harris角點檢測器檢測,並根據領域生成對應的圖像塊。每個數據子集提供有100k、200k和500k標準匹配對,其中50%為正確匹配對,另外50%為錯誤匹配對。
採用經過差分高斯檢測子檢測得到的數據集,並將每個圖像塊調整解析度到32x32,所有的圖像塊經過標準高斯分布進行濾波去噪。假陽性為95%時的召回率(FPR @95%)為測試結果,即當查找的正確匹配對為95%時的錯誤率。
Fig.4部分局部圖像塊資料庫(Brown資料庫)
Fig. 5給出四種基特徵與融合特徵的比較結果,其中訓練數據集為Liberty資料庫,每個特徵的維度不同,測試數據集為Yosemite資料庫和Notre Dame資料庫,且數據量大小為100k(包括50k正確匹配對和50k錯誤匹配對),FPR@95的錯誤率為彙報結果,「Opt」列,是由四種基特徵的全部特徵作為輸入,優化所得,即BinBoost、BGM、
和
對應特徵維度分別為512、512、293和406位(b)。四種特徵分別採用64、128、256 和全部可提供維度作為融合的每組維度。正如表格所示,融合特徵都呈現最好的性能(最低的錯誤率)。
Fig. 5 實驗對比結果
這裡,我們提出一種非常簡單的特徵融合的方法,並在局部二值特徵的融合上取得了非常好的效果。更多的關於局部二值特徵,以及特徵融合的方法可以見我們最新的論文LMBD和RMGD。
參考文獻
LMBD: Y. Gao,W. Huang, Y. Qiao, 「Learning multiple local binary descriptors for imagematching」, Nerocomputing, 2017.
RMGD: Y. Gao, W. Huang, Y. Qiao, 「Local Multi-GroupedBinary Descriptor With Ring-Based Pooling Configuration andOptimization」, IEEE Transactions onImage Processing, 24(12), pp. 4820-4833, 2015.
Binboost: L. V. Trzcinski T.,Christoudias M., P. Fua, Boosting binary keypoint descriptors, in: Proc. IEEEConf. Comput. Vis. Pattern Recognit., 2013,pp. 2874-2881.
BGM: T. Trzcinski, V. Lepetit,E_cient discriminative projections for compact binary descriptors, in: Proc.IEEE Int. Conf. Eur. Conf. Comput. Vis., 2012, pp. 228-242.
RFD: B. Fan, Q. Kong, T. Trzcinski, Z. H. Wang, C. Pan, P.Fua, Receptive felds selectioni for binary feature description, IEEE Trans.Image Process. (2014) 2583-2595.
※如何破解手機密碼,七種方法繞過安卓手機鎖屏
※怎樣入手學習R的演算法?
TAG:雲加社區 |