當前位置:
首頁 > 科技 > 依圖科技再破世界記錄!AutoML取代人工調參,刷榜三大權威數據集

依圖科技再破世界記錄!AutoML取代人工調參,刷榜三大權威數據集

新智元報道

編輯:白峰、鵬飛

近年來,行人重識別技術在業內得到了越來越多的關注,CVPR投稿中關於ReID的研究逐年增多。隨著行人重識別技術的日漸成熟,其巨大的應用價值和市場潛力得到了越來越多的關注。

殺手級視覺應用即將面世?依圖視覺識別創新紀錄

2020年還有再問人臉識別之後的下一個風口是什麼?

別問,問就是行人重識別。(ReID)

對於這個問題,業界似乎早已有了共識。從AI的人臉識別能力超越人類以來,學術界和產業界的目光逐漸轉向另一個更具科研意義和應用價值的課題——行人重識別(Person Re-identification,ReID)。

近日,依圖科技宣布在ReID領域取得突破,刷新全球工業界三大權威數據集當前最優成績(SOTA),演算法性能達到業界迄今最高標準。

成績單上的公司可謂赫赫有名,包括阿里巴巴,騰訊優圖、博觀智能、海格通信,中興等強手林立,充分說明了如今ReID要想取得1%的進步,其難度有多麼的高!

也正如此,才稱得上依圖視覺識別殺手級視覺應用。

用AutoML取代人工調參,深度優化ReID演算法框架

首位命中率」(Rank-1 Accuracy)及「平均精度均值」(Mean Average Precision,mAP),是衡量ReID的兩大關鍵指標。

首位命中率意味著演算法能夠在眾多圖像中準確找出最容易識別、或者說匹配的那張。而mAP值它反映的是系統的綜合檢索性能。mAP值越高,說明系統的實用性越好,既能查得全也能查得准,能夠較好地應對多遮擋、光線暗、畫面模糊等情況。

評價ReID演算法性能時不能只看首位命中率,否則無法反映出模型的真實能力,尤其是應對複雜場景的表現,必須結合mAP值,綜合評價。

依圖科技憑藉自身工程與研發實力,深度優化了ReID演算法框架,顯著提升了演算法效率,通過結合AutoML等前沿技術,進一步創新性地實現了模型參數的自動搜索與迭代,突破了依賴演算法研究員手工設計與調參的傳統演算法開發流程,也使得演算法的泛化性能更強。

此次依圖自研演算法在業界最具影響力的三大ReID數據集Market1501、DukeMTMC-ReID、CUHK03上,將衡量演算法性能的兩大關鍵指標「首位命中率」(Rank-1 Accuracy)及「平均精度均值」(Mean Average Precision,mAP)6項數據全部提升,充分顯示了依圖的技術實力,進一步穩固了中國AI在該任務下領跑地位。

何為行人重識別?

行人重識別(Person Re-identification也稱行人再識別,簡稱為ReID,是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。通常被認為是一個圖像檢索的子問題。給定一個監控行人圖像,檢索跨設備下的該行人圖像。

哈利·波特在《阿茲卡班囚徒》中使用實點圖實時追蹤並識別追蹤人。

行人重識別的研究方法主要有以下幾種:

基於表徵學習的ReID方法

這類方法通常有兩個網路,分類子網路對圖片進行ID預測,根據預測的ID來計算分類誤差損失。驗證子網路融合兩張圖片的特徵,判斷這兩張圖片是否屬於同一個行人,該子網路實質上等於一個二分類網路。經過足夠數據的訓練,再次輸入一張測試圖片,網路將自動提取出一個特徵,這個特徵用於行人重識別任務。

基於度量學習的ReID方法

度量學習是廣泛用於圖像檢索領域的一種方法。不同於表徵學習,度量學習是通過網路學習出兩張圖片的相似度。在行人重識別問題上,具體為同一行人的不同圖片相似度大於不同行人的不同圖片。最後網路的損失函數使得相同行人圖片的距離儘可能小,不同行人圖片的距離儘可能大。

基於局部特徵的ReID方法

早期的ReID研究主要關注點在全局的global feature上,就是用整圖的特徵向量進行圖像檢索。但是後來大家逐漸發現全局特徵遇到了瓶頸,於是開始漸漸研究局部的local feature。

基於視頻序列的ReID方法

跟基於單張圖像的方法相比,最主要的不同點是不僅考慮了圖像的內容信息,還考慮了幀與幀之間的運動信息。

如果這些方法與人臉識別相結合,將會產生更大的應用價值。

除了智能零售、智慧交通、智能城市等經常提及的應用場景,ReID技術的應用也將使日常生活更加便捷:遊樂園更易尋找走失兒童、寵物/家庭機器人可以憑背影準確識別主人或顧客並提供相應服務。

然而,在監控視頻中,由於相機解析度和拍攝角度的緣故,通常無法得到高質量的人臉圖片。當人臉識別失效的情況下,ReID就成為了一個非常重要的技術手段。單個攝像頭的覆蓋區域有限,因此做行人分析的話需要多攝像頭協作,而通常情況下各攝像頭位於不同的位置和視角,其視域互不重疊,為解決攝像頭網路下的廣域行人分析,就必須首先解決跨視域多攝像頭下行人再識別的問題。

由於ReID需要從不同攝像機拍攝的圖像或視頻中找出同一個人物,而這些攝像機所覆蓋的範圍彼此並不重疊,導致缺乏連貫的信息,而且不同畫面中人物的姿態、行為甚至外觀(比如戴上帽子、脫下外套)會發生較大變化,不同時間、場景的光照、背景和遮擋物各不相同(背景中常還有體型、衣著相似的其他人物干擾),攝像機的解析度也有高有低,這些都對ReID技術提出了極大的挑戰。

自研求索晶元,僅憑穿著實現高精度行人重識別

任何沒有經歷過商業化檢驗的項目,都只是空中樓閣而已。

所以,對於依圖這樣的公司來說,只是調調參,刷刷榜,那是遠遠不夠的。

所有的研究數據,都需要在市場上接受商業化的檢驗,才能真正讓企業百鍊成金。

因為商業化落地所面臨的問題,和實驗室遇到的難題相比,複雜度提升了不止一個等級。除了對演算法性能的要求,還有一個非常難的問題,是現有的攝像機等終端設備算力不夠。

而依圖研發人員通過自研的雲端AI晶元QuestCore(求索),將將訓練 推理耗時壓大幅縮短,在僅憑穿著、步態特徵的條件下,依圖可以將ReID做到大約兩年前人臉識別的水平。

2018年,ImageNet競賽已經停辦,因為計算機識別人臉/物體的能力早已超越人類,繼續「刷榜」已經沒有意義。2018年,也是以人臉識別為代表的計算機視覺應用大規模商用的開始。

兩年後的今天,刷臉支付、刷臉乘車已經愈發普及。

在顯著提高ReID精度的同時,依圖憑自研的雲端AI晶元QuestCore(求索)實現了技術商業化落地,業界期待的下一個計算機視覺「殺手級應用」已經到來。

對此您怎麼看?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

全球首個「無人大超市」開業!亞馬遜秘密研發Amazon Go超市上線
華為美研所提出EnAET:半監督SOTA和同模型下全監督SOTA