澎思科技首席科學家申省梅:如何攻克AI安防人臉識別的最大演算法難題?
3月23日,由雷鋒網 & AI掘金志主辦的「第二屆中國人工智慧安防峰會」在杭州召開。
峰會現場,松下(新加坡)研究院原副院長、澎思科技首席科學家申省梅發表演講《視頻監控場景下無約束人臉識別與圖像增強》。
申省梅表示,動態視頻監控場景下,人臉識別的最大技術挑戰之一便是無約束人臉識別,如何通過演算法實現複雜場景下的精準識別,是安防企業現階段急需攻克的重要演算法難題。
為此,申省梅在演講中,針對複雜環境下的細分人臉識別問題,分別講述了遷移學習、異構多模型融合、雙代理對抗生成網路生成多面部姿態數據和圖像增強(去除運動模糊、低光圖像增加、去噪、超分別率、去抖動-去霧-去雨-去雪)等演算法方法,是如何實現高精度無約束人臉識別的。
她說到,「AI在無約束人臉識別以及圖像增強的演算法和產品,接下來三年會有更大突破。澎思新加坡研究院將聚焦在安防垂直領域的技術研發和前沿科技探索上。」
截至目前,申省梅團隊的研發成果已獲得多項國際比賽冠軍並在各種產品中得到廣泛應用,包括十餘項計算機視覺領域國際頂級競賽冠軍和300多項專利。
2019年3月,申省梅宣布加入AI安防公司澎思科技,任首席科學家、新加坡研究院院長,致力於監控與安全、智慧城市、自動駕駛、智能機器人以及AI工廠自動化等領域的相關技術研究。
自成立以來,澎思科技各行業解決方案已經成功落地全國50多個城市,服務客戶超過百餘個。在全國多地部署動態人臉識別點位,累計抓獲在逃人員近兩千名,並擔任多項國家級大型活動的安保工作。
以下為申省梅的現場演講內容,雷鋒網作了不改變原意的編輯及整理:
各位來賓下午好! 我是澎思科技的申省梅,感謝雷鋒網給我們提供的平台,讓我們從不同的角度、不同的公司來分享自己的觀點。今天我想分享的一個主題是「視頻監控場景下無約束人臉識別與圖像增強」。
我是西安電子科技大學電子工程系碩士畢業。在那個年代,我已經用模糊系統來搭建人工智慧的智能駕駛。當時也做了一個課題,用人工智慧來設計演算法,在醫學心電圖輔助診斷等領域進行研究。
1992年我加入新加坡松下研究所,從事音視頻壓縮、圖像處理還有圖像增強等工作。後來我們專註於圖像識別領域的研究工作,因此又做了很多傳統的機器學習。在2009年到2012年期間,3D非常火,公司產品部門要求我們做3D,怎麼從2D變3D?我們在短短一年半內,從零開始將所有3D技術提供給了公司的業務部門。
剛才很多人講到2012年是人工智慧非常重要的節點,為什麼呢?大家看到,用傳統的機器學習方法去提升1%的識別準確率非常困難。而在那年的ImageNet比賽里,我們卻看到一次性完成10%的提升。
當時這件事對我們研究人有著很大的震撼,所以我們很快用深度學習代替機器學習,提升的效果也同樣達到了10%。基於對前沿演算法科技的敏感性,我們馬上帶領團隊進入深度學習的領域。短短几年內,我們對全部傳統的機器學習進行改造,對演算法、技術、產品進行更新換代,也走在了世界前沿。
你說你的技術好,怎麼叫好呢?其中一種方式,便是參加國際頂級競賽,於是我們參加了十幾項世界級大賽,都拿了冠軍。
今年我加入了一家非常有潛力的AI初創企業澎思科技,擔任首席科學家、新加坡研究院院長,這也是一個非常好的空間,讓我能夠發揮更大的作用,在新的平台上能夠再創佳績。
我們參加多項國際比賽,在人臉識別上拿了兩個賽事的雙項冠軍。還有目標跟蹤、行人檢測、行人再識別,目標檢測、圖像分割、圖像分類,交通異常檢測、自動駕駛,智能機器人,我們都取得了不錯的成績。
可能你們會說,為什麼跨度這麼大。其實我們團隊不僅僅是搞機器學習的,我們長期積累了很重要的知識,像幾何我們一定要結合使用。所以我們的技術是全棧技術,從機器識別、深度學習到圖像處理,到三維重建、幾何。
High-Energy團隊帶著對最前沿演算法和技術創新的敏感度,以及商業意識和產品思維,在大公司做了這麼多年,一直在追求系統性管理和卓越團隊的建設。我們建了一個非常有活力的明星團隊,也為組建這樣的卓越團隊感到自豪。
加入澎思科技,我覺得有一個很大的空間給我發揮,我會做得更好。
我們講到安防系統。澎思科技也是立足於軟體、硬體,端到端,我們的人工智慧不僅僅用到終端圖像識別,也會用在前端包括拍攝端、圖像處理、SoC,做到全部垂直領域的應用開發。
談到監控視頻結構化。我們用到各種各樣的演算法,場景一變,演算法可能就不一樣了。我覺得不用擔心,因為我們的團隊就是有全棧技術的。有人稱我們團隊是演算法魔術師,場景需要什麼,我就提供什麼。在這個過程中,人臉識別還是起著非常重要的作用。
剛才講到的系統三大部分,智能感測-拍攝端、AI圖像增強SoC、AI圖像識別,包括場景、事件、大數據的分析終端。我們這樣做,為安防產品的增值,為澎思中期和未來安防產品形成全面和垂直的落地打下基礎。
我想用這個表來做一個總結。
澎思核心演算法分為三類:
前沿演算法細分上,第一個是圖像識別方面,我們可以看到很多的演算法。
在人臉檢測方面、對準、識別到一人一檔、FaceID,以後走到哪裡,你的臉就是你的ID;面部屬性檢測包括性別、年齡、人種、美顏、表情、狀態、性格等;人體檢測包括姿態、姿勢、穿著、描述、跟蹤、跨境識別/ReID,人的行為檢測包括特定行為判斷和預測等等。
在安防行業,很多危險行為的判斷預測也很重要。一個車發生事故後逃逸,我們只要調動就近的相機就很快抓到這輛車,這對智能交通的管理非常重要。還有其他物體的識別追蹤等等,還有語義的理解。
在圖像增強方面,有去雜訊、去模糊、去抖動、超解析度,抗反光/抗逆光,還有去霧、去雨、去雪等等。在圖像抓拍方面,有新的感測器的出現,比如AI-on-Sensor、AI圖像質量評價以及AI的在控捕捉等等。
現在我們談一下人臉識別的過去、今天以及面臨的挑戰。
人臉識別不是一個很新的課題,20多年前人臉識別就已經在某些產品里得到應用,用的是過去的機器學習。那個時候公開的數據集基本上都是限制性的人臉,都是近距離或者是光線受到控制的圖像。今天我們看到動態監控相機下捕捉的人臉,這個跨度非常大,行人是多姿態的,並且質量沒辦法控制,尤其是光線,會對識別造成很大的影響。
大家注意到,訓練數據級也變化了,從小數據到公開大數據、超級大數據,過去比賽的測試數據都是比對正臉的,即使今天的比賽也如此,一直到最近IJB-C出現多姿態側臉的競賽。
但這也不是真正代表安防場景下動態監控視頻下的數據。
如果我們談到人臉識別的迭代變化,2012年是一個分界點。在這之前,演算法用的都是傳統的手工特徵,過去傳統的機器學習,我們只能用這些。但是即使在正向的人臉識別里,比如LFW,都達不到90%。
今天的深度學習,一個小模型都可以拿到99%,所以這是兩個完全不一樣的概念。
2013年到2016年,我們看到特徵的變化,以及有LFW資料庫的出現,超級大數據以及光線不均勻多姿態的動態測試集,帶動了新演算法出現。我們也希望看到安防動態監視視頻下真正的數據集,能夠開放給大家比賽。
當然二維、三維人臉特徵的識別和提取,以及人臉的防偽,都對將來FaceID這種功能提出要求。
大家知道無約束人臉的識別,面部姿態變化巨大,有很多遮擋、光線不均勻的情況,表情、像素也不一樣。從很遠的地方拉近後,失真嚴重。而且還有靜態、動態等情況。
上圖是Nist IJB-A比賽的圖像,不同的角度、不同的光線,遮擋、戴眼鏡,有些字擋住嘴巴,還有不同像素相機拍攝的圖片。我們2017年3月團隊代表松下參加比賽,拿到冠軍獎項。同年5月,松下也發表了這個成果。
這個挑戰賽也明確顯示了我們的演算法在模板比賽下能做出很好的成績。
下圖是演算法的總結,我們用了遷移演算法,也用了異構多模型的融合,和大家知道的雙代理對抗生成網路。當然在此當中,數據怎麼樣清理、預處理,也起著重要的作用。
這是我們比賽的Leaderboard,紅色框裡面是我們的成績。
你可以看到傳統的人臉識別演算法,以前可能還是第一名、第二名。但是在IJB-A無約束人臉測試集下面,它們的識別率僅僅是20%、50%、60%,這個變化是非常大的,技術在不斷發展,性能在不斷提高,我們拿到了98%。
從這個圖裡也可以看到,越小的error越好。儘管那個時候傳統的演算法都是名列前茅,比如在身份證上和護照測試級上,但是要在一個多姿態、不同光線的人臉測試集下,傳統演算法的性能可能會下降很大。
再談一下大數據人臉識別。2017年7月,微軟組織的一個百萬名人識別大挑戰。7月份公布,我們的成績又拿到雙項冠軍。
在2018年2月份,松下已經把這項成果應用到產品里,並且在東京召開發布會。從下圖中可以看到,我們這種跨年齡、跨姿態以及有遮擋的情況都能檢測出來。而且松下的產品不光是人臉識別演算法,在攝像頭、圖像增強方面還可以減低很多傳輸帶寬。也許大家知道,松下的安防產品在日本是第一。
剛才談到測試數據集,比如現在的LFW在2012年就出現,現在已經飽和了。到今天的MegaFace、微軟以及IJB-A/B/C。所有的數據還是一個特點,都是基於網上收集的數據,不是動態監控下採集的數據。所以希望有一天很快到來,我們可以測試這樣的數據。
剛才講到GAN的應用,我分享一下這篇文章。
IJB中的多姿態識別,問題在於我們訓練數據集很難拿到很平衡的數據。上圖左邊是告訴大家,這個訓練集裡面,左右角度的數據很多,但是角度偏一些數據就減少很大。我們用了這個GAN,右邊就產生了較多在側角度的數據。
我們也做了性能比較,大家可以看下我們自己做的b1、b2、DA-GAN的結果。b1是說我們不加任何多餘的訓練數據。b2是我們用之前的訓練模型加額外的3D人臉合成訓練數據。最後一個是我們用自己的DA-GAN來產生的一些平衡數據。我們的GAN相比之下帶來明顯的性能增加。所以我們GAN的工作也在NIPS-IJCAI-AAAI等學術會議上發表,也用GAN來生成不同年齡的人臉。
剛才講到動態監控條件下捕捉的人臉,我們除了在人臉識別性能上提高外,我們也考慮別的方式。比如說在源端著手捕捉到更好的圖像,還有圖像增強的方法,我會在AI圖像增強、SoC方面做一些分享。
第一個分享的是去除運動模糊的問題。大家都知道,左邊的圖像我們常常看不到細節。大家說都用HDR來恢復圖像的細節,這個方法是長短曝光多次,合成光線均勻的寬動態範圍圖像。有個問題是什麼呢?在場景當中有運動的物體出現,就沒辦法做到所謂的普通HDR圖像,會很模糊。但是下面這張用我們的演算法運動補賞,可以很清晰地看到圖像的細節。我們拿到了最佳的Paper,也用在了公司的產品上面。
第二個是關於低光圖像增強方法,可以看到上面有兩組圖像。左邊黑漆漆的,但是用了圖像增強方法,就可以看到細節。尤其是對人臉來說,右邊的人臉就可以識別出來。傳統的圖像增強方法都有一些限制,今天人們結合深度學習可以做到更高的保真度。
去雜訊的方法,大家都知道BN3D是很出名的去雜訊方法,但是它總是根據相機的強度而做的,很難做好。我們這篇文章也獲得最佳論文,我們用了深度卷積CNN加了LSTM,能夠追蹤到雜訊的相關性,主觀和客觀質量結構表明,這種方法可以獲得很好的圖像質量。
下面來談一下超解析度,超解析度不是一個很新的課題,已經很多年了,大家都是用過去傳統的方法實現,也包括一些監督的和非監督的方法,這些方法很多。
我們要關心的是什麼呢?我們關心的是你怎麼評價它,你的評價標準是什麼,跟你的應用有關係。我們說,人工智慧要跟場景有關。我們比較重視的是人臉,你對人臉的識別保真度如何,這個對我們來講是非常重要的。
我舉這個例子,上圖左邊這個Low Resolution圖像,是從很遠的地方拍到的人,你非常想知道這個人是誰,拉近的時候就會出現失真。當我們用了不同的超解析度的以後,就會看到有各種各樣的表現。黃色的兩幅圖,對於人眼來說差不多。但是在恢復人臉ID的保真度上有很大的不同。我們評價的準則是什麼?給大家看一下這個表,最終告訴我們,用深度學習給超解析度帶來的好處是,你輸入的圖象尺寸是12×14pixel,跟你輸入圖像22×24pixel,得到的精確度基本上是接近的。
另外,有人利用臉部屬性,也就是局部區域來增加恢復高解析度面部圖像的真實度。
去抖動、去霧、去雨、去雪的這些方法,這些對安防產品非常有用。
我講了很多前沿演算法。在不同場景下的應用,澎思科技專註於計算機視覺和物聯網技術,提供各種各樣場景下垂直行業的解決方案。所以我們全棧的遷延演算法是很好的配合,可以讓公司做得更快更大。
澎思科技的核心實力在於全自研、全棧計算機視覺技術。不光是學習,我們有計算機的幾何、三維重建方面的技術。全系列的軟硬體產品、全場景的解決方案以及全方位的服務能力。
這是我們軟硬體的產品,包括智慧社區的管理平台、智能人像大數據的情報平台和智慧警務大數據平台,和各種各樣的硬體終端產品。我們在公安、智慧園區、智慧社區、智能製造、智能交通等行業都有應用。從成立以來,澎思科技已經成功落地在50多個城市。
總結一下,在安防實戰場景下,動態視頻監視技術仍然面臨很大的挑戰。接下來三年,AI在無約束人臉識別以及圖象增強的演算法和產品,會有更大的突破。
澎思新加坡研究院,專註於垂直領域技術的研發以及前沿科技探索儲備,像剛才有人講的演算法孵化器,一個是場景演算法,一個是演算法孵化器,使得我們公司能夠很快地拓展業務。謝謝大家!
關於中國人工智慧安防峰會由雷鋒網 & AI掘金志主辦的「2019中國人工智慧安防峰會」,是業內極具影響力的AI安防論壇,致力於推動中國「AI-安防」落地融合與「學術-產業」的應用交叉。
延續上一屆峰會的高水準、高人氣,2019中國人工智慧安防峰會再度站在演算法、工程和產品的最前沿,引導安防行業認知再升級。這是海康、大華、華為、阿里、騰訊以及多個AI獨角獸,因「AI安防」首次同台,峰會現場也聚集了海內外1000多位政企管理層和技術研究員,共同探討2019年的AI安防智能技術部署、前沿演算法應用與商業戰略布局。
本次峰會共設置「城市大腦與邊緣計算」、「全球頂尖演算法應用」、「前端動態識別與智能視頻雲」、「城市AIoT與邊緣智能引擎」四大議題,出席的15位演講嘉賓分別是:
上午場:阿里巴巴華先勝、海康威視浦世亮、大華股份殷俊、地平線張永謙、深瞐科技陳瑞軍、商湯科技張果琲、浪潮商用機器張琪。
下午場:香港科技大學權龍、原松下(新加坡)研究院申省梅、華為余虎、觸景無限肖洪波、曠視科技安洋、千視通胡大鵬、騰訊李牧青、中科院自動化所王金橋。
※大咖解碼獨角獸背後——「AI+教育」在K12領域如何落地?
※特朗普下令!美國停飛波音737Max;摩拜退出新加坡獲證實;馬化騰親評「露露事件 」 | 雷鋒早報
TAG:雷鋒網 |