中科院自動化所智能感知與計算研究中心11篇論文被CVPR接收

新聞 03-05

雷鋒網 AI 科技評論按：本文作者郭瑞娥，首發於中科院自動化所「智能感知與計算研究中心」微信公眾號，AI 科技評論獲授權轉載。

CVPR 是計算機視覺、模式識別和人工智慧領域國際頂級會議，2018 年 6 月 18-22 日將在美國鹽湖城召開，屆時 AI 科技評論也會在現場帶來一線報道。不論你是論文錄用作者，還是即將參會的企業機構，歡迎聯繫 AI 科技評論小編（微信號：aitechreview）報道/合作喲。

智能感知與計算研究中心為中科院自動化所獨立建制的科研部門，致力於研究泛在智能感知理論與技術以及與之相伴的海量感知數據的智能分析與處理。智能感知與計算研究中心在今年的 CVPR 2018 上共有 11 篇論文被接收，再次創下歷史新高。

論文 1 Dynamic Feature Learning for Partial Face Recognition

Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun

在視頻監控，移動手機等場景中，部分人臉識別是一個非常重要的任務。然而，很少有方法研究部分人臉塊識別。我們提出一種動態特徵匹配方法來解決部分人臉識別問題，它結合全卷積網路和稀疏表達分類。首先，利用全卷積網路提取 Gallery 和 Probe 的特徵圖；其次，利用一個大小滑動窗口把 Gallery 的特徵圖分解為與 Probe 特徵圖大小相同的子特徵圖，進而動態特徵字典；最後，利用稀疏表達分類來匹配 Probe 特徵圖與動態特徵字典的相似度。基於動態特徵匹配方法，我們提出了滑動損失來優化全卷積網路。該損失減小類內變化，增加了類間變化，從而提高動態特徵匹配的性能。相比於其他部分人臉識別方法，我們提出的動態匹配方法取得很好的性能。

動態特徵匹配的部分人臉識別框架

論文 2 Deep Spatial Feature Reconstruction for Partial Person Re-identification: Freestyle Approach

Lingxiao He, Jian Liang, Haiqing Li, Zhenan Sun

部分行人再識別是一個非常重要並且具有挑戰性的問題。在無約束環境中，行人容易被遮擋，有姿態和視角變化，所以有時候只有部分可見的行人圖像可用於識別。然而，很少有研究提出一種可以識別部分行人的方法。我們提出了一種快速且精確的方法來處理部分行人再識別的問題。提出的方法利用全卷積網路抽取與輸入圖像尺寸相對應的空域特徵圖，這樣輸入的圖像沒有尺寸約束。為了匹配一對不同尺寸大小的行人圖像，我們提出了一種不需要行人對齊的方法：深度空域特徵重建。特別地，我們借鑒字典學習中重建誤差來計算不同的空域特徵圖的相似度。按照這種匹配方式，我們利用端到端學習方法增大來自於同一個人的圖像對的相似度，反之亦然。由此可見，我們方法不需要對齊，對輸入圖像尺寸沒有限制。我們在 Partial REID，Partial iLIDS 和 Market1501 上取得很好的效果。

深度空域特徵重建

論文 3 Adversarially Occluded Samples For Improving Generalization of Person Re-identification Models

Houjing Huang, Dangwei Li, ZhangZhang, Kaiqi Huang

行人再識別（ReID）是跨攝像機行人檢索任務，由於存在光照變化、視角變化、遮擋等複雜因素，目前的模型往往在訓練階段達到了很高的準確率，但是測試階段的性能卻不盡人意。為了提高模型的泛化性能，我們提出了一種特殊的樣本來擴充數據集：對抗式遮擋樣本。

整個方法流程如下：（1）按照常用的方法訓練一個 ReID 模型；（2）通過網路可視化的方法找出模型在識別訓練樣本時所關注的區域，對這些區域進行（部分）遮擋就可以產生新的樣本，同時我們保持這些樣本原有的類別標籤；（3）最後，把新的樣本加入到原始數據集中，按照之前的方法訓練一個新的模型。這種樣本不僅模擬了現實中的遮擋情況，而且對於模型來說是困難樣本，可以給模型的訓練提供動量，從而跳出局部極小點，減少模型的過擬合。實驗發現，原始的 ReID 模型識別訓練樣本時只關注一些局部的身體區域，加入新樣本訓練後的模型則可以同時關注到一些之前沒關注的身體區域，從而提高了模型在測試階段的魯棒性。下圖是該方法的一個具體實現，其中 ReID 採用 ID 多分類模型，模型可視化方法採用滑動窗口遮擋的方法。

基於對抗式遮擋的數據擴增演算法流程圖

論文 4 Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang, Qi Wu, Liang Wang

圖像文本匹配的關鍵問題在於如何準確度量圖像文本之間的跨模態相似度。我們通過數據分析發現：圖像文本之所以能夠匹配，主要是由於如下兩點原因：1）圖像文本雖體現不同的模態特性，但他們包含共同的語義概念；2）語義概念的集合併不是無序的，而是按照一定的語義順序組織起來的。由此，我們提出了一個模型來聯合對圖像文本所包含的語義概念和語義順序進行學習。該模型使用了一個多標籤區域化的卷積網路來對任意圖像預測其所包含的語義概念集合。然後，基於得到的語義概念將其有規律地排列起來，即學習語義順序。這一過程具體是通過聯合圖像文本匹配和生成的策略來實現的。此外，還探究了局部語義概念與全局上下文信息之間的互補作用，以及對文本生成的影響。我們在當前主流的圖像文本匹配資料庫 Flickr30k 和 MSCOCO 上進行了大量實驗，驗證了我們所提出方法的有效性，並取得了當前最好的跨模態檢索結果。

聯合圖像語義概念和語義順序學習框架

論文 5 A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping

Debang Li，Huikai Wu，Junge Zhang，Kaiqi Huang

隨著當前圖像數據量的不斷增長，對圖像進行自動處理的需求也逐漸變大，而圖像裁剪是圖像處理中的一個十分重要的步驟。圖像自動裁剪技術不僅能夠快速的完成對大多數圖片的處理，同時還能夠輔助專業攝像師找到更好的視角來提升圖像的構圖質量，其具有十分大的應用價值。由於圖像裁剪的數據標註較難獲得，而且一般數據量較少，我們提出了一種基於強化學習的弱監督（不需要裁剪框標註）圖像自動裁剪演算法 A2-RL。之前的弱監督自動裁剪演算法大部分使用滑動窗口來獲取候選區域，其需要耗費較大的計算資源和時間，為了解決上述問題，我們將強化學習引入到自動裁剪中，使用一個智能體（agent）在輸入圖像上自適應的調整候選區域的位置和大小。該智能體以圖像的全局特徵和局部特徵作為觀測信息，並且根據當前和歷史的觀測作為依據來決定下一步的動作。在訓練過程中，該智能體根據圖像質量的評分計算獎勵，並使用 A3C 演算法進行訓練，最終學到較好的候選區域調整策略。在實驗過程中，我們的方法在多個標準的裁剪數據集上進行了測試，其不僅在速度上取得了較大的提升，同時在精度上也有明顯的提高。我們方法的整體框架圖為：

基於強化學習的圖像自動裁剪模型架構

論文 6 Discriminative Learning of Latent Features for Zero-Shot Recognition

Yan Li, Junge Zhang, Kaiqi Huang, Jianguo Zhang

零樣本學習（Zero-Shot Learning）通過在視覺和語義兩個空間之間學習一個共同的嵌入式空間，能夠實現對測試集中的未知類別進行測試。以往的零樣本工作，主要集中在嵌入式空間學習過程中，忽略了視覺特徵、語義特徵在零樣本學習中的作用。我們針對傳統的零樣本學習過程中，特徵表達區分度不足的問題，從視覺空間和語義空間兩個方面提出了改進方法，在兩個空間同時學習到區分度更強的特徵表達，進而極大地提升了零樣本學習的識別性能。具體來說，1）在視覺空間，我們提出了 zoom net，從原始的圖片中，自動挖掘具有區分度的圖片區域。2）在語義空間，除了用戶定義的屬性之外，我們利用 triplet loss，自動地學習具有區分度的「隱式屬性」。3）最終，圖片空間中的區分性區域挖掘，以及語義空間中的區分性隱屬性學習兩個模塊在一個端到端框架中聯合學習，共同促進。

用於零樣本學習的隱式判別性特徵挖掘框架

論文 7 Pose-Guided Photorealistic Face Rotation

Yibo Hu, Xiang Wu, Bin Yu, Ran He, Zhenan Sun

隨著深度學習的發展，人臉識別演算法的性能得到了廣泛提升，然而大姿態人臉識別問題依然亟待解決。人臉旋轉為人臉識別中的大姿態問題提供了一種有效的解決方式。我們提出了一種任意角度的人臉旋轉演算法 Couple-Agent Pose-Guided Generative Adversarial Network (CAPG-GAN)。CAPG-GAN 通過人臉關鍵點編碼姿態信息指導對抗生成網路進行人臉生成任務。同時使用身份保持損失函數和全變分正則項約束人臉的身份信息和局部紋理信息。最終我們的演算法在 Multil-PIE 和 LFW 上均取得了不錯的識別率，同時如圖所示，CAPG-GAN 可以根據人臉關鍵編碼信息生成任意角度人臉。

不同姿態人臉圖像生成結果

論文 8 Multistage Adversarial Losses for Pose-Based Human Image Synthesis

Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan

單張圖片的多視角圖像合成在計算機視覺中是一個非常重要並且具有挑戰性的問題，而且對於人的多視角圖像合成在對人體行為理解中具有很重要的應用價值。利用人的多視角合成可以有效地解決在計算機視覺中存在的跨視角問題，例如跨視角行為識別、跨視角行人再識別等等。由於人姿態的多變性，人的多視角圖像合成比剛性物體（如車、椅子等等）的多視角合成更具有挑戰性。我們提出了多階段對抗損失函數在基於人體關鍵點的多視角人體圖像合成演算法，該演算法可以生成高質量多視角人體圖像，而且可以保持合成人的姿態在三維空間中保持一致。為了可以生成高質量圖像，我們提出從低維度人體結構到圖像前景，最後合成背景的多階段圖像生成模型，為了解決均方誤差損失函數引起的圖像模糊的問題，我們在多階段使用對抗損失函數。我們的演算法如圖所示：

基於pose的多階段對抗學習的人體圖像合成網路框架

論文 9 Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, and Liang Wang

行人再識別問題是一個重要且具有挑戰性的經典計算機視覺任務。通常攝像頭採集到的行人圖像中含有雜亂的背景，並且圖像中的行人通常有多種多樣的姿態和視角，這些多樣性造成的困難在之前的研究中都尚未得到很好的解決。為了解決上述問題，我們引進了二值化的行人分割輪廓圖作為額外輸入，並與彩色圖像合成為四通道的新輸入，然後設計了一種基於分割輪廓圖的對比注意模型來學習背景無關的行人特徵。在此基礎上，我們提出了一種區域級別的三元組損失函數，分別來約束來自全圖區域、行人身體區域、背景區域的特徵，提出的損失函數可以讓來自全圖區域和行人身體區域的特徵在特徵空間靠近，並遠離背景區域，最終達到去除背景的作用。所提出的方法在三個行人再識別數據集上驗證了有效性，取得了當前最好的性能。

二值化分割輪廓與區域級別三元組約束示意圖

論文 10 M^3: Multimodal Memory Modelling for Video Captioning

Junbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan

視頻描述對於理解視覺與語言是十分重要的一環，同時也是很有挑戰性的任務。它有很多的實際應用價值，包括人機交互、視頻檢索、為盲人轉述視頻等。針對這一問題，我們提出了一個多模態記憶模型用於視頻描述，這一模型建立了視覺與文本共享的記憶存儲器用來模擬長範圍視覺文本依賴性並且進一步指導視頻描述中的全局視覺目標的關注。借鑒神經圖靈機模型的原理，該模型通過多次讀寫操作與視頻和句子進行交互並附加了一個外部記憶存儲器用來存儲來自視覺與語言模態的信息。下圖展示了用於視頻描述的多模態記憶建模的整體框架。

這一框架包含三個關鍵模塊：基於卷積網路的視頻編碼器，多模態記憶存儲器，基於 LSTM 的文本解碼器。（1）基於卷積網路的視頻編碼器首先利用預訓練的 2D 或者 3D 卷積網路模型提取關鍵幀或段的特徵，再利用時序注意模型選擇與當前單詞最相關的視覺表示，並寫入到記憶存儲器中；（2）基於 LSTM 的文本解碼器利用 LSTM 模型對句子的產生進行建模，它預測當前的單詞不僅依賴於之前時刻的隱藏表示，而且還有從記憶存儲器中讀取的信息，同樣地，它會向記憶存儲器中寫入更新的表示。（3）多模態記憶存儲器包含一個記憶存儲矩陣用來與視頻編碼器和文本解碼器進行交互，例如，從 LSTM 解碼器中寫入隱藏表示和讀取記憶內容用於解碼器。每一步寫入操作都會更新多模態記憶存儲器。最後，我們在兩個公開的數據集（MSVD 和 MSR-VTT）上對提出的模型進行了評價。實驗結果表明提出的模型在 BLEU 和 METEOR 兩個指標上都超過了許多當前最好的結果。

用於視頻描述的多模態記憶模型架構

論文 11 Fast End-to-End Trainable Guided Filter

Huikai Wu, Shuai Zheng, Junge Zhang, Kaiqi Huang

我們提出了一個全新的用於聯合超分 (Joint Upsampling) 的深度學習模塊---引導濾波單元 (Guided Filtering Layer)。此模塊將傳統的引導濾波 (Image Guided Filtering) 演算法建模為一個可以反向傳播、與其他模塊聯合訓練的深度學習單元，同時還引入可以自適應學習的引導圖 (Guidance Map) 來提高靈活性。通過與原有的卷積神經網路結合，引導濾波單元可以廣泛地應用於稠密預測任務 (Dense Prediction Task)，並獲得更快的速度、更高的精度和更少的內存佔用量。試驗證明，引導濾波單元可以在眾多圖像處理任務中取得最好的性能並獲得 10 至 100 倍的速度提升。在計算機視覺中的眾多稠密匹配任務中，此模塊同樣可以取得顯著的性能提升。代碼和論文將公布在htt

使用卷積神經網路和提出的引導濾波單元進行圖像到圖像變換的結果展示

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※小米上市的最佳時機到來了嗎？
※斬獲CES大獎、做AI加持的手持攝影穩定器，智雲接下來還會怎麼玩？ | CES 2018

TAG:雷鋒網 |