一騎絕塵，商湯科技44篇論文入選CVPR 2018

新聞 05-10

雷鋒網 AI 科技評論按：本文由商湯科技獨家投稿，AI 科技評論獲其授權轉載。

全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition，即 IEEE 國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開，本屆大會總共錄取來自全球論文 979 篇。CVPR 作為計算機視覺領域級別最高的研究會議，其錄取論文代表了計算機視覺領域在 2018 年最新和最高的科技水平以及未來發展潮流。

CVPR 官網顯示，今年有超過 3300 篇的大會論文投稿，錄取的 979 篇論文，比去年增長了 25%（2016 年論文錄取 783 篇）。這些錄取的最新科研成果，涵蓋了計算機視覺領域各項前沿工作。CVPR 2018 包括 21 場 tutorials、48 場 workshops，並且有來自全球各地超過 115 家企業將入駐今年 CVPR 工業展覽。

商湯科技、香港中文大學-商湯科技聯合實驗室以及其他商湯科技聯合實驗室共有 44 篇論文被本屆 CVPR 大會接收，其中包括口頭報告論文 3 篇（錄取率僅 62/3300 = 1.88%），亮點報告論文 13 篇，論文錄取數量相較於 CVPR 2017 的 23 篇又有大幅度提高，成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創新能力。

商湯科技 CVPR 2018 錄取論文在以下領域實現突破：大規模分散式訓練、人體理解與行人再識別、自動駕駛場景理解與分析、底層視覺演算法、視覺與自然語言的綜合理解、物體檢測、識別與跟蹤、深度生成式模型、視頻與行為理解等。這些新穎的計算機視覺演算法不僅有著豐富的應用場景，使得更多的智能視覺演算法能應用於日常生活之中，還為後續研究提供了可貴的經驗和方向。

大規模分散式訓練代表性論文：Oral – 深度增強學習自動網路結構設計

一騎絕塵，商湯科技44篇論文入選CVPR 2018

本文致力於解決深度神經網路結構的自動設計問題，與一般人工的結構設計不同，本文提出了一種高效演算法，通過強化學習來自動設計最優的網路結構。傳統的神經網路結構設計通常需要大量專家的知識和試錯成本，並且甚至還需要一些靈感，每年僅有幾個重要的網路結構被設計出來，因此，人工設計網路結構是一個難度極高的工作。近期的網路結構自動搜索的演算法通常需要巨大的計算資源（數百塊 GPU，近一個月的訓練），並且生產的模型可遷移性不強，難以做到真正的實用化。

本文提出了一種基於強化學習的網路結構自動設計演算法，通過「網路塊」的設計思想，讓搜索空間大大降低，並且使設計的網路具有非常強的可遷移性。同時，本文使用「提前停止」和分散式架構來加速整個網路結構學習過程，達到了百倍於之前演算法的速度（32 塊 GPU，3 天的訓練）。實驗表面，其生成的網路結構在 CIFAR 數據集上達到並且超越人類設計的網路結構的精度，並且其結構可以遷移到大規模的 ImageNet 數據上，取得良好的性能。

人體理解與行人再識別代表性論文：Oral – 基於組一致性約束條件的行人再識別

一騎絕塵，商湯科技44篇論文入選CVPR 2018

行人再識別是新一代智能安防系統中的重要組件之一。給定一幅行人圖像，行人再識別要求跨不同攝像頭，對同一行人基於其視覺外觀進行準確匹配和識別。現有深度學習演算法通常使用過於局部的約束損失函數進行行人特徵學習，因而不能精確的學習行人圖像之間的視覺相似度。本文針對該問題提出一種新穎的組一致性約束條件，並通過連續條件隨機場對該約束條件進行建模。將該連續條件隨機場加入深度神經網路，從而實現該深度模型的端對端訓練。實驗結果表明該一致性條件在訓練與測試中均能夠大幅度提升最終視覺特徵的魯棒性與判別性，實現高精度的行人再識別。

自動駕駛場景理解代表性論文：Spotlight – 極低延遲的視頻語義分割

一騎絕塵，商湯科技44篇論文入選CVPR 2018

本文關注面向自動駕駛場景的視頻實時語義分割問題，雖然近年來圖像語義分割取得很大的進展，但是對於面向視頻的語義分割任務仍然存在挑戰。其主要困難在於：1）視頻需要更多的計算量；2）許多實時的應用如自動駕駛需要實現低延遲性。

本文致力於解決這兩方面的難題，同時儘可能的保證分割的精度。在視頻分割問題中，鄰近幀之間的語義標籤的變化相對較小，因此不必每幀都使用一個完整的網路來提取語義標籤。基於這種認識，本文提出了一個如圖所示的語義分割的框架，把整個網路分為高層部分和低層部分，低層部分消耗較少的計算；本文的框架只在關鍵幀運行完整的網路來提取高層特徵進行語義分割，而在其他幀則從上一個關鍵幀傳播特徵來進行語義分割。相應的框架由兩部分組件構成：1）關鍵幀調度模塊，以及 2）特徵跨幀傳播模塊，其都基於低層特徵進行相應的計算，因此相對完整的網路計算量小很多。同時為了減少延遲，在檢測到當前幀為關鍵幀時，使用了一個低延遲的調度策略。本文提出的方法在兩個數據集上均驗證了我們方法的有效性，取得了較低延遲並保持精確的分割精度。

Spotlight – 基於單視圖的立體匹配

一騎絕塵，商湯科技44篇論文入選CVPR 2018

面向自動駕駛場景的單目深度估計方法，通常利用一個視角的圖像數據作為輸入，直接預測圖片中每個像素對應的深度值，這就導致了現有方法通常需要大量的帶深度信息標註的數據。近期的研究提出了在訓練過程引入了幾何約束的改進，但是在測試過程仍然缺乏顯式的幾何約束。本文提出把單目深度估計分解為兩個子過程，即視圖合成過程以及雙目匹配過程，通過這樣分解之後，使得所提出的模型既可以在測試階段顯式地引入幾何約束又可以極大的減少對帶深度標註數據的依賴。實驗證明，本文提出的方法僅利用少量的深度數據就可以在 KITTI 數據集上超過之前的所有方法，並首次僅靠單目圖像數據就超過了雙目匹配演算法 Block Matching，進一步推動了單目深度估計技術的落地。

底層視覺演算法代表性論文：Spotlight – 基於深度增強學習的普適圖像復原

一騎絕塵，商湯科技44篇論文入選CVPR 2018

本文提出了一種新穎的深度學習圖像復原方法。大部分已有復原演算法僅面向解決某類特定的圖像復原問題，因而對各種不同類別的降質圖像缺乏普適性。針對該問題，本文提出的 RL-Restore 演算法先訓練一系列針對不同降質圖像的小型神經網路；同時設計一種評價圖像復原質量的獎勵函數，使用增強學習演算法學習如何將這些小型神經網路進行合理組合。針對不同的降質圖像，獲得不同的復原演算法組件的組合，實現對複雜降質圖像的有效復原。

視覺與自然語言的綜合理解代表性論文：Spotlight – 面向視覺問題回答的對偶視覺問題生成

一騎絕塵，商湯科技44篇論文入選CVPR 2018

針對開放式視覺問答（Open-ended VisualQuestion Answering）中訓練數據過少的問題，本文提出了一種「可逆問答網路」。該模型可以通過重組不同模塊，使一組模型同時完成「問題回答」和「問題生成」兩種互逆的兩個任務。該模型通過充分利用視覺問答和視覺問題生成的對偶性，提升模型對於有限訓練數據的利用效率。該方法採用兩個任務同時訓練同一模型，使網路能夠對問題和圖片之間的聯繫有更深的理解，從而在問題生成和問題回答兩個任務上都取得了更好的精度和效果。

人臉識別與人臉分析代表性論文：Poster – 超越人臉識別的人臉解離特徵空間學習

一騎絕塵，商湯科技44篇論文入選CVPR 2018

本文同時解決人臉識別、屬性分類和任意人臉生成這三個問題。大多數人臉特徵學習的工作通常能夠讓網路學習得到一個具有極強身份或屬性區分度的特徵，以應用於人臉識別、屬性分類等任務；或者學習一個具有全局信息的特徵，以應用於人臉生成和編輯等應用。為什麼不能學習到一個完備的特徵空間並使得語義信息高度區分化，進而實現一個特徵能夠完成所有的任務呢？本文提出了一個信息蒸餾與驅逐網路的框架，只使用身份 ID 作為監督信息，學習到了一個同時具有極強信息區分度且包含全局信息的稠密凸特徵空間。在 LFW、LFWA 和 CelebA 等數據集上的實驗表明，人臉在該特徵空間下的投影具有極高的身份、屬性識別能力，且該空間內的任意一個點均具有較強的身份和屬性語義，並可生成具有該語義的人臉圖像。

Poster – 基於邊緣感知的人臉關鍵點定位

一騎絕塵，商湯科技44篇論文入選CVPR 2018

本文提出一種基於邊緣感知的人臉關鍵點檢測演算法，將人臉邊緣線所描述的結構信息融入到關鍵點檢測中，極大地提升了演算法在大側臉、誇張表情、遮擋、模糊等極端情況下的檢測精度。文章主要解決了兩大問題：1. 人臉關鍵點在各個數據集間歧義性，定義不一致問題。文章通過捕捉對於人臉更通用的邊緣線信息，將其作為人臉到關鍵點的中間媒介，使得不同數據集即使存在關鍵點差異，仍然可以相互輔助訓練。2. 複雜情況下關鍵點檢測精度問題。本文首先通過消息傳遞結合對抗學習得到高精度的邊緣線檢測結果，再將邊緣線信息多語義層次地融合到關鍵點檢測中，使得演算法在複雜情況下的魯棒性大幅提升。

另外，文章還提出了一個新的人臉關鍵點檢測數據集 Wider Facial Landmarksin-the-wild (WFLW)，包含 10,000 張帶有 98 點和 6 屬性標註的人臉數據，旨在幫助學界更有效的評估關鍵點演算法在各種條件下的魯棒性。

物體檢測、識別與跟蹤代表性論文：Spotlight – 基於孿生候選區域網路的高性能視覺跟蹤

一騎絕塵，商湯科技44篇論文入選CVPR 2018

本文提出一種基於端到端深度學習框架的高性能單目標跟蹤演算法。現有的單目標跟蹤演算法通常較難兼顧性能和速度，僅能在某一指標佔優。本文利用孿生（Siamese）網路和區域候選網路（Region Proposal Network），構建了一種高速高精度的單目標跟蹤演算法。兩個子網路通過卷積操作升維，統一在一個端到端的深度神經網路框架里。訓練過程中，演算法可以利用擁有密集標註（VID）和稀疏標註（YoutubeBB）的數據集進行訓練。相較於現有方法，稀疏標註的數據集大大增加了訓練數據來源，從而可以對深度神經網路進行更充分的訓練；區域候選網路中的坐標回歸可以讓跟蹤框更加準確，並且省去多尺度測試耗費的時間。實驗方面，本文提出的跟蹤演算法能在 160 幀速度下達到 VOT2015 和 VOT2016 數據集上目前的先進水平。

Poster – 快速的端到端多角度文字檢測與識別方法

一騎絕塵，商湯科技44篇論文入選CVPR 2018

本文首次提出了端到端的多角度文字檢測與識別方法。文字檢測與識別 (OCR) 是計算機視覺領域的經典問題，過去的做法將文字檢測與識別看做兩個問題分別解決。本文提出了一個端到端的方法同時進行文字檢測與識別，驗證了這兩個任務相輔相成，共同監督網路訓練可以讓這兩個任務取得更好的精度。由於兩個任務共用一個特徵提取的網路，速度也是分別進行文字檢測與識別的兩倍左右。同時本文也提出了 RoIRotate 操作，其擴展了 RoIAlign，可以應用於旋轉物體的檢測。本文在多個數據集上超過了現有方法。

深度生成式模型代表性論文：Poster – 基於特徵裝飾的實時零點風格遷移

一騎絕塵，商湯科技44篇論文入選CVPR 2018

目前針對圖像風格化的實時應用，大多需要針對特定的風格圖來設計特定的風格遷移模型；如果需要實現對於任意風格圖的遷移，計算複雜度和遷移效果大多不能得到保證。本文提出一種實時零點圖像風格遷移模型，實現對於任意風格圖像的多尺度高質量風格化遷移。該方法基於名為風格裝飾器的特徵遷移網路結構，可以容易地嵌入圖像重構網路中來達到多尺度的風格特徵遷移。該網路結構使得生成的風格化圖像充分表達風格圖中的具體紋理模式，同時保留原圖中的語義信息。實驗表明，該網路對各種類別的風格圖都有較高的風格化能力，並且可以有效擴展到多風格遷移和視頻風格遷移等應用中。

附錄：

商湯科技及商湯科技聯合實驗室共有 44 篇論文被接收，具體如下：

1.3D Human Pose Estimation in the Wild by Adversarial Learning

Wei Yang, Wanli Ouyang, Xiaolong Wang, Xiaogang Wang

2. Attention-aware Compositional Network for Person Re-Identification

Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang, Wanli Ouyang

3. Avatar-Net: Multi-scale Zero-shot Style Transfer by Feature Decoration

Lu Sheng*, Jing Shao*, Ziyi Lin and Xiaogang Wang (*equal contribution)

4. Beyond Holistic Object Recognition:Enriching Image Understanding with Part States

Cewu Lu, Hao Su, Yonglu Li, Yongyi Lu, Li Yi, Chi-Keung Tang, Leonidas J. Guibas

5. Collaborative and Adversarial Network for Unsupervised domain adaptation

Weichen Zhang, Wanli Ouyang, Dong Xu, Wen Li

6. Context Encoding for Semantic Segmentation

Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal

7. Deep Cocktail Networks: Multi-source Unsupervised Domain Adaptation with Category Shift

Ruijia Xu, Ziliang Chen, Wangmeng Zuo, Junjie Yan, Liang Lin

8. Deep Group-shuffling Random Walk for Person Re-identification

Yantao Shen, Hongsheng Li, Tong Xiao, Shuai Yi, Dapeng Chen, Xiaogang Wang

9. Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks

Jiawei Zhang, Jinshan Pan, Jimmy Ren, Yibing Song, Linchao Bao, Rynson Lau, Ming-Hsuan Yang

10. Eliminating Background-bias for Robust Person Re-identification

Maoqing Tian, Hongsheng Li, Shuai Yi, Xuesen Zhang, Jianping Shi, Junjie Yan, Xiaogang Wang

11. End-to-End Deep Kronecker-Product Matching for Person Re-identification

Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang

12. End-to-end Flow Correlation Tracking with Spatial-temporal Attention

Zheng Zhu, Wei Wu, Wei Zou, Junjie Yan

13. Exploring Disentangled Feature Representation Beyond Face Identification

Yu Liu*, Fangyin Wei*, Jing Shao*, LuSheng, Junjie Yan and Xiaogang Wang (*equal contribution)

14. Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

Shuqin Xie, Zitian Chen, Chao Xu, Cewu Lu

15. FOTS: Fast Oriented Text Spotting with a Unified Network

Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

16. GeoNet: Unsupervised Learning of Dense Depth, Motion Field and Camera Pose

Zhichao Yin, Jianping Shi

17. Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification

Dapeng Chen, Dan Xu, Hongsheng Li, Nicu Sebe, Xiaogang Wang

18. High Performance Visual Tracking with Siamese Region Proposal Network

Bo Li, Wei Wu, Zheng Zhu, Junjie Yan

19. ID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

Yujun Shen, Ping Luo, Junjie Yan, Xiaogang Wang, Xiaoou Tang

20. Learning a Toolchain for Image Restoration

Ke Yu, Chao Dong, Liang Lin, Chen Change Loy

21. Learning Dual Convolutional Neural Networks for Low-Level Vision

Jinshan Pan, Sifei Liu, Deqing Sun, Jiawei Zhang, Yang Liu, Jimmy Ren, Zechao Li, Jinhui Tang, Huchuan Lu, Yu-Wing Tai, Ming-Hsuan Yang

22. Learning Globally Optimized Object Detector via Policy Gradient

Yongming Rao, Dahua Lin, Jiwen Lu

23. LiteFlowNet: A Lightweight Convolutional Neural Network for Optical Flow Estimation

Tak Wai Hui, Xiaoou Tang, Chen Change Loy

24. Low-Latency Video Semantic Segmentation

Yule Li, Jianping Shi, Dahua Lin

25. Look at Boundary: A Boundary-Aware Face Alignment Algorithm

Wayne Wu, Chen Qian, Shuo Yang, Wang Quan

26. LSTM Pose Machines

Yue Luo, Jimmy Ren, Zhouxia Wang, Wenxiu Sun, Jinshan Pan, Jianbo Liu, Jiahao Pang, Liang Lin

27. Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang

28. Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

Shuyang Sun, Zhanghui Kuang, Lu Sheng, Wanli Ouyang, Wei Zhang

29. Optimizing Video Object Detection via a Scale-Time Lattice

Kai Chen, Jiaqi Wang, Shuo Yang, Xingcheng Zhang, Yuanjun Xiong, Chen Change Loy, Dahua Lin

30. PAD-Net: Multi-Tasks Guided Prediciton-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

Dan Xu, Wanli Ouyang, Xiaogang Wang, Nicu Sebe

31. Path Aggregation Network for Instance Segmentation

Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia

32. Pose-Robust Face Recognition via Deep Residual Equivariant Mapping

Kaidi Cao, Yu Rong, Cheng Li, Xiaoou Tang, Chen Change Loy

33. Practical Block-wise Neural Network Architecture Generation

Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-lin Liu

34. Recognize Actions by Disentangling Components of Dynamics

Yue Zhao, Yuanjun Xiong, Dahua Lin

35. Recovering Realistic Texture in Image Super-resolution by Spatial Feature Modulation

Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy

36. Single View Stereo Matching

Yue Luo, Jimmy Ren, Mude Lin, Jiahao Pang,Wenxiu Sun, Hongsheng Li, Liang Lin

37. Temporal Hallucinating for Action Recognition with Few Still Images

Lei Zhou, Yali Wang, Yu Qiao

38. Towards Human-Machine Cooperation: Evolving Active Learning with Self-supervised Process for Object Detection

Keze Wang, Xiaopeng Yan, Lei Zhang, Liang Lin

39. Unifying Identification and Context Learning for Person Recognition

Qingqiu Huang, Yu Xiong, Dahua Lin

40. Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

Zhirong Wu, Yuanjun Xiong, Stella Yu, Dahua Lin

41. Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding

Dapeng Chen, Hongsheng Li, Tong Xiao, Shuai Yi, Xiaogang Wang

42. Visual Question Generation as Dual Task of Visual Question Answering

Yikang Li, Nan Duan, Bolei Zhou, Xiao Chu, Wanli Ouyang, Xiaogang Wang

43. Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

Hao-Shu Fang, Guansong Lu, Xiaolin Fang, Jianwen Xie, Yu-Wing Tai, Cewu Lu

44. Zoom and Learn: Generalizing Deep Stereo Matching to Novel Domains

Jiahao Pang, Wenxiu Sun, Chengxi Yang, Jimmy Ren, Ruichao Xiao, Jin Zeng, Liang Lin

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※阿里雲推出黑科技—嬰語貼紙，學會嬰兒讀心術
※殺入自研AI 晶元 Rokid引入原三星半導體周軍

TAG:雷鋒網 |