CVPR 2019：中國企業斬獲無數冠軍，見證華人星耀時刻

新聞 06-30

雷鋒網 AI 科技評論：6 月 18 日，三大世界頂級計算機視覺會議之一「計算機視覺與模式識別會議」（Conference on Computer Vision and Pattern Recognition 2019，CVPR 2019）在美國長灘拉開帷幕，頂會吸引全球超過9200位頂尖專家、學者以及產業界人士，共同推進 CV 技術的發展與落地。

相比 2018 年，本屆 CVPR 的論文提交數量增加了 56%，但論文接收率卻下降了 3.9%，可見論文入選難度加大；而學術比賽報名人數也保持持續增長。但無論在論文方面還是學術比賽中，今年多家中國企業都取得了可喜的成績，這些成績不僅體現了這些企業的發展水平，也代表了國人的科技進步。雷鋒網 AI 科技評論現將其成果整理報道如下。

商湯 62 篇論文入選 CVPR 2019，聯合研究團隊獲得 CVPR 2019 Workshop NTIRE 2019 視頻恢複比賽四個賽道冠軍

商湯科技 CVPR 2019 錄取論文在多個領域實現了突破，其中代表性論文有：《基於混合任務級聯的實例分割演算法》、《基於特徵指導的動態錨點框生成演算法》（高層視覺核心演算法——物體檢測與分割）；《基於網路參數插值的圖像效果連續調節》、《基於光流引導的視頻修復》（底層視覺核心演算法——圖片復原與補）；《PointRCNN: 基於原始點雲的 3D 物體檢測方法》（面向自動駕駛場景的 3D 視覺）；《基於人體本徵光流的姿態轉換圖像生成》（面向 AR/VR 場景的人體姿態遷移）；《基於條件運動傳播的自監督學習》（無監督與自監督深度學習前沿進展）等。這些突破性的計算機視覺演算法不僅有著豐富的應用場景，也為 AI 行業的發展做出了巨大的貢獻。

而在 CVPR 2019 Workshop NTIRE 2019 視頻恢複比賽中（包含兩個視頻去模糊和兩個視頻超解析度），來自商湯科技、香港中文大學、南洋理工大學、中國科學院深圳先進技術研究院組成的聯合研究團隊使用 EDVR 一套演算法，獲得了全部四個賽道的所有冠軍，並且每個結果都大幅超越賽道第二名。

在論文《EDVR: Video Restoration with Enhanced Deformable Convolutional Networks》中，作者介紹了這種新型演算法，通過一種新的網路模塊 PCD 對齊模塊，使用 Deformable 卷積進行視頻的對齊，可以實現整個過程端到端的訓練；而在挖掘時域（視頻前後幀）和空域（同一幀內部）的信息融合時，作者又提出了一種時空注意力模型，來進行更好的信息融合。

CVPR 2019：中國企業斬獲無數冠軍，見證華人星耀時刻

EDVR 演算法架構

因此，在將 EDVR 演算法視頻超解析度與目前行業最好的圖像超分辨演算法 RCAN 恢復來對同一區域進行處理時，可以明顯看到 EDVR 演算法視頻超分辨能給到更多的細節。（該方法的代碼已開源）

另外，商湯科技還在 AI CITY Challenge（CVPR 2019 Workshop）異常檢測賽道中獲得冠軍。城市智慧交通一直都面臨著數據質量差、標籤數據少、缺乏高質量演算法模型以及從邊緣到雲端的計算資源不足等挑戰，而比賽中，商湯科技的設計更多地通過遷移學習、無監督和半監督的方法檢測交通異常，如道路事故、車輛故障等，從而達到更好的幫助城市交通變得安全和智能這一目的。

EDVR 論文地址
https://arxiv.org/abs/1905.02716v1
EDVR 開源地址
https://github.com/xinntao/EDVR

百度 17 篇論文被大會收錄，獲 10 項 CVPR 2019 競賽冠軍

在今年的 CVPR 上，百度共有 17 篇論文被接收，內容涵蓋了語義分割、網路剪枝、ReID、GAN 等諸多方向，並且其中很多技術都設計到無人駕駛相關場景。

其中包括《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》（https://arxiv.org/abs/1809.09478）中，提到了結合了聯合訓練和對抗訓練來處理虛擬圖像與真實圖像之間語義分割網路訓練差異的問題，將該技術應用在自動駕駛中，可以大大減少數據標註和採集的工作量。

《Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation》（https://arxiv.org/abs/1904.03895）中提出的視覺特徵適應模型和策略模擬模型，可以有效將機器人在虛擬環境中學習到的策略和特徵遷移到實際場景中；《ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving》一文提出目前已知自動駕駛領域最大規模的三維車輛姿態數據集，可以更好的對單張圖像的車輛姿態估計。

而在 CVPR 相關競賽任務中，百度一共獲得了 10 項冠軍，涵蓋眾多熱門領域——

視覺領域下的視頻理解與分析：包括視頻動作提名、視頻動作檢測兩項任務的冠軍，以及新增任務 EPIC-Kitchens 動作識別挑戰賽中獲兩項測試集冠軍（Seen kitchens 和 Unseen kitchens）；
目標檢測：「Objects365 物體檢測」國際競賽 Full Track 冠軍，NTIRE 競賽中獲得圖像超分辨項目冠軍；
人體檢測：Look Into Person 國際競賽中三項人體精細化解析競賽單元（Track1：Single-Person Human Parsing，Track3：Mult-Person Human Parsing，Track4：Video Multi-Person Parsing）中，均獲得第一名；
人臉活體檢測：在 CVPR-19-Face Anti-spoofing Attack Detection Challenge 上，百度擊敗了 300 多個隊伍，最終獲得第一的好成績。
智能城市車輛識別：AI-city 公開賽城市範圍多攝像頭車輛重識別任務第一名；

在 CVPR 2019 上，百度 Apollo 還首次曝光 L4 級自動駕駛純視覺解決方案。Apollo 技術委員會主席王亮就 L4 級全自動駕駛（Fully Autonomous Driving）環境感知技術方案進行了講解，並公開了環視視覺解決方案百度 Apollo Lite。並表示經過前期的技術研發投入和 2019 年上半年的路測迭代，依靠這套 10 相機的感知系統，百度無人車已經可以在城市道路上實現不依賴高線數旋轉式激光雷達的端到端閉環自動駕駛。

曠視 14 篇論文被接收，並斬獲 CVPR2019 挑戰賽 6 項世界冠軍

在 CVPR 2019 上，曠視研究院通過 Oral、Poster、Workshop、Demo、Booth 等形式，同世界分享在計算機視覺理論與應用領域的最新進展。

相比去年曠視科技有 8 篇論文被收錄，今年他們又多了 6 篇被 CVPR 所接收。這 14 篇論文涉及行人重識別、場景文字檢測、全景分割、圖像超解析度、語義分割、時空檢測等技術方向。

並在頂會的 CVPR 2019 WAD（Workshop on Autonomous Driving）、CVPR 2019 FGVC（Workshop on Fine-Grained Visual Categorization）、CVPR 2019 NTIRE（New Trends in Image Restoration and Enhancement workshop）3 項挑戰賽中，擊敗 Facebook、通用動力、戴姆勒等國內外一線科技巨頭與知名高校，一舉拿下 6 項世界冠軍，內容涵蓋自動駕駛、新零售、智能手機、3D 等眾多領域。

其中挑戰賽 NTIRE 2019 真實圖像降噪比賽，致力於恢復與增強圖像質量。到目前為止，已連續舉辦了 3 年。今年 NTIRE 挑戰賽下設 11 項比賽，曠視研究院參賽的「真實圖像降噪（Real Image Denosing Challenge）」中，共有來自全球的 216 位選手、12 支隊伍。和往年不同，今年的圖像降噪賽是針對真實而非合成的圖像去評估圖像降噪器。該項比賽根據圖像儲存的兩種格式——原始感測器數據（raw）和標準 RBG（sRGB），分為對應的兩項子賽。

曠視研究院參戰 raw 圖像去噪，提出了針對 raw 圖像的基於 U-Net 框架的「拜爾陣列歸一化與保列增廣」方法。團隊精心設計了一種數據預處理方法，使得不同輸入圖像間的數據能保持網路輸入一致性，從而應用到具有不同拜耳模式的輸入上，在保證性能的前提下用更大的圖像集合訓練網路。此外，團隊還提出了適用於 raw 圖像的數據增廣方法，這些優勢可以幫助網路獲得更好的泛化能力。

而且曠視的冠軍演算法已成功落地於 OPPO Reno 10 倍變焦版。OPPO Reno 10 倍變焦版搭載了基於曠視 MEGVII 超畫質技術研發的「超清夜景 2.0」功能，能夠為用戶提供更好的夜拍體驗。這也是曠視超畫質技術首次運用在大規模量產機型上。

京東 AI 在 CVPR 2019 共發表 12 篇論文，斬獲 3 項冠軍和 2 項亞軍

本次京東 AI 研究院在 CVPR 2019 上一共發表 12 篇論文，其中 4 篇論文入選了 oral presentation（oral presentation 的入選率只有 5%），入選 oral presentation 的四篇論文包含：

《ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch》（https://arxiv.org/abs/1810.08425v3）
《Transferrable Prototypical Networks for Unsupervised Domain Adaptation》（https://arxiv.org/abs/1904.11227）
《Unsupervised Person Image Generation with Semantic Parsing Transformation》（https://arxiv.org/abs/1904.03379）
《Gaussian Temporal Awareness Networks for Action Localization》（https://docs.wps.cn/view/p/35402862179?from=docs&source=docsWeb）

其中京東 AI 研究院提出的 ScratchDet，則從優化的角度出發，通過實驗解釋了梯度穩定手段之一的 BatchNorm 如何幫助隨機初始化訓練檢測器，進而結合了 ResNet 與 VGGNet 來加強對小物體的檢測。並將這一技術成功運用在了其他任務上，如人臉檢測、文字檢測等，這對於計算機視覺的發展有著重大的意義。

在學術比賽方面，京東 AI 研究院在 CVPR 2019 上共獲得三項第一，分別是：視頻動作識別、商品圖片識別，以及精細粒度蝶類圖片識別；而在多人人體解析、菜品類圖像識別競賽中獲得第二名。

視頻動作識別被視為 ActivityNet 中最核心、最基礎的任務。在本屆 ActivityNet 視頻動作識別任務（Kinetics）比賽中，共有 15 支來自於美國卡耐基梅隆大學、百度、Facebook 人工智慧研究院、上海交通大學 MVIG 實驗室等國際知名研究機構的參賽隊伍。而京東 AI 憑藉著他們所提出的一種新框架——通過局部和全局特徵傳播（LGD）學習視頻中的空間、時間特徵，最終在眾多強勁參賽者中脫穎而出。

在精細圖像識別 (Fine-Grained Visual Categorization) 學術比賽中，今年比賽圖片數量和商品數據類別分別是去年的 5 倍和 40 倍，挑戰性相應也有大幅度提升；全球共有 96 支隊伍、152 位選手通過 1600 次提交參加了競賽，而最終京東 AI 靠著基於自研的全新精細圖像分類演算法獲得了冠軍。該演算法通過按塊「破壞」圖像中的結構信息，然後再令已經訓練的神經網路進行重點視覺區域識別與抓取，進而識別物品本身；更值得注意的是，這一技術不光可以達到高準確率，同時還有很強的兼容性。相關研究成果更多詳情可在論文《Destruction and Construction Learning for Fine-grained ImageRecognition》（https://docs.wps.cn/view/p/35402900346?from=docs&source=docsWeb）中獲得。

阿里 AI 獲圖像識別競賽 WebVision 冠軍

阿里 AI 在該競賽由谷歌、美國卡耐基梅隆大學、蘇黎世聯邦理工大學等機構聯合全球視覺技術領域頂級學術會議 CVPR 發起的第三屆圖像識別競賽 WebVision 中獲得冠軍，要求參賽的 AI 模型將 1600 萬張圖片精準分類到 5000 個類目中，最終阿里的識別準確率 82.54%，將萬物識別領域的歷史紀錄提升了 3 個百分點。

而就在今年 3 月中，阿里與深圳大數據研究院、香港中文大學（深圳）、大連理工大學以及中國科學技術大學共同完成《Deep Reinforcement Learning of Volume-guided Progressive View Inpainting for 3D Point Scene Completion from a Single Depth Image》被收錄為 Oral Presentation。

之後與哈爾濱工業大學、香港理工大學、深圳鵬城實驗室聯合設計的超解析度演算法——能夠很好的應對模糊降質的 DPSR 技術（來自論文《Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels》），也被 CVPR 2019 所接收。並且該演算法已經開源了代碼（https://github.com/cszn/DPSR）；在另一篇被接收的論文《ODE-Inspired Network Design for Single Image Super-Resolution》中，阿里與中科院、中科院大學也展示了他們一起在圖像超解析度方面做出相應研究。

深蘭科技斬獲 CVPR 2019 FGVC 挑戰賽冠軍

FGVC 全稱為 Fine-Grained Visual Categorization，即區分不同的動物和植物、汽車和摩托車模型、建築風格等，是機器視覺社區剛剛開始解決的最有趣和最有用的開放問題之一。細粒度圖像分類在於基本的分類識別（對象識別）和個體識別（人臉識別，生物識別）之間的連續性；不同於傳統的廣義上的分類任務，FGVC 的挑戰致力於子類別的劃分，需要分類的對象之間更加相似，例如區分不同的魚類、同一植物不同形態、不同的生活用品等。

在今年 CVPR 的 FGVC6 Workshop 賽區，共有十個挑戰賽，每個都代表了細粒度視覺分類在某個細分領域的挑戰。今年此次挑戰賽共有來自全球 88 個團隊參與，提交了超過 1300 份方案。而在 Kaggle 上舉辦的 CVPR 2019 Cassava Disease Classification（根據木薯的葉子區分不同種類的木薯疾病的任務）挑戰賽中，DeepBlue AI 通過圖像增強方法來降低過擬合的風險，並提高模型的魯棒性，同時利用多個在 ImageNet 表現優異的模型，以集成方法提升精度，最終獲得了冠軍。

除了該項挑戰賽，同期深蘭科技還在在 CVPR 的另外兩項比賽 2019 Workshop on Autonomous Driving (WAD) D2-City & BDD100K Tracking Domain Adaptation Challenge and the D2-City & BDD100K Detection Domain Adaptation Challenge.（目標檢測遷移學習、目標跟蹤遷移學習挑戰賽和大規模檢測插值探索賽）分獲亞軍和季軍。

圖鴨科技，包攬圖像壓縮大賽四項指標全部冠軍

今年的 CVPR 上，機器學習圖像壓縮挑戰賽（CLIC）由 Google 聯合 twitter、Netflix 等贊助。如今由於手機像素的提升，佔用大部分內存空間的圖片對於移動存儲設備和網站來說都是很大的負擔；而對圖片進行高效高質的壓縮處理，已經成了眾多互聯網企業的極大需求。因此，在本屆會議上，圖像壓縮也成了技術焦點之一。

在去年，圖鴨科技曾奪得過該挑戰賽的 MS-SSIM 與 MOS 兩項第一；而今年，他們也帶來了更強的技術，最終在 MS-SSIM、Transparent Track、PSNR、Perceptual Qualit 四項指標上均奪得桂冠，向世界展示了他們的技術硬實力，成為世界圖像壓縮歷史大滿貫贏家。

美團無人配送斬獲 CVPR 2019 軌跡預測挑戰賽冠軍

美團無人配送與視覺團隊在本屆 CVPR 上，也獲得了很好的成績，分別在障礙物軌跡預測挑戰賽（Trajectory prediction challenge）中斬獲第一名和商品識別挑戰賽（iMaterialist Challenge on Product Recognition）獲得第二名。

對於美團無人配送與視覺團隊來說，這不光只是一種榮譽，也向我們展現出了他們在自動駕駛技術和視覺圖像方面進行的大量研究和產品化探索，並在場景應用方面所積累的豐碩成果。

美圖影像實驗室 MTlab 獲 NTIRE 圖像增強賽冠軍

美圖影像實驗室 MTlab 此次參加了圖像增強和圖像去霧兩個比賽，兩個比賽均收到了超過 200 支團隊報名。

最終，在圖像增強賽道（Image Enhancement Challenge）中，美圖影像實驗室 MTlab 獲得了冠軍；在圖像去霧賽道（Image Dehazing Challenge），美圖影像實驗室 MTlab 獲得了季軍。

滴滴獲得 CVPR 2019 AI 城市大賽亞軍

本屆 AI 城市大賽（AI City Challenge）共有來自全球超過 200 支頂尖隊伍參與，滴滴在 CVPR AI 城市比賽（AI City Challenge）中最終獲得了亞軍，並攜手加州大學伯克利分校 DeepDrive 深度學習自動駕駛產業聯盟（BDD）一同舉辦了 CVPR 2019 自動駕駛研討會，詳細介紹了滴滴在自動駕駛領域的探索和實踐。

雷鋒網 AI 科技評論

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※上海AI研究院完成招募；倡導資料庫自由；雲服務降價丨AWS技術峰會
※芯時代，芯征程，芯機遇，阜時科技人工智慧與機器視覺高峰論壇圓滿舉辦

TAG:雷鋒網 |