「CVPR最佳論文重磅出爐」清華奪冠,「半壁江山」華人獲獎少
【新智元招聘】AI 盛夏,星艦啟航。《新一代人工智慧發展規劃》發布之際,新智元也正式入駐融科資訊中心 B 座,整裝待發。天時地利,星辰大海,我們召喚你——新船員的加入!COO、總編、主筆、內容運營、客戶總監、客戶經理、視覺總監(兼職) 7 大職位招聘全新啟動。點擊文末閱讀原文查看詳情。
華人學者在這屆大會表現格外亮眼,不僅接收論文數量超過了全部的 45%,在會議的 81 名主席名單中,也有多位華人面孔,比如張正友、陳熙霖、華剛(2019 年 CVPR 程序主席)、賈佳亞、孫劍、呂樂、周少華、朱松純等老師。
CVPR 2017 大會導覽
2017 年的 CVPR 還沒有召開便獲得了極大的關注。
根據會議官方網站的數據,今年,CVPR 共收到 2680 有效投稿,是有史以來最多的一屆。其中,一共有 783 篇論文被接收。
在參會人數方面,今年的參會人數為4950人,逼近5000人。根據參會者在 Twitter 上的「爆料」,近5000人規模的會場在 21 號簽到時早早排起了長龍。去年,CVPR總共參會人數3600人,其中有34.35%是學術,28.62%學術界,37.03%來自產業界。
同樣是在官方宣布的數據中,我們看到,2017年產業界的參與數量眾多,全球共有約 90 家企業參與到本次大會中。除了大家熟知的谷歌、微軟、Facebook、亞馬遜、蘋果、英特爾、英偉達等巨頭,中國的騰訊、阿里巴巴、京東、滴滴等大型互聯網公司,還有眾多初創企業,比如馭勢、格靈深瞳以及 Momenta 等等。
感受一下CV界的春晚有多熱鬧:
下圖:CVPR歷年論文數量變化。可以看到,2017年論文數量有一個非常大的提升,論文總數為783篇,歷史最高。也可以看出計算機視覺在整個研究領域的熱度。
CVPR 2017 最佳論文:DenseNet 和蘋果合成圖像論文
CVPR 2017 共評出5 大論文獎:
在新智元微信公眾號回復 「cvpr17 」 可下載最佳論文合集。
2 篇最佳論文
論文一:Densely Connected Convolutional Networks
作者:Gao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens van der Maaten
論文二:Learning from Simulated and Unsupervised Images through Adversarial Training
作者:Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb
2 篇最佳論文提名(優秀論文)
論文一:YOLO9000: Better, Faster, Stronger
作者:Joseph Redmon, Ali Farhadi
論文二:Annotating Object Instances with a Polygon-RNN
作者:Lluis Castrejon, Kaustav Kundu, Raquel Urtasun, Sanja Fidler
1 篇最佳學生論文
Computational imaging on the electric grid
Mark Sheinin, Yoav Y. Schechner. & Kiriakos. N. Kutulakos
其中,DenseNet 論文是康奈爾大學的 Gao Huang 和清華大學的 Zhuang Liu 等人在 2016 年發表的。DenseNet 可以看做是 ResNet 的一個變體。不同於 ResNet 將輸出與輸入相加,形成一個殘差結構,DenseNet 將輸出與輸入相併聯,實現每一層都能直接得到之前所有層的輸出。另一篇最佳論文則來自蘋果。不得不說,這家公司不鳴則已一鳴驚人,公開發表論文不久便斬獲 CVPR 最佳。今後蘋果的表現值得期待。
下面,我們簡單介紹最佳論文。
最佳論文一:密集連接卷積網路
摘要
最近的研究顯示,如果卷積網路中分別接近輸入端和輸出端的層之間包含更短的連接,那麼該卷積網路可以顯著地實現更深、更準確,並且更高效。在本研究中,我們同意這一觀察,並提出DenseNet(Dense Convolutional Network),它以前饋的方式將所有層連接起來。一個L層傳統卷積網路具有L個連接——即每一層和它的後一層之間都有一個連接,我們提出的DenseNet網路具有L(L + 1)/2個直接連接。對於每個層,它的輸入是所有前面的層的特徵圖,並且其自身的特徵圖被用作所有後面的層的輸入。DenseNet的突出優點有幾點:減輕了梯度消失的問題,加強了特徵傳播,鼓勵特徵重用,並且大大減少了參數數量。我們在4個高度競爭性的對象識別基準任務(CIFAR-10,CIFAR-100,SVHN和ImageNet)中對我們提出的架構進行了評估。結果顯示,DenseNet 在大多數任務上相比以前的最優結果獲得了顯著的進步,並且在實現高性能的同時所需的內存和計算更少。相關代碼和模型可以在這裡找到:https://github.com/liuzhuang13/ DenseNet
最佳論文二:通過對抗訓練從模擬圖像和無監督圖像學習
摘要
隨著圖形學最近得到的進步,使用合成的圖像訓練模型變得更加容易了,這能免除對數據進行注釋的昂貴花費。但是,由於合成的圖像和真實圖像分布之間存在差距,從合成的圖像學習可能無法實現期望的性能。為了縮小這一差距,我們提出模擬+無監督(Simulated+Unsupervised,S + U)學習,它的任務是學習一個模型,以使用未標記的真實數據來改善模擬器的輸出的真實感(realism),同時保留來自模擬器的注釋信息。我們為S + U學習開發了一種使用對抗網路的方法,類似生成對抗網路(GAN),但我們的方法使用合成的圖像(而非隨機向量)作為輸入。我們對標準GAN演算法進行了幾個關鍵的修改,以保留注釋信息,避免失真(artifacts)並保持訓練穩定:(i)一個「自正則化」項,(ii)一個局部對抗損失( local adversarial loss),以及(iii)使用改善後的圖像的歷史信息來對判別器進行更新。我們的研究表明,這一方法能夠生成高度逼真的圖像,並且通過定性研究和用戶研究證實了這一點。我們通過訓練模型進行視線估計(gaze estimation)和手勢估計(hand estimation)進行了定量評估。我們的研究顯示,這一方法在使用合成圖像方面實現了顯著提升,並在沒有任何已標註數據的情況下,在 MPIIGaze 數據集得到了 state-of-the-art 的結果。
最佳學生論文:電網計算成像(Computational Imaging on the Electric Grid)
摘要
交流電(AC)照明帶來了夜的節拍。 通過對這種節拍的感受,我們揭示了新的場景信息,包括:場景中的燈泡類型,城市規模的電網分段(phase)以及光傳輸矩陣。這種信息區分了反射和半反射,夜間高動態範圍以及在採集期間未觀察到的燈泡的場景渲染(scene rendering)。 後者由我們收集並提供的來源豐富的燈泡響應函數資料庫促成。為了實現以上工作,我們構建了一種新穎的 coded- exposure 高動態範圍成像技術,專門設計用於在電網交流照明上運行。
大會還公布了Longuet-Higgins 獎和PAMI 年輕研究員獎:
Longuet-Higgins 獎是 IEEE 計算機協會模式分析與機器智能(PAMI)技術委員會在每年的 CVPR 頒發的「計算機視覺基礎貢獻獎」,表彰十年前對計算機視覺研究產生了重大影響的 CVPR 論文。獎項以理論化學家和認知科學家 H. Christopher Longuet-Higgins 命名。
2017 年的Longuet-Higgins 獎被授予了 J. Philbin 等人在 2007 年發表的 CVPR 論文「Object retrieval with large vocabularies and fast spatial matching」。根據谷歌學術搜素引擎,這篇文章的被引次數高達 2122 次。
另一個獎項是「PAMI 年輕研究員獎」(PAMI Young Researcher Award),這個獎項授予那些博士畢業不超過 7 年並在計算機視覺方面有卓越研究貢獻的的年輕研究人員。PAMI 年輕研究員獎自 2013 年起頒發,繼承了 2012 年IVC 的「傑出青年研究員獎」(Outstanding Young Researcher Award)。
2017 年的 PAMI 年輕研究員獎得主是 Ross Girshick(Facebook AI Research,FAIR) 和 Julien Mairal(INRIA)。
從以上多個獎項的獲獎者來看,雖然華人學者在CVPR的論文提交數量和競賽上有出色表現,但是獲獎的比例並不算高。
接收論文:華人學者的半壁江山依然穩固,「深度學習」穩坐關鍵詞第一把交椅
今年,CVPR 共收到2680有效投稿,其中2620篇經過完整評議(其餘60篇有一些是出於技術或倫理方面的原因被委員會拒絕,有一些則在評議前退出)。
最終,一共有783篇論文被接收(接收率為29%)。其中有71篇獲得長篇口頭報告的展示機會,144篇獲得短報告(spotlights)的機會。
CVPR 2017的接收論文有三種展示形式:兩種形式的口頭展示(長篇與短篇,即Oral 與 Spotlights),以及海報展示。新智元統計發現,大會一共有107個Session。
ORALS:與傳統的CVPR orals 一樣,CVPR 2017 上進入 orals 環節的論文數量比例與此前幾屆CVPR一致。每一個orals 報告的時間是12分鐘。
SPOTLIGHTS: 每一個spotlight的報告者有4分鐘的口頭報告時間,來強調論文的主要貢獻和創新之處,以及報告論文的主要研究成果。
POSTERS: 口頭報告之外的論文將會得到海報展示的機會。此外,所有的口頭報告之外的論文也會出現在接下來的海報展示環節中。
全部論文名單地址:http://www.cvpapers.com/cvpr2017.html
經過新智元的統計,全部 783 篇論文中,華人學者參與並署名的論文約為356篇,佔比45.47%。(新智元同學人眼統計,可能會存在微小誤差)
新智元根據接收論文的題目做了粗略的熱詞統計(見上面這張雲圖)——「深度學習」毫無意外地是最熱關鍵詞。同時,Image、Object、Video 等詞出現頻率也很高,這很好理解,因為 CVPR 是計算機視覺會議。同樣,識別、檢測、分類和卷積、殘差(網路)等也是高頻詞。
Face 的出現證明了人臉識別的火熱,相較 hand、pose ,尤其是 hand,還不到 Face 的五分之一。在模型的選擇中,GAN 和生成模型十分突出,與 2017 年以來視覺界對 GAN 的關注離不開關係。實際上,這次被接收的論文中出現了多種 GAN 的變體。
接下來,讓我們看看更加詳細的分類。
CVPR 2017 接收論文領域分布情況。本次大會共接受 783 篇論文,內環表示主要分領域,外環表示次要分領域。內環右上角開始,順時針依次顯示了論文數量從多到少的主要分領域。最大的藍色部分代表機器學習,接下來的紅色代表物體識別和場景理解,再接著的藍色表示 3D計算機視覺。其他顏色對應內容詳見下面列表。
在這屆 CVPR 接收的全部 783 篇論文中,機器學習是主要分領域中論文最多的,佔了 23.5%,計算機視覺理論最少,佔1.40%。各個主要分領域論文分布情況如下:
計算機視覺中的機器學習 184篇(23.5%)
物體識別和場景理解 172篇(22%)
3D 計算機視覺 99篇(12.6%)
低級和中級視覺 93篇(11.9%)
分析圖像中的人類 87篇(11.1%)
視頻分析 55篇(7.02%)
圖像動態及追蹤 31篇(3.96%)
應用 20篇(2.55%)
計算攝影 18篇(2.30%)
生物醫藥圖像分析 12篇(1.53%)
計算機視覺理論 11篇(1.40%)
而在機器學習論文當中,最多的是 CNN 和深度學習(外環右上角紫色部分),其次是計算機視覺中的機器學習(外環右上角藍色部分),再次是非監督學習、離散優化、連續優化等。
3 大主旨演講:從基礎研究到應用再到未來研究方向
2017 年的 CVPR 共有 3 場主旨演講,分別在當地時間 22 日、23 日和 25日舉行。主題從基礎——了解靈長類視覺系統從而更好地設計深度神經網路——到應用,再到未來研究方向,為為期一周的大會奠定了基調。
主旨演講一:James J. DiCarlo 博士,MIT
演講題目:自然智能(NI)科學:靈長類動物視覺感知的反向工程
摘要:神經科學和認知科學的一大難題是人類思維的反向工程。與其他科學領域相比,這個領域仍處於起步階段。旨在模擬人工系統里的人類智能(AI)的正向工程方法也還是起步階段。但是,在人類行為中顯見的智能和認知的靈活性是存在的證據,證明機器可以被設計來模仿人類思維並與人類一起工作。在這個演講中,我將提出,通過結合腦科學和認知科學家的研究(生成和數據採集),以及旨在模擬思維(實例化和數據預測)的正向工程,思維的反向工程可以解決。為了支持這個論點,我將重點關注感知智能(對象分類和檢測),我將講述腦科學,認知科學和計算機科學中如何融合以創造可以支持這些任務的深度神經網路。這些網路不僅在圖像任務上達到人類的表現,而且它們的內部運作機制也大量模擬理論靈長類動物視覺系統的內部機制。但是,靈長類視覺系統(NI)表現仍然超出當前的深度神經網路(AI),我將展示一些神經科學方面的新線索。更廣泛地說,這只是這一偉大人類科學追求的開始——理解自然智能,我希望激勵更多人與我們一起參與這一領域。
主旨演講二:沈向洋博士,微軟全球執行副總裁
演講題目:計算機視覺的商業化:成功故事和經驗教訓
摘要:對於所有的計算機視覺研究者和實踐者來說,這是一個令人興奮的時代。我們已經看到,將多年的技術進展轉化為市場化技術這一方面獲得了空前增長。微軟多年以來一直致力於開發新的計算機視覺技術,向所有的開發者開放,並把它們融入各種產品當中。
在這一研究中,我將會簡單地回顧計算機視覺在微軟研究院過去25年的研究歷史,強調微軟研究院對計算機視覺領域的貢獻,並且著重介紹長期投入在企業中成功打造產業研究院的重要意義。
在介紹微軟商業化的成果之前,我還會介紹一些我們在計算機圖學、圖學理解、視覺和語言等方面的最新研究成果,具體地,我將介紹微軟在開發三款產品上的經驗:微軟Pix,HoloLens和認知服務,三者分別以不同的方法在利用計算機視覺系統和技術。
Pix 是一個基於AI的照相APP,它會讓你更輕鬆有趣地拍出「偉大的照片」,「聚焦、拍照、完美!」它融合了微軟研究院幾十個CVPR、ICCV和SIGGRAPH的研究成果。HoloLens是市場上第一個商業可用的混合現實系統。認知服務則能讓你在只使用幾行代碼的情況下,在不同的設備和平台上,搭建起基於AI的、實用的APP。
在本次演講中,我講展示IRIS,這是一個互動式的視覺學習服務,讓開發者可以創建圖像識別應用程序。我還將展示一些關於HoloLens最新的demo,其中包括Holoportation 項目。Holoportation 是一個新的3D捕捉技術,允許對高質量的人物3D模型進行重建、壓縮和變換,隨時隨地都能進行。推動從研究到產品循環,其中有不少挑戰。我講會討論,從生產Pix, HoloLens 和 認知服務中所獲得的經驗。
主旨演講三:Dan Jurafsky, 博士, 斯坦福大學
演講題目:從語言中提取社會意義
摘要:我會在大會上介紹我們實驗室在計算機從語言中提取社會意義的研究,也就是考慮人與人之間的社交關係的研究。我們研究了在交通信號燈前,經常和社區成員之間的互動情況。我們自動地測量了語言交互的質量,研究了交流過程中種族的角色,並未這一領域的一些未來研究提供了建議。
另一方面,我們將科學論文的語言與由科學家及其研究領域組成的網路進行計算建模,以更好地了解科學創新進展情況以及跨學科的作用。我將上述研究對科學史,特別是人工智慧的影響。這兩項研究都強調了社會語境和社會模式在解釋我們使用的詞語背後潛在含義的重要性。
14場競賽,各路英雄現場比拼
本屆 CVPR 有超過 50 個workshop,其中「超越 ILSVRC」workshop 將正式宣布ImageNet 競賽的完結。ImageNet 之所以不再正式舉辦,是因為在 2016 年 ILSVRC 的圖像識別錯誤率已經達到 2.9% 左右,遠遠超越人類(5.1%),今後再進行這類競賽意義就不大了。未來,計算機視覺的重點在圖像和視頻的理解。由此,便產生了一個值得關注的問題——繼 ImageNet 之後成為計算機視覺界標誌性競賽的是什麼。
據不完全統計,本屆 CVPR workshop 中有 14 場競賽:
ActivityNet大規模活動識別競賽2017
超越ImageNet大型視覺識別競賽
視頻對象分割的DAVIS競賽2017
2017年視覺問題回答競賽
YouTube-8M大規模視頻理解競賽
Look into Person(LIP)競賽
自動駕駛競賽
「In-the-wild」人臉競賽
大規模場景理解(LSUN)競賽
交通監控競賽
運動非剛體結構(NRSfM)競賽
NTIRE 2017單圖像超解析度競賽
開放領域行動識別競賽
PASCAL in Detail 競賽
可以看出,從場景理解到自動駕駛,本屆 CVPR 舉辦了各種競賽。其中,新智元獲得獨家消息,Look into Person(LIP)競賽,中國中科院信息工程研究所劉偲副研究員帶領的S-Lab團隊與三星電子北京研究院合作奪得行人圖像分割項目冠軍。這一競賽為CVPR2017 workshop的競賽單元,其獨家發布了LIP人體圖像數據集,通過海量的圖片、豐富的標註類別、多樣的數據,有效地填補了圖像分割領域行人數據集的空白。
競賽分為行人圖像分割、人體姿態檢測等項目,信工所S-Lab與三星合作團隊即是奪得了行人圖像分割項目的冠軍。這一項目要求參賽者對真實行人圖片進行像素級別的類別預測,從而完成圖像分割,賽題難度較大,吸引了海內外眾多團隊參與。S-Lab與三星合作團隊在競賽中針對行人圖像視角多樣化的特點,提出了基於視角的圖像分割模型VS-Net,極大地提升了圖像分割的精確程度,為後續的學術研究與業界應用提供了新的思路。
信工所研究員對新智元介紹說,在本屆CVPR,來自中科院信工所的Si Liu, Ruihe Qian, Han Yu, Renda Bao, Yao Sun 和今日頭條Changhu Wang合作發表的論文《Surveillance Video Parsing with Single Frame Supervision》,利用視頻中的時序上下文信息,有效的緩解了視頻中語義分割標註難的問題。文章提出利用一套端到端的Single frame Video Parsing (SVP)網路,在每個視頻只標註一幀的極端情況下,依然取得很好的性能。課題組同時還發表了論文《Learning Adaptive Receptive Fields for Deep Image Parsing Network》,該論文同樣針對圖像分割問題,進行了視野域方面的研究。
有關競賽的更多詳細介紹,敬請關注新智元後續報道。
贊助企業:BAT之外,湧現大量創業企業
大會的贊助商從一定程度上反映了與產業界的聯繫,從中也能看出學術成果的產業轉化情況。2017 年 CVPR 的企業贊助可謂盛況,全球共有約 90 家企業參與到本次大會中。除了大家熟知的谷歌、微軟、Facebook、亞馬遜、蘋果、英特爾、英偉達等巨頭,中國的騰訊、阿里巴巴、京東、滴滴等大型互聯網公司,還有眾多初創企業,比如馭勢、格靈深瞳以及 Momenta 等等。
其中,大會白金贊助商有谷歌、微軟、Facebook、亞馬遜、蘋果、英特爾、英偉達,也有中國的騰訊、阿里巴巴、京東、滴滴和馭勢、格靈深瞳以及 Momenta。
大會金牌贊助商
大會銀牌贊助商
銅牌贊助商
初創企業贊助商
其他贊助商
CVPR 上的華人主席:31名
CVPR 2017 共設置有大會主席、程序主席、Workshop主席、Corporate主席、Doctoral Consortium主席、Finance主席、學生志願者主席、技術主席、出版主席和領域主席等。共有81位主席,其中華人學者人數在30位左右。
根據視覺求索的介紹,CVPR 大會領域主席(Area Chair or AC)是由大會程序主席指定的。Area Chair起著極其重要的作用,某種程度上具有投稿的直接「生殺大權」。因此,Area Chair一般都是領域內頗有建樹的專家學者。
我們主要介紹在本次大會上擔任主席的華人學者們:
大會主席
張正友 (微軟)。張正友博士是世界著名的計算機視覺和多媒體技術的專家,是ACM Fellow和IEEE Fellow。他在立體視覺、三維重建、運動分析、圖像配准、攝像機自標定等方面都有開創性的貢獻。目前,正從事人機交互和遠程實景臨場等領域的一些核心技術研究。他發明的平板攝像機標定法在全世界被普遍採用,被稱之為「張氏方法」。
程序主席
劉燕西(賓夕法尼亞州立大學)
吳郢(西北大學)
Workshop 主席
陳梅(奧爾巴尼大學)
Corporate Relations Chairs
顏水成(奇虎360)
韓玫(Google)
Demos Chair
呂樂(NIH)
Website Chair
袁浚菘(南洋理工大學)
Publicity Chair
龔怡宏(西安交通大學)
領域主席
陳熙霖(中國科學院)
華剛(微軟亞洲研究院)
賈佳亞(香港中文大學)
李伏欣(俄勒岡州立大學)
劉策(Google)
劉小明(密歇根州立大學)
劉自成(微軟研究院)
呂樂(NIH)
羅傑波(羅徹斯特大學)
史建波(賓夕法尼亞大學)
孫劍(曠視科技)
田奇(聖安東尼奧得克薩斯大學)
王井東(微軟亞洲研究院)
王曉剛(香港中文大學)
吳建鑫(南京大學)
楊睿剛(肯塔基大學)
尹朝征(密蘇里科技大學)
虞晶怡(特拉華大學 / 上海科技大學)
袁浚菘(南洋理工大學)
張察(微軟研究院)
周少華(西門子企業研究所)
朱松純(UCLA)
* 本文為新智元原創報道,未經授權請勿轉載。
點擊閱讀原文可查看職位詳情,期待你的加入~
※「致敬ImageNet」ResNet 6大變體:何愷明,孫劍,顏水成引領計算機視覺這兩年
※「Neuron」大腦不是存儲記憶,它本身就是記憶
※「AI 聖經《深度學習》中文版首發」新智元聯合 7 大華人專家推薦,第一章內容大放送(評論贈書)
※「DeepMin哈薩比斯長文」偉大的AI離不開神經科學:強化學習-Attention-連續學習
TAG:新智元 |
※?台灣清華奪冠,清華獲亞軍:2019 ASC世界超算大賽落幕
※中國大學生程序設計競賽 CCPC 落幕,清華奪冠!曠視承諾包攬未來 5 年賽事總贊助