谷歌官方CVPR最強總結：5位主席21篇論文，最關注數據

新聞 07-24

新智元報道 - CVPR 2017 專題

來源：Google Research

作者：文強

【新智元導讀】CVPR 2017，作為會議的白金贊助商，谷歌表現強勢，有超過 250 人蔘會，並且有 21 篇論文被接收。一起來看看。根據谷歌官方的數據，這次 CVPR 2017 共有 21 篇文章被接收。這些論文覆蓋的方向也很廣，從技術到應用到理論都有。其中，討論最多的是數據相關的內容，包括推出帶有邊界框的 YouTube 視頻數據集，以及通過半監督和無監督的方法利用沒有人工標記的數據。

GIF/38K

CVPR 2017上，來自谷歌的主席們：

企業關係主席：韓玫（Mei Han）

韓玫是谷歌研究科學家。她已發表超過30篇有關視頻分析、視覺跟蹤、物體檢測、幾何建模、圖像處理、計算機視覺、多媒體處理以及計算機圖形學的會議論文。加入谷歌之前，韓玫曾是美國NEC實驗室研究員。韓玫本科、碩士、博士畢業於清華大學計算機科學與技術專業，並於2001年獲得卡內基梅隆大學機器人學博士學位。

領域主席：Alexander Toshev, 劉策（Ce Liu）, Vittorio Ferrari, David Lowe

我們重點關注谷歌這本屆CVPR 所發表的論文：

根據谷歌官方的數據，這次 CVPR 2017 共有 21 篇文章被接收。這些論文覆蓋的方向也很廣，從技術到應用到理論都有。其中，討論最多的是數據相關的內容，包括推出帶有邊界框的 YouTube 視頻數據集，以及通過半監督和無監督的方法利用沒有人工標記的數據。

應用方面，圖說生成、視頻摘要（總結）、人臉識別、野外多人姿態估計都有論文入選。此前新智元曾經報道過的全解析度圖像壓縮，也是谷歌在今年 CVPR 的一個重點。

《現代卷積物體識別方法在速度和精度方面的權衡比較》可以算理論研究。

論文列表

使用點擊監督學習訓練物體識別檢測器

Training object class detectors with click supervision

Dim Papadopoulos, Jasper Uijlings, Frank Keller, Vittorio Ferrari

使用對抗生成網路進行像素級的無監督領域適應

Unsupervised Pixel-Level Domain Adaptation With Generative Adversarial Networks

Konstantinos Bousmalis, Nathan Silberman, David Dohan, Dumitru Erhan, Dilip Krishnan

BranchOut：用於在線聚合追蹤的卷積神經網路的正則化技術

BranchOut: Regularization for Online Ensemble Tracking With Convolutional Neural Networks

Bohyung Han, Jack Sim, Hartwig Adam

通過視覺-語言嵌入提升視頻內容總結

Enhancing Video Summarization via Vision-Language Embedding

Bryan A. Plummer, Matthew Brown, Svetlana Lazebnik

通過聯想進行學習—訓練神經網路的多用途的半監督方法

Learning by Association—A Versatile Semi-Supervised Training Method for Neural Networks

Philip Haeusser, Alexander Mordvintsev, Daniel Cremers

使用上下文無關的監督學習生成適合上下文的圖說

Context-Aware Captions From Context-Agnostic Supervision

Ramakrishna Vedantam, Samy Bengio, Kevin Murphy, Devi Parikh, Gal Chechik

殘差網路的空間適應計算時間

Spatially Adaptive Computation Time for Residual Networks

Michael Figurnov, Maxwell D. Collins, Yukun Zhu, Li Zhang, Jonathan Huang, Dmitry Vetrov, Ruslan Salakhutdinov

Xception：使用在寬度上相互獨立的卷積進行深度學習

Xception: Deep Learning With Depthwise Separable Convolutions

Fran?ois Chollet

通過設施定位進行深度指標學習

Deep Metric Learning via Facility Location

Hyun Oh Song, Stefanie Jegelka, Vivek Rathod, Kevin Murphy

現代卷積物體識別方法在速度和精度方面的權衡比較

Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors

Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu, Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wojna, Yang Song, Sergio Guadarrama, Kevin Murphy

使用面部等同特徵合成正則化人臉

Synthesizing Normalized Faces From Facial Identity Features

Forrester Cole, David Belanger, Dilip Krishnan, Aaron Sarna, Inbar Mosseri, William T. Freeman

野外多人姿態精確估計

Towards Accurate Multi-Person Pose Estimation in the Wild

George Papandreou, Tyler Zhu, Nori Kanazawa, Alexander Toshev, Jonathan Tompson, Chris Bregler, Kevin Murphy

看！通過多模式對話發現物體

GuessWhat?! Visual Object Discovery Through Multi-Modal Dialogue

Harm de Vries, Florian Strub, Sarath Chandar, Olivier Pietquin, Hugo Larochelle, Aaron Courville

學習辨別和變換協變局部特徵檢測器

Learning discriminative and transformation covariant local feature detectors

Xu Zhang, Felix X. Yu, Svebor Karaman, Shih-Fu Chang

使用 RNN 進行全解析度圖像壓縮

Full Resolution Image Compression With Recurrent Neural Networks

George Toderici, Damien Vincent, Nick Johnston, Sung Jin Hwang, David Minnen, Joel Shor, Michele Covell

通過最小限度的監督，從大規模噪音數據集中學習

Learning From Noisy Large-Scale Datasets With Minimal Supervision

Andreas Veit, Neil Alldrin, Gal Chechik, Ivan Krasin, Abhinav Gupta, Serge Belongie

視頻寬度和自運動無監督學習

Unsupervised Learning of Depth and Ego-Motion From Video

Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe

視覺導航的認知映射和規劃

Cognitive Mapping and Planning for Visual Navigation

Saurabh Gupta, James Davidson, Sergey Levine, Rahul Sukthankar, Jitendra Malik

快速傅里葉色彩常數

Fast Fourier Color Constancy

Jonathan T. Barron, Yun-Ta Tsai

論可見水印的有效性

On the Effectiveness of Visible Watermarks

Tali Dekel, Michael Rubinstein, Ce Liu, William T. Freeman

YouTube邊界框：用於視頻物體檢測的大規模高精度人為注釋數據集YouTube-BoundingBoxes: A Large High-Precision Human-Annotated Data Set for Object Detection in Video

Esteban Real, Jonathon Shlens, Stefano Mazzocchi, Xin Pan, Vincent Vanhoucke

部分論文介紹

使用點擊監督學習訓練物體識別檢測器

摘要

訓練物體類別檢測器（object class detector）通常需要大量屬於同一類別的圖像，而且這些圖像中的物體要有邊界框注釋。但是，手動繪製邊界框非常耗時。在本文中，我們通過提出中心點擊注釋（center-click annotation），大大減少了注釋時間：先構建一個緊密包圍物體實例的虛構邊界框，再讓注釋器點擊這個邊界框的中心。然後，將這些點擊合併到現有的用於弱監督物體定位的多實例學習技術（Multiple Instance Learning）中，從而在所有訓練圖像上共同定位對象邊界框。

我們在 PASCAL VOC 2007 和 MS COCO 上進行了大量實驗，並表明：（1）新方案提供了一個高質量的檢測器，性能不僅遠優於弱監控技術產生的檢測器，還進行了額外的注釋工作；（2）這些檢測器繪製的邊界框與人工繪製的邊界框十分接近；（3）新方案將總的注釋時間縮短了 9 倍到 18 倍。

使用生成對抗網路進行無監督像素級的領域適應

摘要

使用帶有精心注釋的圖像數據集來訓練現代機器學習演算法，對於許多任務來說都是非常昂貴的。一個很有吸引力的替代方案是渲染合成數據，其中 ground-truth 注釋會自動生成。不幸的是，純粹在渲染圖像上進行訓練的模型通常不能推廣到真實圖像。為了解決這個缺點，此前有研究引入無監管的領域自適應演算法，嘗試在兩個域之間映射表示，或者學習提取不變的特徵。在這項工作中，我們提出了一種新的方法，以無監督的方式學習實現從一個域到另一個域在像素空間上的轉換。我們基於生成對抗網路（GAN）的模型能夠適應源域映像，就像從目標域中繪製的一樣。我們的方法不僅產生了合理的樣本，而且在一些無監督的域適應場景中也遠遠勝過最先進的技術。最後，我們展示了適應過程生成了在訓練過程中沒有見過的物體類別。

通過視覺-語言嵌入提升視頻內容總結

摘要

本文解決視頻摘要的問題，也就是將原始視頻轉換為較短的形式，同時保持原始故事不變。我們表明，以自由形式語言監督的視覺表示非常適用於這種應用。我們對兩個不同的數據集——UT Egocentric 和 TV Episodes 進行評估，並且表明，與標準視覺特徵相比，我們的新目標改進了總結性能。實驗還表明，視覺語言嵌入不需要對領域特定數據進行訓練，可以從標準靜態圖像視覺語言數據集中學習並轉移到視頻。我們的模型的另一個好處是，能夠在測試時間引導使用自由格式文本輸入的摘要，從而允許用戶定製。

通過聯想進行學習—訓練神經網路的多用途半監督方法

摘要

在許多現實世界場景中，用於特定機器學習任務的標記數據獲取成本很高。半監督訓練方法利用大量可用的未標記數據和較少量的標記樣本相結合的數據。我們提出了一個新的框架，用於深度神經網路的半監督訓練，這種方法受人類學習的啟發。將已標記的樣本嵌入到未標記的樣本中生成「聯想」。作者設計了優化函數，鼓勵正確的聯想（從一個物體類別開始，在訓練周期結束後終於同一個物體類別），懲罰那些錯誤的關聯（在訓練結束後，被歸於不同類別的數據）。該實現易於使用，可以添加到任何現有的端到端訓練設置中。我們展示了通過聯想在多個數據集上學習的功能，並表明可以通過使用附加的未標記數據來極大地提高分類任務的性能。特別是對於幾乎沒有標記數據的情況，我們的訓練計劃勝過SVHN 的現有最佳技術水平。

全部論文獲取地址：

https://research.googleblog.com/2017/07/google-at-cvpr-2017.html

*新智元編譯報道

【號外】新智元正在進行新一輪招聘，飛往智能宇宙的最美飛船，還有N個座位

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※新智元百人會：七高手縱論人機交互與終端智慧化現狀與痛點
※自然語言處理領軍人劉兵：沒有終身學習，機器不可能智能｜新智元專訪
※科技部：歡迎谷歌、亞馬遜等人工智慧領先企業在華設立研發機構
※「致敬ImageNet」ResNet 6大變體：何愷明，孫劍，顏水成引領計算機視覺這兩年

TAG:新智元 |

您可能感興趣

※ICLR 2018最佳論文重磅出爐！Adam新演算法、球形CNN等受關注
※NAB2018：AR、VR、下一代ATSC 3.0廣播、新IP標準備受關注
※C4ISRNET大會：美國防部官員公布未來18個月的技術關注點
※6月6日數字貨幣評論：BTC震蕩築底，關注WICC突破前高
※AWE2018精彩紛呈，SERI首秀引關注
※除EOS外，IPFS是2018年最值得關注的幣種
※2018年最值得關注的5款RPG 《永恆之柱2》上榜
※2018年最值得關注的5款RPG《永恆之柱2》上榜
※CCTV 3.15晚會官微發布預告，今年兩大重點關注領域中暫未提及ICO和數字貨幣
※導演TOP10｜2018第一季度最受關注華語電影導演，林超賢位列榜首
※CCTV315晚會官微發布預告，今年兩大重點關注領域中暫未提及ICO和數字貨幣
※MWC 2018前瞻：這些新技術最值得關注！
※PS估值僅0.2倍，為何要關注TCL多媒體？
※「ICLR 2018錄用結果出爐」23篇oral乾貨，強化學習等最受關注
※專題精選：2018年北美音響展AXPONA最值得關注的便攜類產品
※2018最值得關注的虛擬貨幣：BCX
※我取關了關注10年的《VOGUE》
※華為P20 Pro的進步：IMX 600加持，後置LEICA三鏡頭為何值得關注？
※2018年北美音響展（AXPONA）最值得關注的數碼和個人影音器材
※男solo歌手Melon粉絲關注人數TOP20，EXO、BTS同入榜6人，伯賢第3