ECCV 2018獎項公布：德國團隊獲最佳論文，吳育昕、何愷明上榜

知識 09-13

機器之心報道

機器之心編輯部

現場支持：李振強、楊浩進

今日，ECCV 2018 獲獎論文公布，來自德國航空航天中心、慕尼黑工業大學的研究者獲得最佳論文獎項；吳育昕與何愷明合作的《Group Normalization》、Albert Pumarola 等人合作的《GANimation: Anatomically-aware Facial Animation from a Single Image》獲得了最佳論文榮譽提名獎。

當前，在人工智慧大浪潮下，學術會議成為產業界甚至公眾密切關注的事件。

前有NIPS 門票開放註冊 11 分鐘後被搶光，而正在火熱進行的 ECCV 官網也提前發布通知表示，大會已經滿額，不要自發來參與此大會。

作為計算機視覺領域的三大頂會之一，ECCV 今年的火爆程度超乎尋常。據數據顯示，今年大會參會人數近 3200 人，是上屆（2016）的兩倍。

論文接收方面，本屆大會收到論文投稿 2439 篇，接收 776 篇（31.8%），59 篇 oral 論文，717 篇 poster 論文。在活動方面，ECCV 2018 共有 43 場 Workshop 和 11 場 Tutorial。

除了介紹本屆大會的參會與論文接收情況，會議主辦方在周三的晚宴中還公布了今年的獲獎論文：

最佳論文

最佳論文獎由來自德國航空航天中心、慕尼黑工業大學的團隊獲得。值得一提的是港中文大學教授、商湯科技聯合創始人湯曉鷗是頒獎委員會成員之一。

論文：Implicit 3D Orientation Learning for 6D Object Detection from RGB Images

作者：Martin Sundermeyer、En Yen Puang、Zoltan-Csaba Marton、Maximilian Durner、Rudolph Triebel

機構：德國航空航天中心、慕尼黑工業大學

論文鏈接：http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf

摘要：我們提出了一個基於 RGB 的實時目標檢測和 6D 姿勢估計流程。我們的新型 3D 目標朝向估計方法基於去噪自編碼器（Denoising Autoencoder）的一種變體，其使用域隨機化（Domain Randomization）在 3D 模型的模擬視圖上進行訓練。我們稱之為「增強自編碼器」（Augmented Autoencoder，AAE），它和現有方法相比具備多項優勢：無需真實的姿勢標註訓練數據，可泛化至多種測試感測器，且內在地能夠處理目標和視圖對稱性。該方法不學習從輸入圖像到目標姿勢的顯性映射，而是提供樣本在潛在空間中定義的目標朝向隱性表徵。在 T-LESS 和 LineMOD 數據集上的實驗表明，我們的方法優於基於模型的類似方法，可以媲美需要真實姿態標註圖像的當前最優方法。

具體而言，我們的方法在單張 RGB 圖像上運行，由於不需要深度信息，其可用性大大提高。儘管我們注意到深度圖可以被選擇性地合併以改進估計。第一步，我們應用一個單次多框檢測器（Single Shot Multibox Detector，SSD）來提供物體邊界框和標識符。在生成的場景裁剪圖上，我們採用了新的 3D 朝向估計演算法，該演算法基於先前預訓練的深度網路架構。雖然深度網路也在現有方法中使用，但我們的方法不同之處在於，我們在訓練期間沒有從 3D 姿態標註數據中顯式地學習。相反，我們從渲染的 3D 模型視圖中隱式地學習表徵。

本論文提出方法的原理圖如下所示：

圖 1：具有同質轉化 H_cam2obj ∈ R^(4x4)（右上）和深度精製結果 H^（refined）_cam2obj（右下）的 6D 目標檢測管道

圖 4：AAE（增強自編碼器）的訓練過程。

圖 5：具有遮擋測試輸入的自編碼器 CNN 架構。

表 5：LineMOD：使用不同訓練和測試數據的目標召回（ADD 標準），結果來自 [35]。

最佳論文獲獎團隊接受頒獎

榮譽提名論文

論文：Group Normalization

作者：吳育昕、何愷明

機構：Facebook AI Research (FAIR)

論文鏈接：https://arxiv.org/abs/1803.08494

摘要：批歸一化（BN）是深度學習發展史中的一項里程碑技術，使得大量神經網路得以訓練。但是，批量維度上的歸一化也衍生出一些問題——當批量統計估算不準確導致批量越來越小時，BN 的誤差快速增大，從而限制了 BN 用於更大模型的訓練，也妨礙了將特徵遷移至檢測、分割、視頻等計算機視覺任務之中，因為它們受限於內存消耗，只能使用小批量。在本論文中，我們提出了作為批歸一化（BN）簡單替代的組歸一化（GN）。GN 把通道分為組，並計算每一組之內的均值和方差，以進行歸一化。GN 的計算與批量大小無關，其精度也在各種批量大小下保持穩定。在 ImageNet 上訓練的 ResNet-50 上，當批量大小為 2 時，GN 的誤差比 BN 低 10.6%。當使用經典的批量大小時，GN 與 BN 相當，但優於其他歸一化變體。此外，GN 可以自然地從預訓練階段遷移到微調階段。在 COCO 的目標檢測和分割任務以及 Kinetics 的視頻分類任務中，GN 的性能優於或與 BN 變體相當，這表明 GN 可以在一系列不同任務中有效替代強大的 BN；在現代的深度學習庫中，GN 通過若干行代碼即可輕鬆實現。

圖 1：ImageNet 分類誤差 vs. 批大小。這是在 ImageNet 訓練集上用 8 個工作站（GPU）訓練、在驗證集上進行評估的 ResNet-50 模型。

論文：GANimation: Anatomically-aware Facial Animation from a Single Image

作者：Albert Pumarola、Antonio Agudo、Aleix M. Martinez、Alberto Sanfeliu、Francesc Moreno-Noguer

機構：西班牙機器人與工業信息研究所、俄亥俄州立大學

論文鏈接：https://arxiv.org/abs/1807.09251

摘要：近期生成對抗網路（GAN）在人臉表情合成任務中取得了驚人的表現。其中最成功的架構是 StarGAN，它使用特定域的圖像來調整 GAN 生成過程，即一系列相同表情的人臉圖像。儘管該方法很有效，但它只能生成不連續的表情，而這是由數據集決定的。為了解決這個局限，本文提出了一種基於動作單元（AU）標註的新型 GAN 條件化方法，該方法在連續流形中描述了定義人臉表情解剖結構的運動。我們的方法允許控制每個 AU 的激活值大小，並將其組合。此外，我們還提出了一個完全無監督的策略來訓練該模型，僅需要用激活 AU 標註的圖像，並利用注意力機制使我們的網路對背景和光照條件變化具備魯棒性。擴展評估結果表明，我們的方法在合成更多樣表情（按解剖結構的肌肉運動），以及處理自然圖像的能力上都超越了對比的條件生成模型。

圖 1：從單張圖像生成的人臉動畫。研究者提出了一種解剖結構上連貫的方法，該方法不局限於離散數量的表情，可以對給定的圖像進行動畫化處理, 並在一些連續的圖像域中生成新的表情。在這些例子中，只給出最左邊的圖像輸入 I_yr（由綠色方框圈出）, 參數α控制微笑表情中包含的目標動作單元的激活程度。此外, 該系統可以處理非自然光照條件下的圖像, 如最下面一行的例子。

以下是部分動畫示例：

除了最佳論文，ECCV 2018 還頒布了 Everingham 獎、Koenderink 獎兩大獎項。前者是為了紀念 Mark Everingham，後者是為了獎勵經得起時間考驗的計算機視覺基礎研究。

Everingham 獎