逼真3D人臉動畫等，德國馬普所三篇CVPR 2019論文推薦

知識 06-23

機器之心整理

參與：路雪

計算機視覺領域頂級會議 CVPR 2019 已於近日在美國加州長灘落幕。CVPR 2019 共收到 5165 篇有效提交論文，相比去年增加了 56%；接收論文 1300 篇，接收率接近 25.2%。

據機器之心了解，德國馬克思·普朗克研究所馬普智能系統所共有 14 篇論文入選 CVPR 2019，本文簡要介紹了其中三篇。

論文 1：Capture, Learning, and Synthesis of 3D Speaking Styles

作者：Daniel Cudeiro、Timo Bolkart、Cassidy Laidlaw、Anurag Ranjan、Michael J. Black

論文鏈接：https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/510/paper_final.pdf

項目頁面：https://voca.is.tue.mpg.de/

GitHub 頁面：https://github.com/TimoBolkart/voca

摘要：音頻驅動的 3D 人臉動畫已經得到了廣泛探索，但該領域仍未達到逼真、類似人類的效果。其原因在於缺乏可用的 3D 數據集、模型和標準評估度量指標。為此，我們創建了一個獨特的 4D 人臉數據集 VOCASET，它包括以 60 fps 的幀速率捕捉到的 4D 掃描（共 29 分鐘），以及來自 12 名說話者的同期聲。然後我們在該數據集上訓練一個神經網路，它可以將人物和人臉運動分離開來。學到的模型 VOCA (Voice Operated Character Animation) 可使用任意語音信號作為輸入（即使不是英語也可以），然後將大量成人面部轉化為逼真的動圖。

VOCA 是一個簡單通用的語音驅動人臉動畫框架，適用於大量不同人物。給定任意語音信號和靜態 3D 人臉網格輸入（左），VOCA 模型輸出逼真的 3D 人物動圖（右）。

VOCA 模型架構

VOCA 用人物特定的模板 T 和原始音頻信號作為輸入，研究者利用 DeepSpeech [29] 從中提取特徵。期望輸出是目標 3D 網格。VOCA 是一個編碼器-解碼器網路，編碼器學習將音頻特徵轉換為低維嵌入，解碼器將低維嵌入映射到 3D 頂點位移的高維空間。

VOCA 網路架構。

模型架構。

實驗

論文 2：Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

作者：Soubhik Sanyal、Timo Bolkart、Haiwen Feng、Michael J. Black

論文鏈接：https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/509/paper_camera_ready.pdf

項目頁面：https://ringnet.is.tue.mpg.de/

GitHub 頁面：https://github.com/soubhiksanyal/RingNet

摘要：基於單個圖像的 3D 人臉形狀估計必須對光線、頭部姿勢、表情、鬍鬚、妝容和遮擋等的變化具備穩健性。穩健性則需要大量野外圖像作為訓練數據，而它們缺少真值 3D 形狀。為了在沒有 2D-to-3D 監督的情況下訓練網路，我們提出了 RingNet，它可以基於單個圖像學習計算 3D 人臉形狀。

我們的重要觀察是，一個人在不同圖像中不管表情、姿勢、光線如何，人臉形狀都是不變的。RingNet 利用一個人的多張圖像自動檢測 2D 人臉特徵。它使用了一個新型損失函數，當圖像中的人物相同時，人臉形狀是類似的，當人物不同時，人臉形狀是不同的。我們使用 FLAME 模型表示人臉，從而對錶情保持不變性。

訓練完成後，我們的方法可以基於單個圖像輸出 FLAME 參數，然後進行動圖化。此外，該研究者還創建了一個新的人臉資料庫「not quite in-the-wild」(NoW)。我們評估了目前已有的公開方法，發現 RingNet 的準確率高於那些使用 3D 監督的方法。目前，該研究所用數據集、模型和結果均已開源：https://ringnet.is.tue.mpg.de/。

在沒有 3D 監督的情況下，RingNet 學習從單個圖像像素到 FLAME 模型 3D 人臉參數的映射。第一行：來自 CelebA 數據集 [22] 的圖像。第二行：估計到的形狀、姿勢和表情。

NoW 數據集示例。

方法

該研究提出的 RingNet 架構如下圖所示：

RingNet 在訓練過程中使用人物 A 的多張圖像和人物 B 的一張圖像作為輸入，然後識別出相同人物圖像之間的形狀一致性和不同人物圖像之間的形狀不一致性。

如上圖所示，RingNet 被分割成 R 個 ring 元素 e^i=R_i=1，其中 e_i 包括一個編碼器和一個解碼器，如下圖所示：

實驗

研究者對 RingNet 進行了定量和定性評估，並與已有的公開方法（PRNet (ECCV 2018 [9])、Extreme3D (CVPR 2018 [35])、3DMM-CNN (CVPR 2017 [34])）進行了對比

論文 3：Local Temporal Bilinear Pooling for Fine-grained Action Parsing

作者：Yan Zhang、Siyu Tang、Krikamol Muandet、Christian Jarvers、Heiko Neumann

論文鏈接：https://arxiv.org/abs/1812.01922

項目頁面：https://ps.is.tuebingen.mpg.de/publications/bilinear2018

摘要：細粒度時序動作解析在很多應用中都很重要，比如日常活動理解、人類動作分析、手術機器人等需要在較長時間段內具備精密準確操作的應用。這篇論文提出了一種新型雙線性池化操作，它被用作時序卷積編碼器-解碼器網路的中間層。與其他研究不同，該雙線性池化操作是可學習的，因此它能夠比傳統的操作捕捉到更多複雜的局部統計數據。

此外，我們還引入了該雙線性池化操作的確切低維表徵，使得維度不會因為信息損失或過量計算而降低。我們執行了大量實驗，對該模型進行了量化分析，結果表明該模型在多個數據集上展現出優於其他 SOTA 池化方法的性能。

（二級）實驗