TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉

新聞 04-16

C新智元報道

TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉

首先，讓我們來看上面這張圖，中間一欄是側面 90°照片，你能看出計算機根據側面照合成的正臉是左邊一欄，還是右邊一欄嗎？

答案將在文末揭曉。

作為補充信息，下面這張圖全部是計算機合成的，展示了從90°、75°和45°的輪廓的合成正面人臉視圖。

TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉

根據側面照片合成正面人臉一直是個難題，現在，由中科院自動化所（CASIA）、中科院大學和南昌大學的 Rui Huang、Shu Zhang、Tianyu Li、Ran He 合作的一項研究，首次解決了這一個問題，他們受人類視覺識別過程啟發，結合對抗生成網路（GAN）的強大性能，提出了一個雙路徑 GAN（TP-GAN），能夠在關注整體結構的同時，處理人臉面部細節，在不同的角度、光照條件都取得了很好的結果。不僅如此，這種方法還能夠處理大量不同姿勢的照片。

作者表示，他們這項工作是使用合成的人臉圖像進行圖像識別任務的首次有效嘗試。

作者在論文中寫道，他們的這項工作主要貢獻在於三個方面：

1）提出了一個像人類一樣能夠考慮整體和局部信息的 GAN 結構，能夠根據單一的圖像合成正面人臉視圖，合成的圖像非常逼真且很好地保留了身份特徵，而且可以應對大量不同的姿勢。

2）將從數據分布（對抗訓練）得來的先驗知識，和人臉領域知識（對稱性、身份保留損失）結合起來，將從三維物體投射到二維圖像空間時固有的缺失信息精確地恢復了出來。

3）展示了一個「通過生成進行識別」（recognition via generation）的框架的可能性，並且在大量不同姿勢下取得了目前最好的識別結果。

真實應用場景中，不同姿勢的識別沒有很好的解決方案

雖然計算機識別圖像已經在多個基準數據集中超越了人類，但真實應用場景中，對於不同姿勢的識別問題仍然沒有得到很好地解決。

現有方法可以分為兩類，一類是採用手繪的（hand-crafted）特徵或學習不同姿態的特徵，另一類則是致力於在大量不同姿態的人臉中獲取（recover）一個正面人臉視圖，然後用這個視圖進行人臉識別。

但是，第一類方法由於要在不變和可識別之間做出權衡，往往無法有效處理大量不同的姿勢。

第二類方法，早期的嘗試是先將二維圖像與通用或有確切身份的3D模型對齊，然後利用三維幾何變換渲染正面人臉視圖。但是，這種方法遇到大量不同姿勢的圖像時，紋理損失嚴重，性能也不好。

近來，有研究者提出了由數據驅動的深度學習方法，讓系統在學習估計正面視圖的同時，分辨身份和姿勢表徵。雖然結果喜人，但合成的圖像在細節方面有所欠缺，再一次地，這種方法也無法很好應對大量不同的姿勢，因此合成的圖像也無法用於法醫取證或屬性估計。

更重要的是，從優化的角度看，從觀察到的不完全側面臉部恢復正面視圖，本身就是一個不合理而且也沒有很好定義的問題。恢復的圖像的質量嚴重依賴於訓練過程中的先驗或約束條件。

以往的方法通常採用配對監督學習的方式（pairwise supervision），極少在訓練過程中引入約束條件（constraints），因此，才導致合成的圖像模糊不清。

TP-GAN：受人類視覺啟發，結合 GAN 強大的性能

當人類在進行視覺合成的時候，我們首先是通過觀察到的側臉，在以往的經驗/知識基礎上，推測出整張臉的結構（或草圖）。然後，我們會將注意力轉向臉部的細節，比如眼睛、鼻子、嘴唇，將這些細節在剛才那張草圖上「填滿」。

受此啟發，作者提出了一個有兩條路徑的深度架構（TP-GAN），用於正面人臉圖像合成。這兩條路徑，一條專註於推理全局結構，另一條則推理局部的紋理，分別得到兩個特徵地圖。這兩個特徵圖會融合在一起，用於接下來的最終合成。

TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉

TP-GAN總結構示意圖。生成器包含兩個路徑，一個處理全局信息，一個處理局部變換。判別器在合成的正面（SF）視圖和真實相片（GT）。

不僅如此，作者還將正面人臉分布的信息併入了一個生成對抗網路（GAN），由此對恢復過程進行了很好的約束。

GAN 在二維數據分布建模方面的卓越性能（capacity）極大地改善了很多不合理的低級視覺問題，比如超解析度和修復（inpainting）。

組合多種 Loss，合成缺失部分，保留面部突出特徵

作者還根據人臉是對稱結構這一點，提出了一個對稱性損失（symmetry loss），用於補全被遮擋住的部分。

TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉

困難場景。面部特徵，包括鬍鬚、眼鏡，TP-GAN 都保留了下來。最右邊一欄，上面那張圖將臉頰恢復了出來，下面那張圖則是側面看不見額頭，但 TP-GAN 成功地將額頭恢復了出來。

為了忠實地保留一個人臉部最突出的特徵，作者在壓縮特徵空間中除了像素級別的 L1 loss，還使用了一個感知損失（perceptual loss）。

最後，關鍵一環，將身份保留損失（identity preserving loss）整合進來，實現忠實的正面臉部合成，圖像質量得到大幅提升。

TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉

TP-GAN 根據不同姿勢合成的結果。從左到右：90°、75°、45°、60°、30°和 15°。最後一欄是真實相片。

TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉

在不同的光線條件下合成的結果。上面一行是合成結果，下面一行是原始照片。

作者指出，這些圖像有可能用於人臉分析的任務。

論文 | 超越臉部旋轉：使用整體和局部感知 GAN 生成逼真、保留特徵的正面人臉圖像

TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉

使用單一臉部圖像合成逼真的正面臉部視圖在人臉識別領域中有著廣泛的應用。儘管此前有研究試圖從大量面部數據中尋求解決方案，也即數據驅動的深度學習方法，但這個問題仍然具有挑戰性，因為它本質上是個不合理的問題（ill-posed）。

本文提出了雙通道生成對抗網路（Two-Pathway Generative Adversarial Network，TP-GAN），通過同時感知全局結構和局部細節，合成逼真的正面人臉視圖。

除了常用的全局編碼器-解碼器網路之外，論文還提出了４個定位標記的補丁網路（landmark located patch networks）處理局部紋理。除了全新的架構，我們將這個不合理的問題進行了很好的轉化，引入了對抗性損失（adversarial loss）、對稱性損失（symmetry loss）和身份保留損失（identity preserving loss）的組合。這一損失的組合能夠利用正面臉部的分布和預訓練識別深度臉部模型（pre-trained discriminative deep face models），指導身份保留推理從正面臉部視圖合成側面照。不同於以往的深度學習模型主要依靠中間特徵用於識別的方法，我們的方法直接利用合成的、保留身份的圖像用於下游任務，比如人臉識別和歸因估計。實驗結果表明，我們的方法不僅在視覺上令人信服，也在多種人臉識別中超越了現有最佳方法。

對了，還有一開始問題的答案：左邊一欄是 TP-GAN 合成的結果。你答對了嗎？

論文地址：https://arxiv.org/pdf/1704.04086.pdf

TP-GAN 讓圖像生成再獲突破，根據單一側臉生成正面逼真人臉