GAN相關：PAN/感知對抗網路

GAN相關：PAN（Perceptual Adversarial Network）/ 感知對抗網路

Perceptual Adversarial Networks for Image-to-Image Transformation

Chaoyue Wang et al

intro

首先介紹pixel-wise的圖像任務。指出用傳統的l1和l2 norm來進行計算會帶來一些問題，比如丟失高頻造成的模糊，或者丟失perceptual information導致的artifact。而GAN，cGAN可以較好地生成更真實的圖片，也有將像素級的loss和GAN loss結合的方法。然後介紹了perceptual loss，這種loss可以通過penalizing the discrepancy between extracted high-level features, these models are trained to transform the input image into the output which has same high-level features with the corresponding ground-truth. 也就是可以生成具有相同的高階特徵的圖片，顯然這個可以做風格遷移，也可以做artifact的壓制。上述的所有loss都從不同方面懲罰了輸出和真實圖像之間的discrepancy，然而單一的loss還不夠，所以需要多個loss結合起來。而perceptual loss的優點是，可以再各個方面進行優化，自動持續的尋找還沒有被優化的discrepancy。 the perceptual adversarial loss provides a strategy to penalize the discrepancy between the output and ground-truth images from as many perspectives as possible。

所以作者在本文中的貢獻在於：提出了principled perceptual adversarial loss ，利用判別器的隱層來評價output和groundtruth。另外，把pan loss 和gan loss結合，並且在各種image-to-image的任務下做了評估。

傳統的CNN做圖像轉換，應用了per-pixel 的loss以及其他的各種loss形式。並且做了許多任務，比如de-raining，de-snowing等等。GAN在最近得到了很好的發展。有些工作是為了更好的訓練generator的，比如InfoGAN，WGAN，Energy-based GAN等，還有一些用GAN來解決經典問題，比如PGN用來做視頻預測，SRGAN用來做超解析度，ID-GAN做de-raining，以及iGAN做interactive application等等。當然還有最近的pix2pix-cGAN。

下面介紹的是perceptual loss。Therefore, high-level features extracted from hidden layers of a well-trained CNNs are introduced to optimize image generation models. 人們利用訓練好的網路中的高層的信息，或者叫feature來提高生成質量。

網路結構圖：

作為GAN網路，GAN loss和傳統的gan一樣：min max E[logD(y)] + E[log(1-D(T(x)))] ，這裡的T是Transform網路，D就是判別網路，x是輸入，比如snowy，rainy，或者inpainting里用的缺少部分的圖片，或者用來補全的圖畫的輪廓等。y是真是圖像。

下面是perceptual loss，這個loss實際上就是對網路的高層的偏離的一個懲罰，因為我們任務高層網路含有知覺意義上的信息，或者說是類似語義上的信息。具體的操作就是：

上面的lambda是超參數，Pi是第i層的一個函數，計算T(x)和y的偏差，這裡用了l1-norm。這樣，最終的loss 函數就是：

T（就是G）和D的loss 函數分別代表的意義如下：T希望我們生成的圖像能夠在D的判決下更趨向於1，也就是True，而且希望T(x)和y的perceptual的距離更加接近。而D剛好相反，一方面希望兩者盡量分開，另一方面希望兩者perceptual距離更大。但是m是一個margin，超過了這一項就變成0，並且沒有gradient了。

然後T網路的參數如下;

可以看到，這個T網路加跳線用的是concatenate拼接，而且最後一層用了tanh，leaky-relu只出現在某幾層。還可以看到用了BN層。

然後這是D網路的結構：

下圖是一些對參數的討論：

上面的比較是針對不同的loss function，下面的是用把lambda向量中的某一項置1，其他置0而得到的perceptual loss function 來訓練得到的結果，可以看出，對高層進行perceptual的約束可以更好的回復高頻，但是會丟失顏色信息；而對低層約束可以注意顏色，卻無法恢復細節，從而產生blurring。所以將不同層的約束integrate起來。

下面的是跟其他方法如IDGAN或者pix2pix的比較，就不放圖了。。。

這個PAN網路的一個主要的改進就是損失函數，把perceptual loss和gan相結合，得到了更好的效果。（之前的pix2pix是把l1 loss和gan loss相結合）

2018年03月27日16:52:53

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！