當前位置:
首頁 > 最新 > GAN相關:PAN/感知對抗網路

GAN相關:PAN/感知對抗網路

GAN相關:PAN(Perceptual Adversarial Network)/ 感知對抗網路

Perceptual Adversarial Networks for Image-to-Image Transformation

Chaoyue Wang et al


intro

首先介紹pixel-wise的圖像任務。指出用傳統的l1和l2 norm來進行計算會帶來一些問題,比如丟失高頻造成的模糊,或者丟失perceptual information導致的artifact。而GAN,cGAN可以較好地生成更真實的圖片,也有將像素級的loss和GAN loss結合的方法。然後介紹了perceptual loss,這種loss可以通過penalizing the discrepancy between extracted high-level features, these models are trained to transform the input image into the output which has same high-level features with the corresponding ground-truth. 也就是可以生成具有相同的高階特徵的圖片,顯然這個可以做風格遷移,也可以做artifact的壓制。上述的所有loss都從不同方面懲罰了輸出和真實圖像之間的discrepancy,然而單一的loss還不夠,所以需要多個loss結合起來。而perceptual loss的優點是,可以再各個方面進行優化,自動持續的尋找還沒有被優化的discrepancy。 the perceptual adversarial loss provides a strategy to penalize the discrepancy between the output and ground-truth images from as many perspectives as possible。

所以作者在本文中的貢獻在於:提出了principled perceptual adversarial loss ,利用判別器的隱層來評價output和groundtruth。另外,把pan loss 和gan loss結合,並且在各種image-to-image的任務下做了評估。

傳統的CNN做圖像轉換,應用了per-pixel 的loss以及其他的各種loss形式。並且做了許多任務,比如de-raining,de-snowing等等。GAN在最近得到了很好的發展。有些工作是為了更好的訓練generator的,比如InfoGAN,WGAN,Energy-based GAN等,還有一些用GAN來解決經典問題,比如PGN用來做視頻預測,SRGAN用來做超解析度,ID-GAN做de-raining,以及iGAN做interactive application等等。當然還有最近的pix2pix-cGAN。

下面介紹的是perceptual loss。Therefore, high-level features extracted from hidden layers of a well-trained CNNs are introduced to optimize image generation models. 人們利用訓練好的網路中的高層的信息,或者叫feature來提高生成質量。


網路結構圖:

作為GAN網路,GAN loss和傳統的gan一樣:min max E[logD(y)] + E[log(1-D(T(x)))] ,這裡的T是Transform網路,D就是判別網路,x是輸入,比如snowy,rainy,或者inpainting里用的缺少部分的圖片,或者用來補全的圖畫的輪廓等。y是真是圖像。

下面是perceptual loss,這個loss實際上就是對網路的高層的偏離的一個懲罰,因為我們任務高層網路含有知覺意義上的信息,或者說是類似語義上的信息。具體的操作就是:

上面的lambda是超參數,Pi是第i層的一個函數,計算T(x)和y的偏差,這裡用了l1-norm。這樣,最終的loss 函數就是:

T(就是G)和D的loss 函數分別代表的意義如下:T希望我們生成的圖像能夠在D的判決下更趨向於1,也就是True,而且希望T(x)和y的perceptual的距離更加接近。而D剛好相反,一方面希望兩者盡量分開,另一方面希望兩者perceptual距離更大。但是m是一個margin,超過了這一項就變成0,並且沒有gradient了。

然後T網路的參數如下;

可以看到,這個T網路加跳線用的是concatenate拼接,而且最後一層用了tanh,leaky-relu只出現在某幾層。還可以看到用了BN層。

然後這是D網路的結構:

下圖是一些對參數的討論:

上面的比較是針對不同的loss function,下面的是用把lambda向量中的某一項置1,其他置0而得到的perceptual loss function 來訓練得到的結果,可以看出,對高層進行perceptual的約束可以更好的回復高頻,但是會丟失顏色信息;而對低層約束可以注意顏色,卻無法恢復細節,從而產生blurring。所以將不同層的約束integrate起來。

下面的是跟其他方法如IDGAN或者pix2pix的比較,就不放圖了。。。

這個PAN網路的一個主要的改進就是損失函數,把perceptual loss和gan相結合,得到了更好的效果。(之前的pix2pix是把l1 loss和gan loss相結合)

2018年03月27日16:52:53


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 柯壯的小屋 的精彩文章:

TAG:柯壯的小屋 |