實時風格遷移原來這麼酷！用PyTorch分分鐘搞定

科技 08-03

GIF/1.7M

原文來源：medium

作者：CeShine Lee

「機器人圈」編譯：嗯~阿童木呀

在這篇文章中，我將結合自身經驗，簡要講解如何用Pytorch編寫並訓練實時風格遷移模型。而這項研究主要是以Abhishek Kadian的實現為基礎的，其運行效果非常完美。而我已經對它做了一些修改，一方面是為了讓它變得更加有趣，另一方面是想讓它能夠更加適用於 Pytorch的運行環境。

該模型使用的是《基於感知損失的實時風格遷移和超解析度》以及實例歸一化（Instance Normalization）（未實施超解析度）所描述那種方法。

下面就是我所添加到該模型實現中的三個主要部分：

1.使用官方預訓練的VGG模型。

2.在訓練期間輸入中級訓練結果。

3.添加論文中所描述的總變差正則化（Total Variation Regularization）。

使用官方預訓練的VGG模型

論文《基於感知損失的實時風格遷移和超解析度》中的模型架構

首先，我們需要快速瀏覽一下該模型架構。可以說該論文的主要貢獻在於，它提出將生成的圖像反饋到預先訓練的圖像分類模型，並從一些中間層中提取輸出以計算損耗，便將會產生和Gatys等人所得到的類似的結果，但這明顯具有更少的計算資源。因此，該結構的第一部分是「圖像變換網」（Image Transform Net），它可以從輸入圖像中生成新的圖像。而第二部分只是一個「損失網路」，即前饋部分。而損失網路的權重是固定的，在訓練過程中不會更新。

Abhishek的實現使用的是具有BGR信道順序和中心信道偏移量為[-103.939，-116.779，-123.680]（它似乎也是論文中所描述使用的一種方法）的傳統VGG模型。官方pytorch預訓練模型使用的是一個統一格式：

所有預訓練的模型都希望以相同的方式對輸入圖像進行歸一化，即，預先形成小批量的3通道RGB圖像（形式為3 x H x W），其中，H和W的預期值至少為224。圖像必須載入到[0,1]的範圍內，然後使用mean = [0.485, 0.456, 0.406]和std = [0.229, 0.224, 0.225]進行規範化。

以下是從官方預訓練的模型中提取輸出的代碼：

啟動：

除非明確指定，否則VGG模型中沒有批量歸一化（batch normalization）。所以，相較於之前的實現，該激活函數的值有很大的不同。一般來說，你需要放大風格損失（格拉姆矩陣）（gram matrix），因為大多數激活函數值小於1，而使用點積會使其更小。

在訓練期間中級結果的輸出

中級階段，第75200個訓練樣本

當調整內容權重與風格權重比時，將會帶來很大的幫助。你可以在訓練期間停止訓練，重新調整參數，而不必等待4個小時當完成訓練之後才開始調整。

按照本文所述添加總變差正則化

該論文在實驗部分提到了這一點——總變差正則化，但是似乎Abhishek沒有實現這一目標：

輸出圖像是通過一種強度範圍在1×10e^-6和1×10^e-4之間的總變差正則化進行正則化的，這是由對每一種風格目標進行交叉驗證選擇得來的。

維基百科：二維信號圖像的總變差正則化公式

其實這是很容易實現的：

Pytorch autograd將為你處理反向傳播（backward propagation）。在實際上，我還沒有找到該如何以一種較為恰當的方式來調整正則化的權重。到目前為止，我使用的權重似乎在輸出圖像上並沒有太大差異。

訓練結果

該模型使用的是Microsoft COCO數據集進行訓練的。圖像的大小重新調整為256 x 256，網路在大約2個時期內進行訓練，批量大小為4（與論文所述相同）。使用GTX1070進行訓練的時間約為4至4.5小時，與論文報告中所述的用時大致相當。基於我那稍顯粗略的實驗來說，其中大量的時間用來對輸入圖像進行規範化處理。如果我們使用原始的VGG模型（未經測試），訓練可能會進行得更快。在一些手動調整之後，內容權重vs風格比通常設置為1：10e^3?10e^5。