當前位置:
首頁 > 科技 > 蘋果發布首篇基於GAN的文章,可提升合成圖像的真實感

蘋果發布首篇基於GAN的文章,可提升合成圖像的真實感

GIF/1.7M

原文來源:machinelearning.apple.com

「機器人圈」編譯:BaymaxZ

今天,神經網路最成功的案例是監督訓練。然而,為了實現高精度,訓練集需要大量、多樣化和準確地標註,這是非常昂貴的。標註大量數據的替代方法是使用來自模擬器的合成圖像。這是廉價的,因為沒有標籤成本,但合成圖像可能不夠現實,導致實際測試圖像的泛化差。為了縮小這個性能差距,我們開發了一種改進合成圖像的方法,使其看起來更逼真。我們表明,這些精細圖像上的訓練模型可以顯著提高各種機器學習任務的準確性。

概論

標準合成圖像上的訓練機器學習模型是有問題的,因為圖像可能不夠現實,導致模型學習僅在合成圖像中呈現的細節,並且不能很好地概括真實圖像。彌補合成圖像和實際圖像之間的差距的一種方法是改進模擬器,這通常是昂貴且困難的,即使最佳渲染演算法仍然無法對真實圖像中存在的所有細節進行建模。這種真實感的缺乏可能會導致模型超越合成圖像中的「不切實際」的細節。而不是模擬器中的所有細節建模,我們可以從數據中學習嗎?為此,我們開發了一種改進合成圖像的方法,使其看起來更逼真(圖1)。

圖1.任務是學習一個模型,使用未標記的實際數據從模擬器改進合成圖像的真實性,同時保留標註信息。

「提高真實感」的目標是使圖像儘可能逼真以提高測試精度。這意味著我們要保留標註信息來訓練機器學習模型。例如,圖1中的注視方嚮應該被保留,並且不會產生任何偽影,因為機器學習模型可能會學會過度使用它們。我們學習一個深層神經網路,我們稱之為「訓練網路」,它處理合成圖像以改善真實感。

要學習這樣一個訓練網路,我們需要一些真實的圖像。選擇要求具有像素方向對應的實際和合成圖像對,或者具有標註的真實圖像,比如在眼睛的情況下的目光信息。這可以說是一個更容易的問題,但這樣的數據很難收集。要創建像素方向的對應關係,我們需要渲染與給定的真實圖像對應的合成圖像,或者捕獲與渲染的合成圖像相匹配的真實圖像。我們可以學習這個映射,而不是像素方面的對應關係,還是真實圖像的任何標籤?如果是這樣,我們可以生成一堆合成圖像,捕獲真實的眼睛圖像,並且根本沒有標記任何真實的圖像,學習這個映射,使該方法在實踐中便宜且易於應用。

為了以無監督方式學習我們的訓練網路,我們利用一個輔助鑒別網路,將真實和精細(或偽造)圖像分為兩類。訓練網路試圖欺騙這個鑒別網路,認為細化圖像是真實的。兩個網路交替運行,當鑒別器不能區分真實圖像與假的圖像時,訓練停止。使用對抗鑒別網路的想法類似於將隨機向量映射到圖像的GAN(生成對抗網路[1])方法,使得生成的圖像與真實的圖像無法區分。我們的目標是訓練一個精鍊器網路—一個生成器—將合成圖像映射到逼真的圖像。圖2顯示了該方法的概述。

圖2.我們的精鍊器神經網路R最大限度地減少了局部對抗性損失和「自正規化」項的組合。 對抗性損失「欺騙」鑒別網路,D,它將圖像分類為真實或精鍊。自正規化項將合成和精細圖像之間的圖像差異最小化。精鍊器網路和鑒別器網路交替更新。

我們如何保留標註?

除了生成逼真的圖像之外,精鍊器網路應該保留模擬器的標註信息。例如,對於目測估計,學習的變換不應該改變注視方向。該限制是啟用使用模擬器標註使用精細圖像的機器學習模型進行訓練的重要組成部分。為了保留合成圖像的標註,我們用自正規化L1損失補充對抗性損失,從而懲罰合成圖像和精細圖像之間的大變化。

我們如何防止人工因素?

進行本地更改

精鍊器網路的另一個關鍵要求是,它應該學習建模真實圖像特徵,而不引入任何人工因素。當我們訓練一個強鑒別器網路時,精鍊器網路往往會過度強調某些圖像特徵,以欺騙當前的鑒別網路,導致漂移和產生偽像。一個關鍵的觀察是,從精細圖像採樣的任何局部補丁應該具有與真實圖像補丁相似的統計。因此,我們可以定義一個區分所有局部圖像補丁的區分網路,而不是定義全局鑒別網路(圖3)。該劃分不僅限制了接收場,並且因此限制了鑒別器網路的容量,而且還為每個圖像提供了許多樣本來學習鑒別器網路。還通過對每個圖像具有多個「真實感損失」值來改進精鍊器網路。

圖3.局部對抗性損失的圖示。鑒別器網路輸出一個w×h的概率圖。對抗性損失函數是局部補丁之間的交叉熵損失之和。

使用生成器歷史來改進鑒別器

生成器可以使用來自新分布或目標(實際數據)分布的樣本,欺騙鑒別器。從一個全新的分布中生成,只有鑒別器才能識別出全新的分布。生成器可以欺騙鑒別器的更有用的方法是通過從目標分布生成。

鑒於這兩種演進方式,最簡單的方法通常是產生一種全新的輸出,這是我們在將當前生成器和鑒別器相互對準時觀察到的輸出。該非生產性順序的簡化圖示於圖4的左側。生成器和鑒別器分布分別以黃色和藍色顯示。

通過引入存儲來自前幾代(圖4的右側)的生成器樣本的歷史,鑒別器不太可能忘記已經學習的空間的一部分。更強大的鑒別器有助於生成器更快地向目標分布。該圖是一個簡化,忽略了分布是複雜的,經常斷開的區域。然而,在實踐中,簡單的隨機替換緩衝器從先前的生成器分布捕獲足夠的分集,以通過加強鑒別器來防止重複。我們的想法是,在整個訓練過程中的任何時間,由精鍊器網路生成的任何精細圖像真的是鑒別器的「假」圖像。我們發現,通過構建D的小批次,從歷史緩衝區中抽取一半樣本,另一半從當前生成器的輸出(如圖5所示),我們可以改進訓練。

圖4.使用圖像歷史以改善鑒別器的直覺的圖示。

圖5.具有D歷史的迷你批次的圖示。每個迷你批次都包含來自生成器當前迭代的圖像,以及來自先前假圖像的緩衝區。

訓練進展如何?

我們首先訓練精鍊器網路只有自正規化損失,並在精鍊器網路開始生成模糊的輸入合成圖像後引入對抗性損失。圖6顯示了在訓練的各個步驟中的精鍊器網路的輸出。一開始,它生成了一個模糊的圖像,隨著訓練的進行,它變得越來越真實。圖7將不同訓練迭代時的鑒別器和生成器損耗可視化。注意,鑒別器的損耗在開始時很低,這意味著它可以很容易地說明真實和精簡之間的差異。緩慢地,鑒別器損耗增加,並且生成器損耗隨訓練進度而減小,生成更多的真實圖像。

圖6.隨著訓練進度的精鍊器網路的輸出。從模糊的圖像開始,網路學習模擬真實圖像中存在的細節。

圖7.生成器和鑒別器的損耗隨著訓練的進行。

自正規L1損耗是否有限制?

當合成和真實圖像在分布中具有顯著的偏移時,像素方向的L1差異可能是限制性的。在這種情況下,我們可以用替代特徵變換替換身份映射,在自己的特徵空間放置一個自定義符。 這些可以是手動調整的功能,或者學習的功能,如VGGnet的中間層。例如,對於彩色圖像細化,RGB通道的平均值可以產生逼真的彩色圖像,如圖8所示。

圖8.特徵空間中的自正規化損失示例。

標籤是否由生成器改變?

為了驗證標籤沒有顯著變化,我們在合成和精細圖像上手動繪製橢圓,並計算其中心之間的差異。在圖9中,我們顯示了50個這樣的中心差異的散點圖。合成和相應精緻圖像的估計瞳孔中心之間的絕對差異非常小:1.1 +/- 0.8px(眼寬= 55px)。

圖9.合成圖像和實際圖像的瞳孔中心之間的距離的散點圖。

如何設置超參數?提示與技巧。

G的初始化

首先,我們用自正則化損失初始化G,以便它可以開始生成模擬版本的合成輸入。通常,G(沒有訓練D)需要500-2,000步。

首先,我們用自正則化損失初始化G,以便它可以開始生成模擬版本的合成輸入。通常情況下,G需要五百到兩千步(沒有訓練D)。

每個訓練迭代G和D的不同步驟

我們在每個訓練迭代中使用了不同數量的步進生成器和鑒別器。對於具有深度的手勢估計,我們對於每個D步驟使用G的兩個步驟,並且對於眼睛注視估計實驗,我們最終對於每個D步驟使用50個步驟G。我們發現鑒別器與生成器相比更快地收斂,部分是因為鑒別器中的批量規範。所以我們將#D步驟修改為1,並從小數字開始變化#G步驟,根據鑒別器丟失值緩慢增加。

我們在每個訓練迭代中使用了不同數量的步進生成器和鑒別器。對於具有深度的手勢估計,我們對於每個D步驟使用G的兩個步驟,並且對於眼睛注視估計實驗,我們最終對於每個D步驟使用五十個步驟G。我們發現鑒別器與生成器相比更快地收斂,部分是因為鑒別器中的批量規範。所以我們將#D步驟修改為1,並從小數字開始變化#G步驟,根據鑒別器丟失值緩慢增加。

學習率和停止標準

我們發現保持學習率非常小(?0.0001),訓練很長時間是有幫助的。這種方法可能是因為它使發電機或鑒別器不會發生突然的轉移,這會使另一個發生故障。我們發現難以通過可視化訓練損失來停止訓練。相反,我們保存訓練圖像作為訓練進度,並且當精細圖像看起來與真實圖像視覺相似時,停止訓練。

定性結果

為了評估精細圖像的視覺質量,我們設計了一個簡單的用戶研究,其中被攝體被要求將圖像分類為真實或精細的合成。受試者發現真正和精緻的圖像之間很難區別。在我們的總體分析中,10個受試者在1000次試驗中選擇了正確的標籤517次,這意味著它們不能可靠地區分真實圖像和精製合成圖像。相比之下,當對原始合成圖像與真實圖像進行測試時,我們顯示每個受試者10個實際和10個合成圖像,受試者在200次試驗中正確選擇了162次。在圖10中,我們展示了一些合成和對應的精細圖像。

圖10 使用上述的方法實際生成精細的眼睛圖像。

定量結果

圖11顯示了使用精細數據的改進,與使用原始合成數據的訓練相比。 從圖中可以看出兩點:(1)使用精細圖像進行訓練優於使用原始合成圖像的訓練,(2)使用更多的合成數據可進一步提高性能。在圖12中,我們將目光估計誤差與其他最先進的方法進行比較,並且表明改進真實感有助於模型推廣實際測試數據。

圖11 使用合成和精細圖像進行注視估計的訓練比較。對實際測試圖像進行評估。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器人圈 的精彩文章:

谷歌Keras之父「連發兩文」全面解析深度學習的局限性與未來
孿生網路實現小數據學習!看神經網路如何找出兩張圖片的相似點
ResNet有多大威力?最近又有了哪些變體?一文弄清
無人駕駛目標檢測會遭到對抗樣本干擾?也許你的擔心是多餘的!

TAG:機器人圈 |

您可能感興趣

黃仁勛悄然發布新運算顯卡 性能提升不止一個TITAN Xp
蘋果發布iOS 更新:修複印度文Bug 性能小幅提升
AMD銳龍APU圖形實測 超頻性能提升三成
NVIDIA:圖靈是架構變化最大的GPU之一,性能提升兩倍
這款聽寫應用太實用了,實時把語音轉成文字,提升你的工作效率
JPEG圖像「新一代」格式將登場!提升壓縮效率與影像品質
顯示器硬體技術更新慢,NVIDIA反成顯示效果提升的主要推動力!
DNF韓服發布改版,金團已死,自身提升才是正道
ARM發布新架構,性能全面提升,還可以支持8K視頻
ICASSP Oral 論文:阿里提出低計算量語音合成系統,速度提升4倍
MIX2S真機圖首曝:豎排雙攝?拍照性能大提升
DNF 一張圖看懂改版後 皮A到皮B實際提升率,其實我們都被策劃騙了!
蘋果首款eGPU正式亮相,性能提升了6倍!
iOS 正式版發布,系統流暢度提升
提升基礎代謝,塑造易瘦體質,基礎代謝想提高,首先你要這麼做
日本YA-MAN最新美容儀將在中國首發,「提升顏值」黑科技又來了!
HTC Vive發布空間音頻SDK,進一步提升沉浸式體驗
三星S9發表!和iPhone X 比一比,最明顯提升的是…
最適合「文明獵奇」的4大目的地,欠自己一次提升認知的機會
蘋果正式發布新一代操作系統iOS 12:更注重性能提升