極端圖像壓縮的生成對抗網路,可生成低碼率的高質量圖像
本文提出了一個基於生成對抗網路的極端學習圖像壓縮框架,能生成碼率更低但視覺效果更好的圖像。此外,該框架可以根據原始圖像的語義標籤映射,在解碼圖像中完全合成非主要的區域。用戶調查研究證實,對於低碼率,本文提出的方法明顯優於最先進的方法 BPG。
圖 1:以對抗損失訓練得到的全局生成壓縮網路產生的圖像,以及相應的 BPG 結果對比 [1]。
引言
基於深度神經網路(DNN)的圖像壓縮系統,簡稱深度壓縮系統,近來已成為熱門研究領域。
圖
2:本文提出的壓縮網路的結構。E 是圖像 x 和可選的語義標籤映射 s 的編碼器。q 將潛在代碼 w 量化為 w hat。G
是生成器,產生解壓縮的圖像 x hat,D 是用於對抗訓練的判別器。對於選擇生成壓縮(SC),F 從 s 中提取特徵,並且二次採樣的熱圖乘以 z
hat(逐點)以進行空間位分配。
這些系統在感知度量 [4-8] 上通常優於當前最佳的工程編解碼器,例如 BPG
[1]、WebP [2] 和 JPEG2000
[3]。除了在自然圖像上可達到更高的壓縮率,它們也很容易適用於特定的目標領域,如立體圖像或醫學圖像,以從壓縮表徵 [9]
中直接實現高效處理和索引。但是,對於每像素低於 0.1
位(bpp)的碼率,這些演算法仍然會導致質量嚴重下降。一般來說,當碼率趨向於零時,保留全部圖像內容變得愈發困難,並且諸如峰值信噪比(PSNR)或多尺度結構相似性(MS-SSIM)[10]
等常用的失真度量也會失去意義,因為這些度量更關心局部(高熵)結構即紋理的保持。為了進一步改善深度圖像壓縮,有必要開發超越 PSNR 和
MS-SSIM 的訓練目標。對抗性損失 [11]
有望實現這一目標。最近這一方法被證明可以捕獲全局語義信息和局部紋理,訓練出強大的生成器,從語義標籤映射產生有視覺吸引力的高解析度圖像
[12,13]。
在本文中,研究者提出並研究了基於生成對抗網路(GAN)的極端圖像壓縮框架,其中圖像的碼率低於 0.1
bpp。他們提出了一個基本的 GAN
公式,用於深度圖像壓縮,從而生成不同程度的內容。與先前的深度圖像壓縮技術相比,該技術將對抗損失應用於圖像補丁的偽像抑制 [6,14]
和紋理細節生成 [15] 或縮略圖表徵學習 [16],該框架的生成器/解碼器由多尺度判別器訓練,適用於全解析度圖像 [13]。
我們研究兩種操作模式(對應於無條件和有條件的生成對抗網路 [11,17]),即
全局性生成壓縮(GC),保留整體圖像內容,同時生成不同尺度的結構,例如建築立面上的樹葉或窗戶的樹葉;
選擇性生成壓縮(SC),保留語義標籤映射中完全生成圖像的某些部分,同時高度保留用戶定義區域的細節。
GC
的典型用例是在帶寬受限的場景,其中我們需要儘可能地保留完整圖像,卻沒有足夠的空間存儲原始像素,而 GC
在這裡可以合成內容而不是塊狀/模糊斑點。SC
可以應用於視頻通話場景,人們希望完全保留視頻流中的人像,但視覺上令人愉悅的合成背景也能和真實背景達到同樣的效果。在 GC
操作模式下,圖像被轉換成比特流並使用算術編碼進行編碼。SC 可以使用現成的語義/實例分割網路(例如 PSPNet [18] 和 Mask
R-CNN
[19])獲得原始圖像的語義/實例標籤映射,並將其存儲為向量圖形。就編碼成本而言,該框架實現了更小的獨立於圖像維度的計算代價;另一方面,壓縮圖像的大小和從語義標籤映射生成的區域成比例地減小,在多數情況下也能明顯降低存儲成本。
一項關於
GC 的用戶綜合研究表明,本文提出的壓縮系統在視覺上產生了比 BPG
[1](當前最先進的工程壓縮演算法)和最近提出的基於自編碼器的深度壓縮(AEDC)系統更好的結果 [8]。特別是對於 Cityscapes
數據集中的街景場景圖像,即使 BPG 使用的位數超過兩倍,用戶也更喜歡本文提出系統生成的圖像。據作者所知,在用戶調查中,這是首次深度壓縮方法勝過
BPG 圖像的案例。在 SC
操作模式下,該系統可以將保存的圖像內容與合成的內容無縫結合,即使在跨越多個目標邊界的區域也是如此。通過部分生成圖像內容,該系統可以實現超過
50%的碼率縮減,而圖像質量不會明顯降低。在這兩種情況下,通過原始圖像和重建圖像的語義標籤映射之間的平均交並比(mIoU)度量的語義信息與兩個基線
[1,8] 相比,保存得更完好。
圖 3:由 C = 8 的 GC 網路產生的圖像,以及 BPG 和 AEDC 的相應結果。
圖 4:由 GC 網路(左:C = 4;右:C = 8)產生的圖像示例以及 BPG 的相應結果。
圖
6:原始柯達圖像 13 以及用戶調查中使用的解壓縮版本(本文提出的),使用 C = 4 的 GC 網路生成。此外還提供了圖像的解壓縮
BPG、JPEG、JPEG2000 和 WebP 版本。如果編解碼器無法輸出低至 0.036bpp 的圖像,則選擇該編解碼器的最低解析度。
論文:Generative Adversarial Networks for Extreme Learned Image Compression(用於極端學習圖像壓縮的生成對抗網路)
論文地址:https://arxiv.org/abs/1804.02958
摘要:我們提出了一個基於生成對抗網路(GANs)的極端學習圖像壓縮框架,與以前的壓縮方式相比,其生成的圖像碼率更低但視覺效果更令人滿意。藉助學習壓縮的
GAN
公式和一個在全解析度圖像上運行的生成器/解碼器,並與多尺度判別器一起訓練,就可以達到這種效果。此外,我們的方法可以根據從原始圖像中提取的語義標籤映射,在解碼圖像中完全合成非主要的區域(例如街道和樹),因此僅需要存儲保留區域和語義標籤映射。用戶調查研究證實,對於低碼率,我們的方法明顯優於最先進的方法,與次佳方案
BPG 相比,碼率節約高達 67%。
※用人工智慧提升營銷效率,阿里媽媽啟動國際廣告演算法大賽
※CVPR 2018 | 殘差密集網路:利用所有分層特徵的圖像超解析度網路
TAG:機器之心 |