極端圖像壓縮的生成對抗網路，可生成低碼率的高質量圖像

新聞 04-18

本文提出了一個基於生成對抗網路的極端學習圖像壓縮框架，能生成碼率更低但視覺效果更好的圖像。此外，該框架可以根據原始圖像的語義標籤映射，在解碼圖像中完全合成非主要的區域。用戶調查研究證實，對於低碼率，本文提出的方法明顯優於最先進的方法 BPG。

圖 1：以對抗損失訓練得到的全局生成壓縮網路產生的圖像，以及相應的 BPG 結果對比 [1]。

引言

基於深度神經網路（DNN）的圖像壓縮系統，簡稱深度壓縮系統，近來已成為熱門研究領域。

極端圖像壓縮的生成對抗網路，可生成低碼率的高質量圖像

圖
2：本文提出的壓縮網路的結構。E 是圖像 x 和可選的語義標籤映射 s 的編碼器。q 將潛在代碼 w 量化為 w hat。G
是生成器，產生解壓縮的圖像 x hat，D 是用於對抗訓練的判別器。對於選擇生成壓縮（SC），F 從 s 中提取特徵，並且二次採樣的熱圖乘以 z
hat（逐點）以進行空間位分配。

這些系統在感知度量 [4-8] 上通常優於當前最佳的工程編解碼器，例如 BPG
[1]、WebP [2] 和 JPEG2000
[3]。除了在自然圖像上可達到更高的壓縮率，它們也很容易適用於特定的目標領域，如立體圖像或醫學圖像，以從壓縮表徵 [9]
中直接實現高效處理和索引。但是，對於每像素低於 0.1
位（bpp）的碼率，這些演算法仍然會導致質量嚴重下降。一般來說，當碼率趨向於零時，保留全部圖像內容變得愈發困難，並且諸如峰值信噪比（PSNR）或多尺度結構相似性（MS-SSIM）[10]
等常用的失真度量也會失去意義，因為這些度量更關心局部（高熵）結構即紋理的保持。為了進一步改善深度圖像壓縮，有必要開發超越 PSNR 和
MS-SSIM 的訓練目標。對抗性損失 [11]
有望實現這一目標。最近這一方法被證明可以捕獲全局語義信息和局部紋理，訓練出強大的生成器，從語義標籤映射產生有視覺吸引力的高解析度圖像
[12,13]。

在本文中，研究者提出並研究了基於生成對抗網路（GAN）的極端圖像壓縮框架，其中圖像的碼率低於 0.1
bpp。他們提出了一個基本的 GAN
公式，用於深度圖像壓縮，從而生成不同程度的內容。與先前的深度圖像壓縮技術相比，該技術將對抗損失應用於圖像補丁的偽像抑制 [6,14]
和紋理細節生成 [15] 或縮略圖表徵學習 [16]，該框架的生成器/解碼器由多尺度判別器訓練，適用於全解析度圖像 [13]。

我們研究兩種操作模式（對應於無條件和有條件的生成對抗網路 [11,17]），即

全局性生成壓縮（GC），保留整體圖像內容，同時生成不同尺度的結構，例如建築立面上的樹葉或窗戶的樹葉；
選擇性生成壓縮（SC），保留語義標籤映射中完全生成圖像的某些部分，同時高度保留用戶定義區域的細節。

GC
的典型用例是在帶寬受限的場景，其中我們需要儘可能地保留完整圖像，卻沒有足夠的空間存儲原始像素，而 GC
在這裡可以合成內容而不是塊狀/模糊斑點。SC
可以應用於視頻通話場景，人們希望完全保留視頻流中的人像，但視覺上令人愉悅的合成背景也能和真實背景達到同樣的效果。在 GC
操作模式下，圖像被轉換成比特流並使用算術編碼進行編碼。SC 可以使用現成的語義/實例分割網路（例如 PSPNet [18] 和 Mask
R-CNN
[19]）獲得原始圖像的語義/實例標籤映射，並將其存儲為向量圖形。就編碼成本而言，該框架實現了更小的獨立於圖像維度的計算代價；另一方面，壓縮圖像的大小和從語義標籤映射生成的區域成比例地減小，在多數情況下也能明顯降低存儲成本。

一項關於
GC 的用戶綜合研究表明，本文提出的壓縮系統在視覺上產生了比 BPG
[1]（當前最先進的工程壓縮演算法）和最近提出的基於自編碼器的深度壓縮（AEDC）系統更好的結果 [8]。特別是對於 Cityscapes
數據集中的街景場景圖像，即使 BPG 使用的位數超過兩倍，用戶也更喜歡本文提出系統生成的圖像。據作者所知，在用戶調查中，這是首次深度壓縮方法勝過
BPG 圖像的案例。在 SC
操作模式下，該系統可以將保存的圖像內容與合成的內容無縫結合，即使在跨越多個目標邊界的區域也是如此。通過部分生成圖像內容，該系統可以實現超過
50％的碼率縮減，而圖像質量不會明顯降低。在這兩種情況下，通過原始圖像和重建圖像的語義標籤映射之間的平均交並比（mIoU）度量的語義信息與兩個基線
[1,8] 相比，保存得更完好。

極端圖像壓縮的生成對抗網路，可生成低碼率的高質量圖像

圖 3：由 C = 8 的 GC 網路產生的圖像，以及 BPG 和 AEDC 的相應結果。

極端圖像壓縮的生成對抗網路，可生成低碼率的高質量圖像

圖 4：由 GC 網路（左：C = 4;右：C = 8）產生的圖像示例以及 BPG 的相應結果。

極端圖像壓縮的生成對抗網路，可生成低碼率的高質量圖像

圖
6：原始柯達圖像 13 以及用戶調查中使用的解壓縮版本（本文提出的），使用 C = 4 的 GC 網路生成。此外還提供了圖像的解壓縮
BPG、JPEG、JPEG2000 和 WebP 版本。如果編解碼器無法輸出低至 0.036bpp 的圖像，則選擇該編解碼器的最低解析度。

論文：Generative Adversarial Networks for Extreme Learned Image Compression（用於極端學習圖像壓縮的生成對抗網路）

極端圖像壓縮的生成對抗網路，可生成低碼率的高質量圖像

論文地址：https://arxiv.org/abs/1804.02958

摘要：我們提出了一個基於生成對抗網路（GANs）的極端學習圖像壓縮框架，與以前的壓縮方式相比，其生成的圖像碼率更低但視覺效果更令人滿意。藉助學習壓縮的
GAN
公式和一個在全解析度圖像上運行的生成器/解碼器，並與多尺度判別器一起訓練，就可以達到這種效果。此外，我們的方法可以根據從原始圖像中提取的語義標籤映射，在解碼圖像中完全合成非主要的區域（例如街道和樹），因此僅需要存儲保留區域和語義標籤映射。用戶調查研究證實，對於低碼率，我們的方法明顯優於最先進的方法，與次佳方案
BPG 相比，碼率節約高達 67％。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※用人工智慧提升營銷效率，阿里媽媽啟動國際廣告演算法大賽
※CVPR 2018 | 殘差密集網路：利用所有分層特徵的圖像超解析度網路

TAG:機器之心 |