受壓縮感知啟發，斯坦福 AI 研究院提出新的無監督表示學習框架

新聞 06-19

雷鋒網 AI 科技評論按：如今，說到圖像領域的生成式模型，大家往往會想到對抗生成網路（GAN）和自編碼器（AE）。本文介紹了斯坦福 AI 研究院的研究人員如何從統計壓縮感知技術中汲取靈感設計出的非確定性自編碼器（該編碼器在自編碼器的潛在空間中對不確定性進行建模），並巧妙地使用變分技術為其設計目標函數，相較於傳統方法，該模型的性能有巨大的提升。斯坦福 AI 研究院將這一成果進行了介紹，雷鋒網 AI 科技評論編譯如下。

壓縮感知技術能夠通過低維投影有效地採集和恢復稀疏的高維數據信號。我們在 AISTATS 2019發表的一篇論文（https://arxiv.org/pdf/1812.10539）中提出了非確定性自編碼器（UAE），把低維投影作為自編碼器的帶雜訊的潛在表示，並通過一個可跟蹤的變分信息最大化目標直接對信號採樣（即編碼）和逐步恢復（即解碼）的過程進行學習。實驗表明，我們在高維數據的統計壓縮感知任務中相較於其他方法的性能平均提高了 32% 。

無監督表示學習的廣泛目標是學習對輸入的數據進行變換，從而簡便地捕獲到數據分布統計的根本特性。在之前的工作中，研究人員已經從潛變數生成建模、降維和其他角度出發，提出了大量的學習目標和演算法。在本文中，我們將介紹一個受壓縮感知啟發而設計出的新的無監督表示學習框架。首先，我們將從統計壓縮感知談起。

統計壓縮感知

能夠高效地採集和精確地恢復高維數據的系統構成了壓縮感知的基礎。這些系統得到了廣泛的應用。例如，壓縮感知技術已經被成功地用於了包括「設計節能的單像素攝像頭」和「加快核磁共振醫學成像掃描時間」在內的廣泛的應用領域。

受壓縮感知啟發，斯坦福 AI 研究院提出新的無監督表示學習框架

壓縮感知的工作流程由兩部分組成：

採集（acquisition）：一個從高維信號

到測量數據

的映射

其中 ? 代表測量過程中任意的外部雜訊。當 m 遠小於 n 時，我們稱採集過程是高效的。

恢復（recovery）：一個從測量數據 y 到恢復的數據信號

的映射

。當歸一化損失（例如

）很小時，恢復的過程是精確的。

在標準的壓縮感知過程中，採集映射 f 在 x 中是典型的線性變換（即對於某個矩陣

， f(x)=Wx）。在這樣的情況下，由於我們擁有的變數數（n）比常量數（m）多，所以該系統是未確定的。為保證得到唯一的、有意義的恢復結果，我們假設信號在一個合適的基上（例如，用於音頻數據的傅里葉基、用於圖像數據的小波基）是稀疏的。然後，通過某些類型的隨機矩陣進行信號採集，並通過求解 LASSO 優化方法進行信號恢復，這樣便只需使用少量測量數據（大概是數據維度的對數）就能保證以很高的概率得到唯一的恢復結果。

在這項工作中，我們考慮統計壓縮感知的情況，其中我們可以訪問一個訓練數據信號 x 的數據集 D。我們假設對於某些未知的數據分布 q_data，有

。

在訓練時：

1. 自然環境向智能體提供一個有限的高維信號數據集 D。

2. 智能體通過優化一個恰當的目標來學習信號採集和恢復的映射 f 和 g。

在測試時：

1.對於一個或多個測試信號

而言，自然環境向智能體提供壓縮後的測量數據

。

2.智能體恢復出信號

，並引入一個L2 範數損失

。

為了實現這個過程，智能體的任務是選取信號採集和恢復的映射 f 和 g，從而最小化測試損失。

非確定性自編碼器

實際上，在僅僅根據測量數據 y 恢復出信號 x 時，即使智能體可以選出一個信號採集映射 f，仍有兩個不確定性的來源。其一是由於隨機的測量雜訊 ? 引起的。其次，信號採集映射 f 通常被參數化為一個精度有限的受限映射族

（例如，在標準壓縮感知中的線性映射或更一般化的神經網路）。假設測量數據 y 的維度比信號 x 的維度要小，即使沒有雜訊，這樣的限制也會阻礙我們學到一個雙射映射。

在 f 為線性映射的說明樣例中，我們確信不可能實現完全精確的恢復。那麼還有什麼高效的方式來採集數據呢？在下圖中，我們考慮了一個真實數據分布是由兩個沿正交方向延伸的二維高斯分布的混合分布的簡單情況。我們從這個混合分布中採樣出了 100 個點（黑色的點），並考慮了兩種將這些數據點的維數降低到一維的方法。

受壓縮感知啟發，斯坦福 AI 研究院提出新的無監督表示學習框架

第一種方法是使用主成分分析（PCA）將數據沿著最能導致數據中的變化的方向進行投影。對於上述的二維混合高斯分布的情況，這種方法是通過洋紅色線上的藍點表示的。這條洋紅色的線捕獲了數據中大部分的變化，但是它將從右下角的高斯分布中採樣得到的數據壓縮到了一個狹窄的區域中。當多個數據點在低維空間被壓縮成重疊的、密集的聚類區域時，在恢復（recovery）過程中就很難消除低維投影與原始數據點之間的關聯。

或者，我們可以考慮在綠色的坐標軸上投影（紅色的點）。這些投影結果更加分散，這表明恢復過程更加容易（即使與 PCA 相比，這樣做會增加投影空間的總方差）。接下來，我們提出了「UAE」框架，它能夠精確地學習上面提到的低維投影，使恢復更加準確。

從概率意義上說，信號 x 和測量數據 y 的聯合分布可以表示為

。例如，如果我們將雜訊建模為中心各向同性高斯分布，那麼似然概率

就可以被表示為

。為了學習在存在不確定性的情況下最有利於恢復的參數

，我們考慮下面的目標函數：

上面的目標函數最大化了從測量數據 y 中恢復出信號 x 的對數後驗概率，這與上面提到的智能體在測試時的目標是一致的。

變分信息最大化

或者，你可以將上述過程解釋為最大化信號 x 和測量數據 y 之間的互信息。為了查看二者之間的聯繫，請注意數據熵 H（x）是一個常量，它不會影響優化過程。因此，我們可以將目標函數改寫為：

遺憾的是，在當前的情況下，估計（和優化）互信息是十分困難和棘手的。為了克服這個困難，同時也能快速地進行恢復，我們建議使用一個互信息變分下界的平攤變體。

特別地，我們考慮一個真實後驗概率

的參數化的變分近似

。在這裡，

表示變分參數。將這個近似帶入變分分布會給出如下所示的原始目標函數的變分下界：

上面的表達式定義了非確定性自編碼器的學習目標，其中數據採集過程可以被看作對數據信號進行編碼，而恢復過程則相當於根據測量數據解碼出數據信號。

案例分析

實際上，「UAE」目標函數的期望值是通過蒙特卡洛方法來估計的：數據信號 x 是從訓練數據集 D 中採樣得到的，測量數據 y 是從一個允許重參數化的假設的雜訊模型（各向同性的高斯分布）中採樣得到的。根據對恢復過程的準確度的度量，我們可以在平攤變分分布

（例如，方差固定為 l2，拉普拉斯運算元固定為 l1 的高斯分布）上做出分布假設，並通過恢復映射

將測量數據 y 映射到

的充分統計量上。

舉例來說，不妨考慮一個帶有已知的標量方差

的各向同性的高斯雜訊模型

。如果我們令變分分布

也為一個帶有固定的標量方差的各向同性高斯分布，我們將通過非確定性自編碼器（UAE）得到如下所示的最大化目標函數：

其中 c 為獨立於 φ 和 θ 的正歸一化常數。

非確定性自編碼器 VS 常用的自編碼器

除了對統計壓縮感知的提升，非確定性自編碼器（UAE）為無監督表示學習提供了一種替代框架，其中壓縮的測量值可以被解釋為潛在的表示。下面，我們將討論 UAE 與常用的自編碼器在計算方法上有何異同。

標準的自編碼器（AE）：當潛在空間中沒有任何的雜訊時，UAE 的學習目標函數就會退化為 AE 的目標函數。
去躁自編碼器（DAE）：DAE 在觀測空間中添加雜訊（例如，向數據信號添加雜訊），然而 UAE 則是在潛在空間中對不確定性建模。
變分自編碼器（VAE）：變分自編碼器將潛在空間正則化，使其遵循一個先驗分布。而在 UAE 中則沒有顯式的先驗，因此在潛在空間上沒有 KL 散度正則項（而原始論文中沒有對此進行討論，UAE 的目標函數可以看做 β=0 時的 β-VAE 的特例）。這樣就避免了使用 VAE 使存在的問題：使用強大的解碼器會忽略潛在的表示。

那麼 UAE 是否能像 DAE 和 VAE 那樣，可以進行樣本外的泛化呢？答案是肯定的！在恰當的假設下，我們說明了 UAE 學到了一個隱式的數據信號分布的生成模型，它可以被用來定義一個馬爾科夫鏈蒙特卡洛（MCMC）採樣。更多細節請參閱論文「Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization」（https://arxiv.org/pdf/1812.10539.pdf）中的定理 1 和推論 1。

受壓縮感知啟發，斯坦福 AI 研究院提出新的無監督表示學習框架

基於 UAE 的用於 q_data 的馬爾科夫鏈採樣器示意圖。

實驗結果概述

我們展示出了一些在下面的圖像數據集上進行統計壓縮感知的實驗結果。在這些實驗中，測量數據的個數 m 會變化，並且使用了隨機高斯雜訊。我們與兩種基線進行了對比：

適當的稀疏性誘導基礎上的 LASSO
CS-VAE/DCGAN，這是一種最近提出來的壓縮感知方法，它通過搜索預訓練的生成模型（如 VAE 和 GAN）的潛在空間來尋找潛在向量，從而使恢復損失最小。

MNIST

受壓縮感知啟發，斯坦福 AI 研究院提出新的無監督表示學習框架

測量數據個數 m 變化時的測試的 l2 重建誤差（每張圖像）

受壓縮感知啟發，斯坦福 AI 研究院提出新的無監督表示學習框架

測量值的個數為 m=25 時的重建結果。

CelebA

受壓縮感知啟發，斯坦福 AI 研究院提出新的無監督表示學習框架

測量數據個數 m 變化時的測試的 l2 重建誤差（每張圖像）

受壓縮感知啟發，斯坦福 AI 研究院提出新的無監督表示學習框架

測量值的個數為 m=50 時的重建結果。

平均而言，我們觀察到，對於所有的數據集和測量值來說，我們取得了 32% 的提升。關於在更多的數據集上的實驗結果，以及將 UAE 應用到遷移學習和監督學習中的任務，請參閱我們的論文：

「Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization」Aditya Grover, Stefano Ermon. AISTATS, 2019。
論文下載地址：https://arxiv.org/pdf/1812.10539
代碼：https://github.com/aditya-grover/uae

via http://ai.stanford.edu/blog/uncertainty-autoencoders/雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※解讀 | 蘋果推出 iPadOS 的真正用意是什麼？
※Temi機器人亮相亞洲電子消費展，它可能是你最想要的個人機器人

TAG:雷鋒網 |