使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

新聞 03-18

現有的最優方法在文本、人臉以及低光照圖像上的盲圖像去模糊效果並不佳，主要受限於圖像先驗的手工設計屬性。本文研究者將圖像先驗表示為二值分類器，訓練 CNN 來分類模糊和清晰圖像。實驗表明，該圖像先驗比目前最先進的人工設計先驗更具區分性，可實現更廣泛場景的盲圖像去模糊。

簡介

盲圖像去模糊（blind image deblurring）是圖像處理和計算機視覺領域中的一個經典問題，它的目標是將模糊輸入中隱藏的圖像進行恢復。當模糊形狀滿足空間不變性的時候，模糊過程可以用以下的方式進行建模：

使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

其中?代表的是卷積運算元，B、I、k 和 n 分別代表模糊圖像、隱藏的清晰圖像、模糊核以及雜訊。式（1）中的問題是不適定性，因為 I 和 k 都是未知的，存在無窮多個解。為了解決這個問題，關於模糊核和圖像的額外約束和先驗知識都是必需的。

使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

圖 1：一個去模糊的例子。本文提出了一個判別圖像先驗，它是從用於圖像去模糊的深度二分類網路中學習得到的。

最近的去模糊方法的成功主要來自於有效圖像先驗和邊緣檢測策略方面的研究進展。然而，基於邊緣預測的方法常常會涉及到啟發式的邊緣選擇步驟，當邊緣不可預測的時候，這種方法表現不佳。為了避免啟發式的邊緣選擇步驟，人們提出了很多基於自然圖像先驗的演算法，包括稀疏性歸一化（normalized sparsity）[16]、L0 梯度 [38] 和暗通道先驗（dark channel prior）[27]。這些演算法在一般的自然圖像上表現良好，但是並不適用於特殊的場景，例如文本 [26]、人臉 [25] 以及低光照圖像 [11]。大多數上述的圖像先驗都有相似的效果，它們更加適用於清晰的圖像，而不是模糊的圖像，這種屬性有助於基於 MAP（最大後驗）的盲圖像去模糊方法的成功。然而，大多數先驗都是手工設計的，它們主要是基於對特定圖像統計的有限觀察。這些演算法不能很好地泛化以處理自然環境中的多種場景。所以，開發能夠使用 MAP 框架來處理不同場景的圖像先驗是很有意義的。

為達到這個目的，研究者將圖像先驗表示為能夠區分清晰圖像和模糊圖像的二值分類器。具體來說，他們訓練深度卷積神經網路來分類模糊圖像 (標記為 1 ) 和清晰圖像 (標記為 0 )。由於基於 MAP（最大後驗）的去模糊方法通常使用 coarse-to-fine（由粗到精）策略，因此在 MAP 框架中插入具有全連接層的 CNN 無法處理不同大小的輸入圖像。為了解決這個問題，他們在 CNN 中採用了全局平均池化層 [ 21 ]，以允許學習的分類器處理不同大小的輸入。此外，為了使分類器對不同輸入圖像尺寸具有更強的魯棒性，他們還採用多尺度訓練策略。然後將學習到的 CNN 分類器作為 MAP（最大後驗）框架中潛在圖像對應的正則項。如圖 1 所示，本文提出的圖像先驗比目前最先進的人工設計的先驗 [ 27 ] 更具區分性。

然而，使用學習到的圖像先驗去優化這個去模糊方法是很困難的，因為這裡涉及到了一個非線性 CNN。因此，本文提出了一種基於半二次方分裂法（half-quadratic splitting method）和梯度下降演算法的高效數值演算法。這個演算法在實際使用中可以快速地收斂，並且可以應用在不同的場景中。此外，它還可以直接應用在非均勻去模糊任務中。

本文的主要貢獻如下：

提出了一種高效判別圖像先驗，它可以通過深度卷積神經網路學習到，用於盲圖像去模糊。為了保證這個先驗（也就是分類器）能夠處理具有不同大小的輸入圖像，研究者利用全局平均池化和多尺度訓練策略來訓練這個卷積神經網路。
將學習到的分類器作為 MAP（最大後驗）框架中潛在圖像對應的正則化項，並且提出了一種能夠求解去模糊模型的高效優化演算法。
研究者證明，與當前最佳演算法相比，這個演算法在廣泛使用的自然圖像去模糊基準測試和特定領域的去模糊任務中都具備有競爭力的性能。
研究者展示了這個方法可以直接泛化到非均勻去模糊任務中。

二分類網路

我們的目標是通過卷積神經網路來訓練一個二分類器。這個網路以圖像作為輸入，並輸出一個標量數值，這個數值代表的是輸入圖像是模糊圖像的概率。因為我們的目標是將這個網路作為一種先驗嵌入到由粗到精的 MAP（最大後驗）框架中，所以這個網路應該具備處理不同大小輸入圖像的能力。所以，我們將分類其中常用的全連接層用全局平均池化層代替 [21]。全局平均池化層在 sigmoid 層之前將不同大小的特徵圖轉換成一個固定的大小。此外，全局平均池化層中沒有額外的參數，這樣就消除了過擬合問題。圖 2 展示了整個網路架構和二分類網路的細節參數。

使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

圖 2. 本文中使用的二分類網路的架構和參數，其中使用了全局平均池化層取代全連接層來應對不同大小的輸入。CR 代表的是後面跟著一個 ReLU 非線性函數的卷積層，M 代表的是最大池化層，C 代表的是卷積層，G 指的是全局平均池化層，S 代表的是 Sigmoid 非線性函數。

使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

圖 4. 數據集 [15] 中的一個很具挑戰性的例子。本文提出的方法以更少的邊緣振蕩效應和更好的視覺愉悅度恢復了模糊圖像。

使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

圖 5. 在實際的模糊圖像中的去模糊結果。本文的結果更加清晰，失真較少。

使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

圖 6. 文本圖像上的去模糊結果。與目前最先進的去模糊演算法 [26] 相比，本文的方法生成了更加尖銳的去模糊圖像，其中的字元更加清晰。

使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

圖 12. 去模糊結果和中間結果。作者在圖 (a)-(d) 中與目前最先進的方法 [40, 27] 比較了去模糊結果，並在 (e)-(h) 中展示了迭代中的（從左至右）中間隱藏圖像。本文的判別先驗恢復了用於核估計的具有更強邊緣的中間結果。

論文：Learning a Discriminative Prior for Blind Image Deblurring（學慣用於盲圖像去模糊的判別先驗）

使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

論文鏈接：https://arxiv.org/abs/1803.03363

我們提出了一種基於數據驅動的判別先驗的盲圖像去模糊方法。我們的工作是基於這樣一個事實:一個好的圖像先驗應該有利於清晰的圖像而不是模糊的圖像。在本文中，我們將圖像先驗表示為一個二值分類器，它可以通過一個深度卷積神經網路 ( CNN ) 來實現。學習到的先驗能夠區分輸入圖像是否清晰。嵌入到最大後驗 ( MAP ) 框架中之後，它有助於在各種場景 (包括自然圖像、人臉圖像、文本圖像和低照明圖像) 中進行盲去模糊。然而，由於去模糊方法涉及非線性 CNN，因此很難優化具有學習已圖像先驗的去模糊方法。為此，本文提出了一種基於半二次分裂法和梯度下降法的數值求解方法。此外，該模型易於推廣到非均勻去模糊任務中。定性和定量的實驗結果表明，與當前最優的圖像去模糊演算法以及特定領域的圖像去模糊方法相比，該方法具備有競爭力的性能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※數據科學家必須了解的六大聚類演算法：帶你發現數據之美
※超有趣！手把手教你使用樹莓派實現實時人臉檢測

TAG:機器之心 |