增強版ResNet,NTIRE2017超解析度挑戰賽冠軍方案
NTIRE 2017 是聯合 CVPR 2017 舉辦的一個競賽,這篇論文是冠軍得主,提出一個增強的深度殘差網路模型,單一模型搞定多項超解析度任務
新智元編譯
來源:arxiv.org
作者:Lim, et al.
編譯:劉小芹
【新智元導讀】韓國首爾大學的研究團隊提出用於圖像超解析度任務的新方法,分別是增強深度超解析度網路 EDSR 和一種新的多尺度深度超解析度 MDSR,在減小模型大小的同時實現了比當前其他方法更好的性能,分別贏得NTIRE2017超解析度挑戰賽的第一名和第二名。
GIF/38K
摘要
隨著深度卷積神經網路(DCNN)的發展,最近在圖像超解析度方面的研究也取得了進展。尤其,殘差學習技術表現出很好的性能。本研究中,我們提出一種增強的深度超解析度網路(enhanced deep super-resolution,簡稱 EDSR),其性能超過當前最先進的超解析度(SR)方法。我們的模型通過刪除常規殘差網路中不必要的模塊進行優化,實現了顯著的性能提高。在穩定訓練過程的同時,我們通過擴大模型的規模,進一步提高了模型性能。我們還提出一種新的多尺度深度超解析度系統(multi-scale deep super-resolution,簡稱MDSR)和訓練方法,可以將單個模型中不同的放大因子(upscaling factors)重建為高解析度圖像。我們提出的方法在基準數據集上比當前最先進的方法性能更好,並贏得了NTIRE2017超解析度挑戰賽。
引言
圖像超解析度(SR)問題,特別是單圖像超解析度(single image super-resolution,SISR)問題,最近十年來受到越來越多的研究關注。SISR的目的是從單個低解析度圖像I(LR)重建高解析度圖像I(SR)。通常,I(LR)與原始的高解析度圖像I(HR)之間的關係根據不同的情況是不同的。許多研究假設I(LR)是I(HR)的雙三次降採樣版本,但是其他降質因素,例如模糊,抽取或雜訊在實際應用中也可以考慮。
最近,深度神經網路為SR問題中的峰值信噪比(PSNR)提供了顯著的性能改進。但是,這樣的網路在架構最優性方面有所限制。首先,神經網路模型的重建性能對架構的微小變化很敏感。同樣的模型在不同的初始化和訓練技術之下實現的性能水平不同。因此,精心設計的模型架構和複雜的優化方法對於訓練神經網路至關重要。
其次,大多數現有的SR演算法將不同縮放因子的超解析度問題作為獨立的問題,沒有考慮並利用SR中不同縮放之間的相互關係。 因此,這些演算法需要許多scale-specific的網路,需要各自進行訓練來處理各種scale。例外的是,VDSR [11]可以在單個網路中同時處理多個scale的超解析度。使用多個尺度訓練VDSR模型可以大幅提升性能,超過scale-specific的訓練,這意味著scale-specific的模型中存在冗餘。儘管如此,VDSR型的架構需要雙三次插值圖像作為輸入,這與scale-specific的上採樣方法的架構相比,需要更多計算時間和存儲空間。
SRResNet [14]成功地解決了計算時間和內存的問題,並且有很好的性能,但它只是採用了He et al. [9] 的ResNet架構,沒有提出太多修改。但是,原始的ResNet目的是解決更高層次的計算機視覺問題,例如圖像分類和檢測。因此,將ResNet架構直接應用於超解析度這類低級視覺問題可能不是最佳的。
為了解決這些問題,基於SRResNet架構,我們首先通過分析和刪除不必要的模塊進行優化,以簡化這一架構。當模型非常複雜時,就不容易訓練。因此,我們以適當的損失函數訓練網路,並進行仔細的模型修改。我們的實驗表明,修改的方案能產生更好的結果。
其次,我們調查了從其他尺度訓練的模型遷移知識的模型訓練方法。在訓練期間利用與尺度無關(scale-independent)的信息,從預訓練的low-scale模型中訓練high-scale模型。此外,我們提出一個新的多尺度架構,它們分享不同尺度的大部分參數。與多個單尺度模型相比,這個多尺度模型使用的參數少得多,但性能相當。
我們在標準基準數據集和新的DIV2K數據集上評估我們的模型。評估顯示,我們提出的單尺度和多尺度超解析度網路在所有數據集上,PSNR和SSIM均顯示出最優性能。我們的方法分別在NTIRE 2017超解析度挑戰賽中分別獲得第一名和第二名。
單尺度SR方法(EDSR)與其他方法的比較,放大4倍。
方法
我們先分析了最近發表的超解析度網路,並提出殘差網路架構的一個增強版本,它具有更簡單的結構,並且在計算效率上優於原始網路。接著我們提出一個處理特定超解析度尺度的單尺度架構EDSR,以及一個在單模型中重建各種尺度高解析度圖像的多尺度架構MDSR。
原始 ResNet,SRResNet,以及我們提出的增強辦殘差網路中 residual blocks 的對比。
單尺度SR網路(EDSR)的架構
為×4模型(EDSR)使用預訓練的×2網路的效果。紅線表示綠線(從頭開始訓練)的最佳表現。訓練期間使用10張圖像進行驗證。
多尺度SR網路(MDSR)的架構
實驗
數據集
DIV2K數據集[26]是一種新發布的用於圖像復原任務的高質量(2K解析度)圖像數據集。DIV2K數據集包含800張訓練圖像,100張驗證圖像和100張測試圖像。由於測試數據集資料尚未發布,因此我們在驗證數據集上比較了模型性能。我們還在另外4個標準基準數據集上比較了性能:Set5 [2],Set14 [33],B100 [17]和Urban100 [10]。
評估模型
我們在DIV2K數據集上測試我們提出的網路。從SRResNet開始,我們逐步改變各個設置。SRResNet [14]是我們自己訓練的。首先,我們將損失函數從L2改為L1,然後根據前面部分的描述對網路架構進行修改,如表1所示。
模型設定
紅色表示最優的性能,藍色表示其次。EDSR +和MDSR +分別表示EDSR和MDSR的自組合版本。
我們的模型與其他模型放大4倍(×4)超解析度的定性比較
紅色表示最優性能,藍色表示其次。需要注意的是,DIV2K驗證結果是從已發布的演示代碼中獲取的。
我們的方法在NTIRE2017超解析度挑戰賽的結果。
表4:我們的方法在NTIRE 2017超解析度挑戰賽測試數據集上的表現。紅色表示最優性能,藍色表示其次。
結論
在本文中,我們提出一種增強的超解析度演算法。通過從常規ResNet架構中刪除不必要的模塊,我們在使模型緊湊的同時實現了更好的結果。我們還採用殘差縮放技術來穩定地訓練大型模型。我們提出的單尺度模型超越了已有模型,取得了state-of-the-art的性能。
此外,我們還提出一個多尺度超解析度網路,以減小模型規模並縮短訓練時間。具有規模依賴性模塊和共享主網路的多尺度模型可以在統一的框架中有效處理各種超解析度尺度。雖然多尺度模型與一組單尺度模型相比保持了緊湊,但它顯示出與單尺度SR模型相當的性能。我們提出的單尺度和多尺度模型在標準基準數據集和DIV2K數據集中均實現了最佳結果。
點擊閱讀原文查看新智元招聘信息
※「實戰」利用卷積自編碼器實現圖片降噪(代碼開源)
※「Ian Goodfellow 五問」GAN、深度學習,如何與谷歌競爭
※楊靜:人工智慧鴻溝或將割裂世界
TAG:新智元 |
※5K解析度 170度FoV VRgineers XTAL頭顯將在CES
※Insta360專業VR攝像機亮相CES 擁有11K解析度
※4.3吋1443PPI Google攜手LG打造VR用高解析度OLED頭顯屏幕
※2K解析度遊戲顯卡 AMD Radeon RX 5700發布
※Xbox One 4月正式版系統更新推送 支持2K 1440P解析度及FreeSync 強化瀏覽器功能
※Insta360開售Titan VR相機 解析度11K 售價10萬
※惠普4K解析度WMR頭顯Reverb將於4月底上市,提供114度FOV
※VESA發布DisplayPort2.0標準,8K解析度下實現60 Hz刷新率!
※榮耀 Note 10嚇人的技術首曝:AI 2K解析度
※AMD新顯卡RadeonVII 8K解析度挑戰《戰地5》等大作
※超高解析度HTC Vive Pro正式開啟預售 售價6488元
※卡王RTX2080Ti能否戰5K解析度?
※《孤島驚魂5》Benchmark評測 4K解析度1080Ti也跪
※新款13吋MacBook Air曝光:Retina屏、MBP同款解析度、999美元起
※首單提貨量1.6萬的Focus、解析度提升78%的Pro,HTC Vive在2018勝算幾何?
※《Fighting EX Layer》PC版將支持4K解析度
※Google 將推超高解析度VR顯示屏:1443 ppi,120-Hz 刷新率
※Google 將推超高解析度 VR 顯示屏:1443 ppi,120-Hz 刷新率
※5.29 VR掃描:索尼發布1600×1200解析度OLED微型顯示屏;DigiLens發布兩層AR波導顯示器
※掉幀嚴重!油管UP《Atlas》2K解析度2080Ti測試視頻