2017最火的五篇深度學習論文 總有一篇適合你
【導讀】最近,MIT博士生學生GREGORY J STEIN在博客中總結了2017年他最喜歡的深度學習論文,並且列出了這一年對他研究思考影響最深的五篇論文,其中包括《CycleGAN, Deep Image Prior,蘋果的simGAN, Wasserstein GAN, AlphaGo zero》,並且詳細地解釋了為什麼會選擇這篇論文的原因,值得大家細細品味!專知內容組編輯整理。
MY FAVORITE DEEP LEARNING PAPERS OF 2017
2017年我最喜歡的深度學習論文
雖然今年發表的深度學習相關的論文多如牛毛,但是仍然有些論文因其獨特的貢獻而脫穎而出。 下面是過去一年對我的研究思考影響最多的五篇論文。 對於每篇論文,我都解釋了論文的要解決什麼問題,簡要總結了論文主要的創新點,並說明我覺得它很有趣的原因。
▌1. 最酷的視覺效果: CycleGAN-圖像遷移
題目:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
作者:Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros (來自伯克利AI研究所)
目標:自動將某一類圖片轉換成另外一類圖片。
鏈接:https://arxiv.org/abs/1703.10593
與其上來就說一大堆這篇論文里所做的那些技術細節,不如讓我們先來看看這些令人難以置信的結果:
(旁邊的注釋):這些令人驚人的圖像來自CycleGAN論文,作者在這篇論文中訓練了一對轉換網路,能夠在不同類的圖像集之間進行轉換。
作者用來自不同領域的兩組圖像舉例,例如普通的馬和斑馬。他實現了兩個轉換網路:其中一個將馬的圖像轉化為斑馬圖像,另一個將斑馬圖像轉化為馬圖像。每個轉換器都實現一種樣式轉換,它不是針對單個圖像的樣式,而是去發現一組圖像的聚合樣式。
轉換網路被訓練成一組生成對抗網路GAN,每個網路都試圖欺騙鑒別者相信他們「轉換」的圖像是真實的。另外引入了循環一致性損失函數(cycle consistency loss)來保證在通過兩個轉換網路之後圖像保持不變。
(旁邊注釋)我們使用CycleGAN方法為我們最近的一篇論文在訓練數據上生成逼真現場合成圖像,結果看起來很炫:
這篇論文的視覺效果令人驚嘆,我強烈建議您去GitHub上多看些轉換示例。 我對這篇論文尤其感興趣,因為它不像許多以前的方法,它學會在不同類的圖像集之間進行轉換,為可能不存在匹配圖像或者圖像難以獲得的應用程序打開大門。除此之外,代碼非常易於使用和實驗,這也說明了方法的魯棒性和高質量的代碼實現。
▌2. 最優雅:使用WASSERSTEIN 距離更好地進行神經網路訓練
標題:Wasserstein GAN
作者:Martin Arjovsky,Soumith Chintala,LéonBottou(來自Courant數學科學研究所和Facebook人工智慧研究)
目標:使用更好的目標函數來更穩定地訓練GAN。
鏈接:https://arxiv.org/abs/1701.07875
本文提出了通過使用一個稍微不同的目標函數來訓練生成敵對網路。新提出的目標函數比標準GAN的目標函數訓練起來要穩定得多,因為它避免了在訓練過程中消失梯度。
(旁邊注釋)從Wasserstein GAN論文中摘得的這個圖片顯示了所提出的WGAN目標函數如何避免出現在標準GAN中的梯度消失的問題。
使用這個修改後的目標函數,作者還避免了一個稱為模式崩潰mode collapse的問題,在標準GAN中,這個問題體現為只從可能輸出的一個子集中產生樣本。 例如,如果GAN正在訓練產生手寫數字4和6,則GAN可能只能產生4,並且在訓練期間無法逃離該局部最小值。Wasserstein GAN通過解決訓練目標中梯度的消失來設法避免這個問題。
(旁邊注釋)事實上,作者聲稱:「我們還沒有在實驗中看到過WGAN演算法模式崩潰的證據。」
這篇論文是非常自成體系的:
(1)作者首先提出一個簡單的想法
(2)從數學上解釋為什麼它可以提高當前結果
(3)用一個令人印象深刻的結果去證明它的有效性。 此外,作者提出的改變在幾乎所有流行的深度學習框架中都很容易實現,使得所提出的改變是切實可行的。
(旁邊注釋)即使我們一直在朝著神經網路越來越好的方向前進,但值得記住的是,仍然有可能通過簡單的改進來產生巨大的變化。
▌3.最有用的:simGAN---使用GAN進行無監督模擬訓練數據細化
標題:Learning from Simulated and Unsupervised Images through Adversarial Training 通過對抗訓練從模擬和無監督的圖像中學習
作者:Ashish Shrivastava,Tomas Pfister,Oncel Tuzel,Josh Susskind,王文達,Russ Webb(蘋果公司 CVPR 2017 best paper)
目標:利用真實數據來「修正」合成數據的數據分布,從而使得人工合成的圖片可以用來訓練
鏈接:https://arxiv.org/abs/1612.07828
收集真實的數據可能既困難又耗時。因此,許多研究人員經常使用模擬工具(類似於OpenAI gym的工具對尤其需要大量訓練數據的深度強化學習代理特別有用),其能夠產生幾乎無限量的有標籤訓練數據。然而,大多數模擬數據對於在真實數據上操作訓練的深度學習系統是不夠魯棒的。
為了克服這個限制,本文基於生成對抗網路(GAN)使用未標記的真實圖像來改進標記的模擬圖像。它們訓練一個「refinement network」來欺騙一個判別器,該判別器被訓練成能夠區分細緻的模擬圖像和真實圖像。由於refinement network和分類器是聯合訓練的,細緻的模擬圖像開始顯得非常逼真:
當simGAN被提出來時,我立即對這篇論文感興趣,因為它提出了第一個縮短模擬和真實數據差距的實用方法。關鍵的是該演算法是無監督的,這意味著用戶不需要手動標記真實數據。對於深度學習應用來說,數據是最重要的,然而像我這樣的大多數學術實驗室沒有資源來生成快速解決新研究領域問題所需的大量數據:如果您正在嘗試解決的問題不存在公共數據集,則你將自己收集和標記該數據。 本文的言外信息是,只要你有一個試圖解決問題的模擬器,你應該能夠生成你所需要的訓練數據。
▌4. 最引人關注的是:谷歌的圍棋AI無需人類經驗的學習
標題:在沒有人類知識的情況下掌握Go遊戲
Mastering the game of Go without human knowledge
作者:David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel & Demis Hassabis (from DeepMind)
目標:在沒有任何人類知識的情況下學會玩圍棋遊戲
鏈接:https://www.nature.com/articles/nature24270
如果缺少DeepMind在過去一年中取得的驚人成就,那麼2017年的最佳名單將是不完整的,特別是考慮到DeepMind在AI圍棋程序AlphaGo的成績。我在這裡就不花過多的篇幅稱讚他們的成就了,因為你們中大多數人可能對DeepMind在2016年的成果,包括他們在論文中是如何構建系統的,都非常熟悉。然而,2017的這個系統是以專家級的人類圍棋作為起點。
最近的「AlphaGo zero這篇論文沒有使用任何人類的先驗知識或對弈棋局: 只通過「自己對弈(self-play)」來進行訓練。這是通過改進的強化學習過程實現的,在這種訓練過程中,策略被更新為對比賽的前向模擬(forward simulations)。用於引導搜索的神經網路在遊戲中得到改善,使訓練速度更快。AlphaGo zero超過了AlphaGo Lee的表現,在2016年的比賽中,只通過40個小時的「自我對弈」學習,就擊敗了李世石(Lee Sedol)
這張摘自AlphaGo Zero論文的圖表,圖顯示了AlphaGo Zero的性能。 經過幾個星期的訓練,AlphaGo Zero勝過所有其他圍棋程序。
儘管我對這篇論文的興趣主要集中在工程層面,但AlphaGo採用的傳統方法和深度學習方法的混合方法也很令我興奮,在這種方法中,增加的蒙特卡洛樹搜索使得系統性能優於單獨的神經網路方法。因為我本身研究機器人,對這種方法情有獨鍾:使用傳統演算法作為決策的主體,並使用機器學習來提高性能或克服計算限制。這篇論文和2016 AlphaGo論文寫的都很棒,技術細節和見解都非常到位。這些文章值得詳細閱讀。
▌5.最值得思考的是:深度圖像先驗Deep Image Prior
標題:深度圖像先驗(Deep Image Prior)
作者:Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky (from Skolkovo Institute of Science and Technology and University of Oxford)
目標:理解神經網路模型中先驗的作用
鏈接:https://dmitryulyanov.github.io/deep_image_prior
在完成這個2017年論文清單時,我發現一個比較有趣的論文,關於這篇論文我和我的同事聊了好幾天。這篇文章的作者並沒有用大量的數據來訓練深度神經網路,而是探索如何使用神經網路本身作為先驗來幫助我們處理一些流行的圖像處理任務。從一個未訓練的神經網路開始,用作者的話來說「在神經網路的參數空間中搜索答案,而不是在圖像空間中搜索答案」,並且避免將大型數據集中預訓練神經網路。
上圖中的圖片摘自深度圖像先驗的論文(Deep Image Prior paper),圖中展示了應用他們的技術移除JPEG壓縮偽影的效果。最左邊是目標圖像,它經過JPEG壓縮,有很多壓縮瑕疵。網路的目標是學會輸出它。在100次迭代後,網路學會了輸出很模糊的形體。在2400次迭代後,網路學會了輸出一張清晰光滑的高質量圖片。在50000次迭代後,網路才學會了輸出原圖,但是在此之前會首先發現沒有任何偽影的更自然的圖像; 網路的結構是找到一個更自然的圖像比找到一個損壞的圖像更容易。更多例子可以查看論文項目的頁面(https://dmitryulyanov.github.io/deep_image_prior )。
我幾乎是立刻被這個結果吸引:神經網路結構對於我們的數據是有哪些先驗的認識?我們怎樣才能更好地理解這些先驗呢?我們如何利用這種方法來建立更好的網路模型?當然,我們可以隱約地感受到我們的網路結構可能也會對我們的數據造成的一些限制:比如把「斑馬」的圖像都被顛倒了,那麼CycleGAN方法可能不會有效地工作。這也給我們的神經網路模型帶來挑戰,同時提供了一些未來研究方向。
▌結論
很明顯,本文總結的列表並不全面,我歡迎您評論並舉出您喜歡的文章。
參考鏈接:
http://cachestocaches.com/2017/12/favorite-deep-learning-2017/
http://gjstein.me/
-END-
專 · 知
人工智慧領域主題知識資料查看獲取:【專知薈萃】人工智慧領域26個主題知識資料全集(入門/進階/論文/綜述/視頻/專家等)
同時歡迎各位用戶進行專知投稿,詳情請點擊:
※飛入尋常百姓家:DeepCognition.ai教你輕鬆部署AI應用
※遷移學習在深度學習中的應用
※TensorFlow實戰——圖像分類神經網路模型
※深度學習中的數學理解—教你深度學習背後的故事
※你也能與AlphaGo談笑風生了,AlphaGo教學工具上線
TAG:專知 |