GAN正在成為新的深度學習
新智元報道
來源:Jordi Pont-Tuset,Google Research
編輯:文強
【新智元導讀】計算機視覺頂會CVPR 2018召開在即,從接收的論文看,這屆會議展現出了怎樣的趨勢?你不要不信,生成對抗網路GAN,正在成為新的「深度學習」。
又到了一年一度CVPR的時節。
當被接收的論文列表公布以後(點擊這裡查看所有論文列表),愛統計趨勢的我們又有很多事情可以做了。
這一次,Google Research的研究科學家Jordi Pont-Tuset做了一個統計,根據論文題目,看深度學習的發展趨勢。結果,他發現生成對抗網路(GAN)強勢出擊,大有取代「深度學習」(Deep Learning)之勢。
下面這張圖展示了CVPR 2018的論文題目中,關鍵詞GAN、Deep,以及LSTM的對比:
可以看出,普通的「深度學習」已經在走下坡路,而且趨勢明顯。Jordi Pont-Tuset認為,這很可能是研究人員已經見慣不慣了。
與此同時,GAN則大幅抬頭,有8%的論文標題中含有GAN(相比2017年增長了2倍多),已經不能說是少數,而是相當有分量的一個方向了。
此外,LSTM也出現下滑,可能是越來越多人開始關注並使用Attention的方法。
「深度學習」趨於飽和,GAN強勢飛升
GAN的上升趨勢並不是從CVPR 2018才開始的。下面這張圖展示了從2013年到2017年CVPR期間,GAN(以及LSTM)在CVPR、ICCV和ECCV這三大計算機視覺頂會論文標題中出現的頻次。統計者依然是Jordi Pont-Tuset。
儘管佔比的絕對值不高(在2017年時為2.5%),但可以發現GAN從CVPR-16開始一飛衝天的趨勢。
這種趨勢在隨後舉行的ICCV 2017上更加明顯,GAN在ICCV-17上已經超越了LSTM,並且佔比達到了4%。
再來看「深度學習」,三大CV頂會的數據表明,歷經2014年到2016年的火爆,從2017年開始,雖然還在增長(CVPR的稍微多一些),但都已趨於飽和。
GAN是新的「深度學習」?
需要指出,這裡統計的僅僅是三大計算機視覺會議接收論文的標題里的關鍵詞。
就像Jordi Pont-Tuset推測的那樣,普通的「深度學習」可能已經為人熟知,如今在研究領域開始往更細的、更具體的方向發展,比如GAN。
生成對抗網路(Generative Adversarial Nets)在 Ian Goodfellow 等人2014年的論文《Generative Adversarial Nets》中提出,是非監督學習的一種方法,通過讓兩個神經網路相互博弈的方式進行學習。
GAN結構示意。來源:Slinuxer
生成對抗網路由一個生成網路(Generator)與一個判別網路(Discriminator)組成。生成網路從潛在空間(latent space)中隨機採樣作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。判別網路的輸入則為真實樣本或生成網路的輸出,其目的是將生成網路的輸出從真實樣本中儘可能分辨出來。而生成網路則要儘可能地欺騙判別網路。兩個網路相互對抗、不斷調整參數,最終目的是使判別網路無法判斷生成網路的輸出結果是否真實。生成對抗網路常用於生成以假亂真的圖片。此外,該方法還被用於生成視頻、三維物體模型等。
現在,《Generative Adversarial Nets》這篇論文的引用數量已經達到了3363次。
在一次Quora問答直播中,Yann LeCun表示,生成對抗性網路是近十年來最有趣的想法,是人工智慧最值得期待的演算法之一。
去年在接受吳恩達的採訪時,Ian Goodfellow曾經說,GAN是生成模型的一種,實際上 GAN 能做的事情,很多其他生成模型也能做,如果GAN的訓練能穩定下來,甚至像深度學習那麼可靠,那麼GAN就能真正發展起來。如果不能,那麼GAN 將會被其他方法所取代。他有大約 40% 的時間都用在穩定 GAN 上面。
至少從這屆CVPR看,GAN被取代的情況還完全不存在。
現在,有很多針對GAN的研究,除了Ian Goodfellow所在的谷歌和他之前所在的OpenAI,FAIR/NYU也是一大重鎮。實際上,是FAIR/NYU最先把GAN帶進了我們的視野,提出了LAPGAN,那是GAN第一次生成了逼真的高清圖像,也是第一次得到媒體曝光。
另外一個重要陣營是伯克利+英偉達,他們專註超高清逼真圖像和視頻,無監督翻譯,等等。伯克利的CycleGAN,利用對偶學習並結合GAN機制來優化生成圖片的效果。英偉達則採取「漸進式生成」技術訓練GAN,讓計算機可以生成1024*1024大小的高清圖片,幾乎可以以假亂真。
除了圖像生成,GAN的應用也已經拓展到了NLP和Robot Learning。
Ian Goodfellow在去年一次問答中表示,GAN是使用強化學習來解決生成建模問題的一種方式。「GAN的不同之處在於,獎勵函數對行為是完全已知和可微分的,獎勵是非固定的,以及獎勵是Agent的策略的一個函數。」Goodfellow說:「我認為GAN基本上可以說就是強化學習。」
資料來源
1、CVPR 關鍵詞統計:http://jponttuset.cat/are-gans-the-new-deep/
2、Ian Goodfellow問答:https://fermatslibrary.com/arxiv_comments?url=https%3A%2F%2Farxiv.org%2Fpdf%2F1406.2661.pdf
※「螞蟻金服轉身」支付等業務預計減半,5年內科技服務佔比65%
※亞馬遜市值全球第二,貝索斯牽波士頓動力狗出席機器人大會
TAG:新智元 |