當前位置:
首頁 > 最新 > 一文讀懂深度學習模型近年來重要進展

一文讀懂深度學習模型近年來重要進展

作者:丁銘,唐傑

來源:微博「唐傑THU」

本文共2200字,建議閱讀5分鐘。

本文為大家梳理深度學習模型近年來的重要進展,文末附梳理圖~

唐傑老師學生幫忙整理的Deep Learning模型最近若干年的重要進展。有4條脈絡,整理很不錯。分享一下。

track1 cv/tensor

1943年出現雛形,1958年研究認知的心理學家Frank發明了感知機,當時掀起一股熱潮。後來Marvin Minsky(人工智慧大師)和Seymour Papert發現感知機的缺陷:不能處理異或迴路、計算能力不足以處理大型神經網路。停滯!

1986年hinton正式地提出反向傳播訓練MLP,儘管之前有人實際上這麼做。

1979年,Fukushima 提出Neocognitron,有了卷積和池化的思想。

1998年,以Yann LeCun為首的研究人員實現了一個七層的卷積神經網路LeNet-5以識別手寫數字。

後來svm興起,這些方法沒有很受重視。

2012年,Hinton組的AlexNet在ImageNet上以巨大優勢奪冠,興起深度學習的熱潮。其實Alexnet是一個設計精巧的CNN,加上relu、dropout等技巧,並且更大。

這條思路被後人發展,出現了vgg、GooLenet等。

2016年,青年計算機視覺科學家何愷明在層次之間加入跳躍連接,Resnet極大增加了網路深度,效果有很大提升。一個將這個思路繼續發展下去的是去年cvpr best paper densenet。

cv領域的特定任務出現了各種各樣的模型(Mask-RCNN等),這裡不一一介紹。

2017年,hinton認為反省傳播和傳統神經網路有缺陷,提出Capsule Net。但是目前在cifar等數據集上效果一半,這個思路還需要繼續驗證和發展。

track2 生成模型

傳統的生成模型是要預測聯合概率分布P(x,y)。

rbm這個模型其實是一個基於能量的模型,1986年的時候就有,他在2006年的時候重新拿出來作為一個生成模型,並且將其堆疊成為deep belief network,使用逐層貪婪或者wake-sleep的方法訓練,不過這個模型效果也一般現在已經沒什麼人提了。但是從此開始hinton等人開始使用深度學習重新包裝神經網路。

Auto-Encoder也是上個世紀80年代hinton就提出的模型,此時由於計算能力的進步也重新登上舞台。bengio等人又搞了denoise Auto-Encoder。

Max welling等人使用神經網路訓練一個有一層隱變數的圖模型,由於使用了變分推斷,並且最後長得跟auto-encoder有點像,被稱為Variational auto-encoder。此模型中可以通過隱變數的分布採樣,經過後面的decoder網路直接生成樣本。

GAN是2014年提出的非常火的模型,他是一個隱的生成模型,通過一個判別器和生成器的對抗訓練,直接使用神經網路G隱式建模樣本整體的概率分布,每次運行相當於從分布中採樣。

DCGAN是一個相當好的卷積神經網路實現,WGAN是通過維爾斯特拉斯距離替換原來的JS散度來度量分布之間的相似性的工作,使得訓練穩定。PGGAN逐層增大網路,生成機器逼真的人臉。

track3 sequence learning

1982年出現的hopfield network有了遞歸網路的思想。1997年Jürgen Schmidhuber發明LSTM,並做了一系列的工作。但是更有影響力的是2013年還是hinton組使用RNN做的語音識別工作,比傳統方法高出一大截。

文本方面bengio在svm最火的時期提出了一種基於神經網路的語言模型,後來google提出的word2vec也有一些反向傳播的思想。在機器翻譯等任務上逐漸出現了以RNN為基礎的seq2seq模型,通過一個encoder把一句話的語義信息壓成向量再通過decoder輸出,當然更多的要和attention的方法結合。

後來前幾年大家發現使用以字元為單位的CNN模型在很多語言任務也有不俗的表現,而且時空消耗更少。self-attention實際上就是採取一種結構去同時考慮同一序列局部和全局的信息,google有一篇聳人聽聞的attention is all you need的文章。

track4:deep reinforcement learning

這個領域最出名的是deep mind,這裡列出的David Silver是一直研究rl的高管。

q-learning是很有名的傳統rl演算法,deep q-learning將原來的q值表用神經網路代替,做了一個打磚塊的任務很有名。後來有測試很多遊戲,發在Nature。這個思路有一些進展double dueling,主要是Qlearning的權重更新時序上。

DeepMind的其他工作DDPG、A3C也非常有名,他們是基於policy gradient和神經網路結合的變種(但是我實在是沒時間去研究)。

一個應用是AlphaGo大家都知道,裡面其實用了rl的方法也有傳統的蒙特卡洛搜索技巧。Alpha Zero 是他們搞了一個用alphago框架打其他棋類遊戲的遊戲,吊打。

註:本文獲唐老師授權轉自其微博。

唐老師還帶領團隊研發了研究者社會網路ArnetMiner系統,吸引了220個國家277萬個獨立IP的訪問。AMiner近期持續推出了AI與各領域結合的研究報告,數據派將作為獨家媒體合作方陸續發布:

AMiner:

清華大學AMiner學術搜索引擎,是一個以科研人員為中心,通過領先的語義分析和挖掘技術,提供在線實時的人才、科技評估報告的情報平台。

系統自上線10年以來,彙集了全球1.3億科研人員,2.7億篇論文,吸引了全球超過220個國家800萬個獨立IP的訪問,是除了谷歌scholar之外最大的學術搜索系統。為全球最大學術期刊出版社Elsevier,以及KDD、ICDM、WSDM等20餘個重要國際會議提供審稿人推薦及語義信息服務。AMiner項目獲2013年中國人工智慧學會科學技術進步一等獎,核心理論部分獲2013年中國電子學會自然科學二等獎、2017年北京市科技進步一等獎。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

AI工程師必讀的10本ML讀物
從特徵金字塔網路、Mask R-CNN到學習分割一切

TAG:數據派THU |