當前位置:
首頁 > 科技 > 深度強化學習的資源

深度強化學習的資源

Google的Deep Mind團隊2013年在NIPS上發表了一篇牛x閃閃的文章,亮瞎了好多人眼睛,不幸的是我也在其中。前一段時間收集了好多關於這方面的資料,一直躺在收藏夾中,目前正在做一些相關的工作(希望有小夥伴一起交流)。

一、相關文章

關於DRL,這方面的工作基本應該是隨著深度學習的爆紅最近才興起的,做這方面的研究的一般都是人工智慧領域的大牛。最早(待定)的一篇可以追溯到2010年,Lange[1]做的相關工作。提出了Deep auto-encoder用於基於視覺的相關控制,和目前的架構其實已經很相似了。接下來,在2011年,Cuccu等人[2](Jurgen Schmidhuber課題組的),做了一些相關的工作(有和DRL靠近的意思)。關於這位瑞士的大牛Jurgen先生,他去年寫了一篇關於DL的綜述,這不是關鍵,關鍵是這貨引用了888篇參考文獻,這貨必定受了中國高人指點(因為中國人很喜歡的),事實上他也做中文識別(我都驚呆了)。還是2011年,Abtahi等人[3]用DBN替代傳統的強化學習中的逼近器(做RL的人是不是很親切,和Deep mind就差一點兒額!有木有覺得很可惜,幾乎都摸到Nature的門上了)。2012年的時候,Lange[4]這人更進一步開始做應用了,提出Deep Fitted Q學習做車輛控制,不過效果不咋地。後來2012年的時候,就有人開始寫深度強化學習的相關應用前景和綜述了,比如Arel[5](大牛們還是看的比較遠的)的。然後時間就到了2013年,Deep Mind團隊在nips上發表了他們的文章[6],業界都驚呆了,(RL和DL還可以這樣玩兒)。但是,剛出來的時候,他們不給代碼,各路牛人震驚之餘開始搞逆向工程,最後真有一幫人把代碼寫出來了(囧啊!我為什麼寫不出來呢?)後來更給力的就是Deep mind[7]居然又更進一步發到nature上去了。反正我當時知道後都驚呆了,人工智慧領域的人開始狂歡了,各種搖旗吶喊的人,然後現在這東西開始變得炙手可熱,不知道會不會像Google眼鏡一樣。關於DRL的發展就是這個樣子,接下來就看看那些個人怎麼給吶喊的吧!

二、科學評論

先給中文的,這篇分析DRL比較客觀,推薦指數3星http://www.infoq.com/cn/articles/atari-reinforcement-learning。不過這裡面其實也只是說了一個皮毛,真正的要看內容的話還是去看人家論文把

純科普的http://36kr.com/p/220012.html和http://36kr.com/p/217570.html,兩篇都是36kr報道的,算是國內比較有良心的了,推薦指數2星。

看看人家外國人怎麼說吧!

這個優點類似綜述,適合搞學術的人看看,而且還有demo和教程呢!有些視頻得翻牆http://nextbigfuture.com/2014/12/deep-learning-and-deep-reinforcement.html。推薦指數5星。

http://arstechnica.com/science/2015/02/ai-masters-49-atari-2600-games-without-instructions/,這個就是一個科普,有視頻,比國內的科普強點兒,推薦指數3星。

還有一個overview,基本上把deep mind文章的重點部分挑出來說了一下,適合有一定ML基礎的人去看看,推薦指數3星。http://artent.net/2014/12/10/a-review-of-playing-atari-with-deep-reinforcement-learning/。

Nature上還採訪了一個做逆向的深度強化學習的東歐的一個學者科學家,他們還給出了DRL演算法的一個缺陷,一個中文翻譯的http://www.7huoxing.com/?p=13035。推薦指數2星,適合科普。

還有很多很多就不一一列舉了。

三、相關代碼

這部分應該是大家最關心的,我想大部分看到文章的第一想法是代碼呢!擦,其實我也是這麼想的,誰叫自己的coding能力不夠呢!沒辦法,本人在網上(github.com)深挖了好久,沒想到大牛真的好多好多啊!

排在第一的當然是google自己公布的代碼啊!真是業界良心啊!https://sites.google.com/a/deepmind.com/dqn/。可惜注釋好少。。。。。是基於Torch 7的代碼,本人又硬著頭皮學了lua。話說我這幾個月我就在和各種腳本語言打交道,都是淚啊!備註,deep mind的git地址https://github.com/deepmind。話說沒有GPU的電腦真心不要跑了,我跑了13個小時才跑了大概1/20~~~建議在ubuntu下面跑,最好版本高一些;

然後就是各路人馬(大牛們)的逆向工程。https://github.com/spragunr/deep_q_rl,作者Spragunr公布的基於python各種工具的代碼,這位大牛利用外界工具的能力真實吊炸天,好多工具啊!opencv、cython、rl-glue、theano等等。我表示在ubuntu14.04LTS上面配置了好久,發現電腦沒有GPU,跑不起來,整個人都不好了,還有一個貌似是其學生的https://github.com/brian473/neural_rl,裡面也需要配置python的庫,theano之類的,步驟比較多~不過大牛的學生都是大牛。

https://github.com/kristjankorjus/Replicating-DeepMind,這裡Kristjankorjus大牛基於convnet的東東,發布了這一代碼,也是基於python的,我表示沒有跑過,不清楚狀況,貌似也要GPU,也要配置一堆庫。

Stanford的Karpathy等人復現了DQN,但是是用的js,開始真是嚇尿了,在瀏覽器裡面跑額!https://github.com/karpathy/convnetjs,這個demo不錯,可惜只能show一下沒啥價值,網頁可見http://cs.stanford.edu/people/karpathy/convnetjs/。還有一點,這人學生更牛,直接用Torch 7給實現了,(閱讀了代碼之後發現結構和Google給的幾乎一模一樣,而且注釋相當詳細),https://github.com/fangzai/DeepQLearning。忘了源地址在哪兒了,我把這個到我的git上了,有點兒對不起原作者了。

也有人用caffe實現了,是個日本人。目前有兩個地址,https://github.com/chiggum/AI/tree/master/rl/atari_agent,和https://github.com/muupan/dqn-in-the-caffe第二個是日本人寫的(還真牛)。好多人喜歡用caffe,不過貌似是沒有torch 7方便,有一個好處就是直接是C++,效率比較高。不過,這兩個程序我都沒有跑過,看作者給的結果,挺不錯的。

上面說的搞逆向的人愛沙尼亞Ilya Kuzovkin的關於google源碼的改進,還有相關電腦的配置信息。https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner。這裡跟一下他們的報告https://courses.cs.ut.ee/MTAT.03.291/2014_spring/uploads/Main/Replicating%20DeepMind.pdf,趕腳特別專業,和這個作者聯繫過,人特別很nice。

還有一些基本都是他們的fork出來改進的,讀者自己去挖吧!

基本上重要的就是這麼多了,然後外圍的關於Torch 7和其他東西的安裝就不提了。

三、論壇

這是google上的一個小組,裡面有不少人討論DQN的演算法以及代碼使用心得,有興趣的可以加入。

https://groups.google.com/forum/#!topic/deep-q-learning。

最後用Deep Mind的主頁鎮樓http://deepmind.com/。

PS:歡迎各位大小牛牛補充~~~

[1]S. Lange and M. Riedmiller, "Deep auto-encoder neural networks in reinforcement learning," in IJCNN, 2010, pp. 1-8.

[2]G. Cuccu, M. Luciw, J. Schmidhuber, and F. Gomez, "Intrinsically motivated neuroevolution for vision-based reinforcement learning," in Development and Learning (ICDL), 2011 IEEE International Conference on, 2011, pp. 1-7.

[3]F. Abtahi and I. Fasel, "Deep belief nets as function approximators for reinforcement learning," RBM, vol. 2, p. h3, 2011.

[4]S. Lange, M. Riedmiller, and A. Voigtlander, "Autonomous reinforcement learning on raw visual input data in a real world application," in Neural Networks (IJCNN), The 2012 International Joint Conference on, 2012, pp. 1-8.

[5]I. Arel, "Deep Reinforcement Learning as Foundation for Artificial General Intelligence," in Theoretical Foundations of Artificial General Intelligence, ed: Springer, 2012, pp. 89-102.

[6]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, et al., "Playing Atari with deep reinforcement learning," arXiv preprint arXiv:1312.5602, 2013.

[7]V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, et al., "Human-level control through deep reinforcement learning," Nature, vol. 518(7540), pp. 529-533, 2015.

金融大作手公開課

1、如何判斷大盤短期是否見底?

2、如何避免踏空出現?

3、如何把握短期結構性行情?

4、如何在雄安新區概念,一帶一路概念股中分一杯羹?

2017年6月10日 上海

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

十個值得收藏的Excel技巧
28頁PPT詳解騰訊數據挖掘體系及應用
跟「技術教父」葛定臣做期貨—交易獲勝秘籍
對話獵聘CDO單藝:數據人才稀缺困局,招聘網站內部也在尋找最優解

TAG:大數據實驗室 |

您可能感興趣

史上最全吳恩達的機器學習和深度學習課程筆記和資源
資源 | 《深度強化學習》手稿開放了!
英國導師制及學習服務資源深度解析
印度古生物學家在與化石資源的毀滅作鬥爭
大學教材資源深度融合與協同發展座談會舉行
深度學習資源,包括一系列架構、模型與建議
周和平——發揮資源優勢 加強金融助力 推動我國文化產業健康發展
深度學習人機交互相關資源推薦來啦
優質學前教學資源由滬入疆
資源深度融合有方法
積極運用儒學資源以重建和鞏固政治合法性
特提斯的魅力——起源、演化和資源環境效應
不斷加強和改進生態環境資源審判工作
MILA 2018夏季深度學習與強化學習課程資源大放送
獨家學習資源分享
「互聯網+醫療健康」深度融合助資源配置優化
深化重點領域改革,增強內生動力 優化資源要素市場配置
入門必備:史上最全的深度學習資源匯總,速藏!
沉香的資源現狀、分類和生物學習性
挖掘歷史教學中的德育資源