「OpenAI Five」戰勝的秘訣
資源從上周四上線到今天
在大家的共同建設下
資源板塊越來越豐富了
截止到目前為止
資源總共被下載1300+次
看來
有很多社區小夥伴在利用空閑時間
默默學習升級打怪呢
今天社長就給大家推薦一個好資源
【深度強化學習】
當AlphaGO戰勝了世界圍棋冠軍李世石之後,整個工業界都為之振奮,越來越多的學者意識到強化學習在人工智慧領域可以帶來更多的驚喜,因此也有越來越多的人關注強化學習。
最新里程碑,美國時間 8 月 5 日星期天,OpenAI 開發的基於強化學習的 DOTA 5v5 AI 「OpenAI Five」以2:1的比分在即時戰略遊戲DOTA2中擊敗了由5名人類高手(前職業選手)組成的隊伍。
這說明強化學習已經越來強大了。
強化學習是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。其靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。
在強化學習的世界裡, 演算法稱之為Agent,它與環境發生交互,Agent從環境中獲取狀態(state),並決定自己要做出的動作(action).環境會根據自身的邏輯給Agent予以獎勵(reward)。獎勵有正向和反向之分。比如在遊戲中,每擊中一個敵人就是正向的獎勵,掉血或者遊戲結束就是反向的獎勵。
這個資源包是一個強化學習的課程,你可以下載後,利用業餘時間學習,進一步了解強化學習!
掃碼即可下載資源
【課程內容】
強化學習簡介
強化學習基本概念
馬爾科夫決策過程
Bellman方程
值迭代求解
代碼實戰求解過程
QLearning基本原理
QLearning迭代計算實例
QLearning迭代效果
求解流程詳解
DeepQnetwork原理
DQN網路細節
DQN網路參數配置
搭建DQN網路模型
DQN卷積操作定義
數據預處理
實驗階段數據存儲
實現訓練模塊
Debug解讀訓練代碼
完整代碼流程分析
DQN效果演示
歡迎大家學習後
在社區發布學習筆記
或者分享相關的感受
畢竟愛分享的童鞋
會進步得更快喔~
※微軟發布的可視化圖像/視頻標記工具 VoTT
※王強:站在人工智慧與金融 IT 最頂端的人
TAG:AI研習社 |