當前位置:
首頁 > 知識 > 「OpenAI Five」戰勝的秘訣

「OpenAI Five」戰勝的秘訣

資源從上周四上線到今天

在大家的共同建設下

資源板塊越來越豐富了

截止到目前為止

資源總共被下載1300+次

看來

有很多社區小夥伴在利用空閑時間

默默學習升級打怪呢

今天社長就給大家推薦一個好資源

【深度強化學習】

當AlphaGO戰勝了世界圍棋冠軍李世石之後,整個工業界都為之振奮,越來越多的學者意識到強化學習在人工智慧領域可以帶來更多的驚喜,因此也有越來越多的人關注強化學習。

最新里程碑,美國時間 8 月 5 日星期天,OpenAI 開發的基於強化學習的 DOTA 5v5 AI 「OpenAI Five」以2:1的比分在即時戰略遊戲DOTA2中擊敗了由5名人類高手(前職業選手)組成的隊伍。

這說明強化學習已經越來強大了。

強化學習是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。其靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。

在強化學習的世界裡, 演算法稱之為Agent,它與環境發生交互,Agent從環境中獲取狀態(state),並決定自己要做出的動作(action).環境會根據自身的邏輯給Agent予以獎勵(reward)。獎勵有正向和反向之分。比如在遊戲中,每擊中一個敵人就是正向的獎勵,掉血或者遊戲結束就是反向的獎勵。

這個資源包是一個強化學習的課程,你可以下載後,利用業餘時間學習,進一步了解強化學習!

掃碼即可下載資源

【課程內容】

強化學習簡介

強化學習基本概念

馬爾科夫決策過程

Bellman方程

值迭代求解

代碼實戰求解過程

QLearning基本原理

QLearning迭代計算實例

QLearning迭代效果

求解流程詳解

DeepQnetwork原理

DQN網路細節

DQN網路參數配置

搭建DQN網路模型

DQN卷積操作定義

數據預處理

實驗階段數據存儲

實現訓練模塊

Debug解讀訓練代碼

完整代碼流程分析

DQN效果演示

歡迎大家學習後

在社區發布學習筆記

或者分享相關的感受

畢竟愛分享的童鞋

會進步得更快喔~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

微軟發布的可視化圖像/視頻標記工具 VoTT
王強:站在人工智慧與金融 IT 最頂端的人

TAG:AI研習社 |