深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

新聞 01-10

本文為 AI 研習社編譯的技術博客，原標題：
Diving deeper into Reinforcement Learning with Q-Learning
作者 | Thomas Simonini
翻譯 | 斯蒂芬?二狗子
校對 | 斯蒂芬?二狗子審核 | 醬番梨整理 | 菠蘿妹

原文鏈接：
https://medium.freecodecamp.org/diving-deeper-into-reinforcement-learning-with-q-learning-c18d0db58efe

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

本文是 Tensorflow 深度強化學習課程的一部分。?點擊這裡查看教學大綱。

今天我們將學習 Q-Learning。 Q-Learning 是一種基於數值的強化學習演算法。

本文是關於深度強化學習的免費系列博客文章的第二部分。有關更多信息和更多資源，請查看課程的教學大綱。請參閱此處的第一篇文章。

在本文中，您將學習：

什麼是 Q-Learning
如何用Numpy實現它

大圖：騎士和公主

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

假設你是一名騎士，你需要拯救被困在上面地圖上所示城堡中的公主。

您可以一次移動一個圖塊。敵人不能移動，但是騎士和敵人落在同一塊地磚上就會死。目標是使騎士儘可能以最快的路線前往城堡。這可以使用「積分」系統來評估。

騎士每走一步都減去1分（使用每一步-1策略有助於我們的Agent快速到達終點）。

如果騎士觸碰一個敵人，將失去100分，然後這一集結束。
如果騎士在到達城堡並獲勝，將得到100分。
問題是：如何做才能創建一個的 Agent 完成這個任務？

這裡的第一個策略：讓 Agent 不斷嘗試移動到每個瓷磚上，然後為每個瓷磚著色。綠色表示「安全」，紅色表示「不安全」。

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

相同的地圖，但著色顯示哪些瓷磚可以安全訪問

然後，我們可以告訴 Agent 只在綠色瓷磚上移動。

但問題是這樣做並沒有對問題有幫助。當綠色瓷磚彼此相鄰時，我們無法分辨哪個瓷磚更好。所以 Agent 在試圖找到城堡過程會因此陷入死循環！

介紹Q表

這是第二個策略：創建一個表格，我們將計算每種狀態 state 下採取的每種行動 action的最大的未來預期獎勵。

多虧了這個策略，我們將知道對每種狀態採取的最佳行動是什麼。

每個 state（瓷磚片）允許四種可能的動作。它們分別是向左，向右，向上或向下移動。

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

0表示不可以執行的動作（如果你在左上角你不能向左或向上！）

在計算方面，我們可以將此網格轉換為表格。

這個表格被稱為 Q 表（「Q」表示動作的「質量」）。列表示是四個動作（左，右，上，下）。行表示的是狀態。每個單元格的值將是該給定狀態和行動的最大未來預期獎勵。

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

如果在 state 狀態下給定的行動 action 是最佳策略，那麼每個 Q 表評分為未來獎勵的最大期望。

為什麼我們說「根據策略給出？」這是因為我們不能直接給出這種策略。而是通過改進我們的 Q 表以始終選擇最佳行動 action。

可以把這個 Q-table 認為是一個遊戲的「備忘單」。通過找到「備忘單」行中的最高分，我們知道每個狀態（Q 表中的每一行）最好的行動是什麼。

Yeah！我們解決了城堡問題！但是等等......我們如何計算 Q 表中每個元素的值？

要給出此 Q 表的每個值，可以使用 Q-learning 演算法。

Q學習演算法：學習動作值函數

動作值函數（或「 Q 函數」）有兩個輸入：「狀態」和「動作」。它返回該動作在該狀態下的預期未來獎勵。

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

我們可以把這個 Q 函數作為一個閱讀指南，通過滾動 Q 表找到與我們的狀態相關的行，以及與我們的動作相關聯的列。它返回匹配的 Q 值。這個值就是「預期的未來獎勵」。

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

在我們探索環境之前，Q 表中的值是固定的初始值（一般為0）。在我們探索環境時，通過使用Bellman方程迭代更新Q(s,a)，Q 表中的值將趨近於更好（見下文！）。

Q學習演算法過程

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

Q-Learning演算法的偽代碼

步驟1：初始化Q值

我們構建一個Q表，有 m 列（m = 行動數）和 n 行（n =狀態數）。我們將值初始化為0。

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）

第2步：終身學習（或直到學習停止）

該過程將重複步驟3到5，直到演算法運行次數為的 episode 的最大值（由用戶指定）或直到我們手動停止訓練。

步驟3：選擇操作

根據當前的Q值選擇當前狀態下行動 Action a。

但是......如果每個Q值都是零，那麼在該採取什麼行動？

這就是我們在上一篇文章中談到的探索/使用權衡的重要性。

我們的想法是，在開始時，我們將使用epsilon貪心策略：

我們指定一個探索率「epsilon」，我們在開始時設置為1，即隨機執行的step的速度。剛開始學習時，這個速率必須是最高值，因為我們對Q表的取值一無所知。這意味著我們需要通過隨機選擇我們的行動進行大量探索。
生成一個隨機數。如果這個數字> epsilon，那麼我們將進行「使用」（這意味著我們使用已知的方法來選擇每一步的最佳動作）。否則，我們會進行探索。
我們的想法是，在Q函數訓練開始時我們必須有一個較大的epsilon。然後，隨著Agent變得做得越來越好，逐漸減少它。

深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）