OpenAI 發布完整版遊戲強化學習研究平台 Gym Retro

知識 05-29

本文發佈於 OpenAI 官方博客，AI 研習社將原文編譯如下：

我們發布了用於遊戲研究的強化學習平台完整版 Gym Retro，支持的遊戲從大約 70 多個雅達利和 30 多個世嘉遊戲擴展到各種模擬器支持的 1000 多個遊戲。同時我們還發布了用於增加新遊戲的工具。

我們使用 Gym Retro 來研究增強學習演算法和泛化。RL 之前的研究主要集中在優化 Agent 解決單個任務上。通過 Gym Retro，我們可以研究內部概念相似但外觀表現不同的遊戲之間泛化的能力。

此版本包括世嘉創世紀和世嘉 Master System 的遊戲，以及任天堂的 NES，SNES 和 Game Boy 的遊戲。Gym Retro 還包括對世嘉 Game Gear，任天堂Game Boy Color，任天堂 Game Boy Advance 和 NEC TurboGrafx 的初步支持。一些已發布的遊戲集成（包括 Gym Retro 的數據/實驗文件夾中的那些遊戲）處於測試狀態 - 請您嘗試一下並讓我們知道是否遇到任何 bug。由於涉及到大規模的變更，所以代碼暫時只能在部分 branch 上可用。為了避免破壞參賽者的代碼，在比賽結束之前，我們不會合併 branch（https://github.com/openai/retro/tree/develop）。

正在進行的Retro 比賽和我們近期的技術報告（https://arxiv.org/abs/1804.03720）專註於在同一遊戲不同級別之間進行泛化的比較簡單的問題。完整的 Gym Retro 數據集推進了這一想法，並使研究不同遊戲之間的泛化難題成為可能。不過，數據集的規模和個人遊戲的難度使其成為一項艱巨的挑戰，我們期待著分享明年的研究進展。我們也希望由 Retro 競賽參與者開發的一些解決方案可以擴展並應用於完整的 Gym Retro 數據集上。

集成工具

我們發布了用於整合新遊戲的工具，如果您擁有遊戲的 ROM，此工具可讓您輕鬆保存狀態、查找內存位置以及設計強化學習 Agent 能夠解決的場景問題。我們為想要添加新遊戲的開發者寫了份使用指南。

新工具還支持錄製和播放視頻文件功能，用來記錄遊戲中所有的按鍵輸入。這些文件很小，因為它們只需記錄按鍵的初始狀態和按鍵的順序，而不用逐幀記錄。這些文件可以讓強化學習 Agent 的行為可視，並且可以將玩家的操作記錄下來作為訓練數據。

Farming 獎勵

在開發 Gym Retro 時，我們發現很多遊戲 Agent 學習 Farm 獎勵（遊戲分數的增加）而不是完成隱藏的任務。

在上面的圖片（查看完整視頻請訪問原網站）中，Cheese Cat-Astrophe（左側）和 Blades of Vengeance（右側）中的角色陷入無限循環，因為它們能夠通過這種方式快速獲得獎勵。這凸顯了我們之前說的情況（https://blog.openai.com/faulty-reward-functions/），我們給強化學習演算法的相對簡單的獎勵函數，例如通過最大化遊戲中的分數，可能導致不良行為。