當前位置:
首頁 > 知識 > OpenAI 發布完整版遊戲強化學習研究平台 Gym Retro

OpenAI 發布完整版遊戲強化學習研究平台 Gym Retro

本文發佈於 OpenAI 官方博客,AI 研習社將原文編譯如下:

我們發布了用於遊戲研究的強化學習平台完整版 Gym Retro,支持的遊戲從大約 70 多個雅達利和 30 多個世嘉遊戲擴展到各種模擬器支持的 1000 多個遊戲。同時我們還發布了用於增加新遊戲的工具。

我們使用 Gym Retro 來研究增強學習演算法和泛化。RL 之前的研究主要集中在優化 Agent 解決單個任務上。通過 Gym Retro,我們可以研究內部概念相似但外觀表現不同的遊戲之間泛化的能力。

此版本包括世嘉創世紀和世嘉 Master System 的遊戲,以及任天堂的 NES,SNES 和 Game Boy 的遊戲。Gym Retro 還包括對世嘉 Game Gear,任天堂Game Boy Color,任天堂 Game Boy Advance 和 NEC TurboGrafx 的初步支持。一些已發布的遊戲集成(包括 Gym Retro 的數據/實驗文件夾中的那些遊戲)處於測試狀態 - 請您嘗試一下並讓我們知道是否遇到任何 bug。由於涉及到大規模的變更,所以代碼暫時只能在部分 branch 上可用。為了避免破壞參賽者的代碼,在比賽結束之前,我們不會合併 branch(https://github.com/openai/retro/tree/develop)。

正在進行的Retro 比賽和我們近期的技術報告(https://arxiv.org/abs/1804.03720)專註於在同一遊戲不同級別之間進行泛化的比較簡單的問題。完整的 Gym Retro 數據集推進了這一想法,並使研究不同遊戲之間的泛化難題成為可能。不過,數據集的規模和個人遊戲的難度使其成為一項艱巨的挑戰,我們期待著分享明年的研究進展。我們也希望由 Retro 競賽參與者開發的一些解決方案可以擴展並應用於完整的 Gym Retro 數據集上。

集成工具

我們發布了用於整合新遊戲的工具,如果您擁有遊戲的 ROM,此工具可讓您輕鬆保存狀態、查找內存位置以及設計強化學習 Agent 能夠解決的場景問題。我們為想要添加新遊戲的開發者寫了份使用指南。

新工具還支持錄製和播放視頻文件功能,用來記錄遊戲中所有的按鍵輸入。這些文件很小,因為它們只需記錄按鍵的初始狀態和按鍵的順序,而不用逐幀記錄。這些文件可以讓強化學習 Agent 的行為可視,並且可以將玩家的操作記錄下來作為訓練數據。


Farming 獎勵

在開發 Gym Retro 時,我們發現很多遊戲 Agent 學習 Farm 獎勵(遊戲分數的增加)而不是完成隱藏的任務。

在上面的圖片(查看完整視頻請訪問原網站)中,Cheese Cat-Astrophe(左側)和 Blades of Vengeance(右側)中的角色陷入無限循環,因為它們能夠通過這種方式快速獲得獎勵。這凸顯了我們之前說的情況(https://blog.openai.com/faulty-reward-functions/),我們給強化學習演算法的相對簡單的獎勵函數,例如通過最大化遊戲中的分數,可能導致不良行為。

對於密集(頻繁和增量)獎勵的遊戲來說,主要的困難來自需要快速反應時間的情況,這要求 PPO 等強化學習演算法表現得非常好。

在像沙羅曼蛇這樣的遊戲中(右圖),角色可以通過射殺敵人得分,所以獲得獎勵和開始學習很容易。在這樣的遊戲中生存是基於你躲避敵人的能力,這對強化學習演算法來說沒有問題,因為強化學習演算法可以逐幀地分析遊戲。

對於有稀疏獎勵或節奏比較慢的遊戲,現有的演算法很難分析。Gym Retro 數據集中的許多遊戲都有稀疏的獎勵或需要規劃策略,因此處理完整數據集可能需要尚未開發的新技術。

Gym Retro Github:

https://github.com/openai/retro

https://blog.openai.com/gym-retro/

從Python入門-如何成為AI工程師

BAT資深演算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer,學完即推薦就業

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

OpenAI 啟動遷移學習比賽,一起來玩刺蝟索尼克遊戲吧


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

累計設計 10 億次海報,阿里 AI 設計師「魯班」核心技術詳解
Github 代碼實踐:Pytorch 實現的語義分割器

TAG:AI研習社 |