Science封面重磅:CMU、Facebook聯合打造「賭神」AI,六人德撲擊敗人類
新智元報道
來源:science
編輯:小芹
【新智元導讀】CMU 和 Facebook 聯合打造的史上最強德州撲克 AI 「Pluribus」在六人德州撲克這項複雜遊戲中擊敗了頂級人類玩家。今天,Science雜誌以封面重磅的形式發表了該研究論文,詳細描述了Pluribus的策略。
前不久,一款名叫 「Pluribus」 的 AI 撲克牌機器人在六人無限注德州撲克這項複雜遊戲中,碾壓了人類職業選手!
這是 AI 首次在規模超過兩人的複雜對局中擊敗頂級人類玩家。
「Pluribus」 是CMU 和 Facebook 聯合打造的史上最強德州撲克 AI,重點解決了多人對局環境下的非零和博弈和隱藏信息推理問題,是該領域的一個重大突破。
今天,「Pluribus」的論文更是以封面的形式登上Science雜誌!
來自CMU和Facebook AI的Noam Brown和Tuomas Sandholm教授,在論文中詳細解讀了「Pluribus」的策略。
作者表示,撲克一直是一個具有挑戰性的問題,過去AI在這類基準測試中取得的成功僅限於兩人參與的遊戲。然而,傳統上玩撲克的人不止兩個人。多人撲克是一個公認的AI里程碑。
「Pluribus」AI在六人無限制注德撲中展現了比頂級人類專業玩家更強大的技能。
接下來,新智元帶來這篇論文的解讀,完整論文可點擊文末鏈接查看。
基於MCCFR的「藍圖」策略
三人或三人以上的博弈對博弈論提出了挑戰。對於兩個玩家的零和博弈,存在這樣一種策略,即沒有玩家可以通過切換到不同的策略來提高他們的機會。這種所謂的納什均衡被認為是博弈的一個解。
但對於多人遊戲,期望獎勵可能因納什均衡的不同而有所不同。保證收斂到納什均衡的快速演算法,例如虛擬遺憾最小化演算法(CFR),在多人遊戲中可能失效。儘管如此,CFR在一些多人遊戲領域仍顯示出良好的經驗表現。
Pluribus首先通過自我遊戲(self-play)來學習通用技巧,我們稱之為「藍圖」(blueprint)策略。
然後,在實際遊戲中,它根據遊戲的當前狀態計算一個實時策略來細化blueprint策略。Pluribus程序通過名為Monte Carlo CFR (MCCFR)的CFR變體學習blueprint策略,並進行一些改進。
Pluribus會反覆模擬所有玩家使用相同策略的撲克手牌;在每一手牌之後,它會遞歸地檢查每個決策,並與在相同情況下可能選擇的其他操作相比,評估該決策的預期結果。
為了提高Pluribus中MCCFR演算法的效率,作者在訓練的早期階段引入了linear weighted discounting,並在訓練的後期對negative-regret行為進行策略剪枝。
系統中最複雜的部分是實時策略組件。為了處理不完美信息,Pluribus執行嵌套搜索,維護搜索樹的根節點和每個玩家持有的牌的根節點的概率分布,前提是假設所有玩家使用相同的(已知的)策略。
為了有效評估葉節點,Pluribus考慮了blueprint 策略的四種不同變體。
在Abstraction機制中,Pluribus通過將類似的情況打包在一起,減少了關於是否跟注(call)、加註(raise)或棄牌(fold)的決策點的數量。使用蒙特卡羅虛擬遺憾最小化(MCCFR),將撲克遊戲中樹搜索的複雜性從一個棘手的問題降低到一個可解決的問題。
真實遊戲
Pluribus需要為每個場景提供一個動作(跟注、加註或棄牌)。
抽象遊戲
類似的方案,比如高牌9和高牌10一起。
抽象策略
Pluribus使用MCCFR通過操作將每個bucket映射到一個分布。
真實策略
每個方案都根據其bucket的抽象策略映射到操作上的分布。
對於大型複雜的遊戲,狀態和動作的抽象可以用來抑制搜索樹的增長。這對於完整的六人無限德州撲克遊戲來說是必要的,因為德撲太過複雜而無法直接搜索。
相反,如上面的示意圖所示,Pluribus模擬了一個更簡單的遊戲版本,將類似的決策點組合在一起,並消除了一些操作。
「賭神」AI訓練只需144美元
最後,Pluribus的blueprint策略是在64核伺服器上在8天內計算出來的,總共使用了12400個CPU核心小時,所需內存小於512 GB。按照當前的雲計算費用,這花費了大約144美元。
這與最近其他所有的超級AI里程碑遊戲形成了鮮明的對比,那些AI使用了大量的伺服器和/或GPU集群。更多的內存和計算可以支持更細粒度的blueprint,這將帶來更好的性能,但也會導致Pluribus使用更多內存或在實時搜索變慢。
研究人員將blueprint策略抽象的大小設置為允許Pluribus在一台內存不超過128GB的機器上實時運行,同時在內存中存儲blueprint策略的壓縮形式。
由於無限德州撲克的規模和複雜性,整個遊戲的blueprint 策略必然是粗粒度的。Pluribus只在第一輪投注(四次投注)中根據這個blueprint策略進行操作,其中決策點的數量足夠少,以至於blueprint策略可以不使用信息抽象,並且在操作抽象中進行了很多操作。
在第一輪之後(甚至在第一輪中,如果對手選擇的賭注大小與blueprint action抽象中的大小完全不同),Pluribus將進行實時搜索,以確定針對當前情況的更好、更細粒度的策略。
結論
self play 的形式與搜索的形式相結合,在完全信息的二人零和博弈中取得了許多引人注目的成功。然而,現實世界中的大多數戰略交互都包含隱藏的信息和兩個以上的參與者。這使得這個問題在理論和實踐上都有很大的不同和困難。
為多人德撲開發一個超級AI是該領域的一個公認的里程碑。在本文中,我們描述了Pluribus,一個AI,能夠在六人無限注德州撲克中擊敗人類專業玩家。
Pluribus的成功表明,儘管對多人博弈的性能缺乏已知的強有力的理論保證,但仍存在大規模、複雜的多人博弈不完全信息設置,在這種情況下,精心構造的self play搜索演算法可以生成超越人類的策略。
論文地址:
https://science.sciencemag.org/content/365/6456/885
※CVPR主席朱松純等聯名聲明挺華為:IEEE限制評審參會,我們不!
※16核7納米超級猛獸!AMD發布銳龍 9 3950X處理器,完爆英特爾i9
TAG:新智元 |