人工智慧技術在棋牌中的應用「Pluribus」及其現實意義

科技 07-28

AI在棋牌類遊戲的應用，將促進博弈決策的研究，以棋牌類AI應用為基礎的相關AI博弈工具，在經濟金融領域的風險預測、軍事領域的戰局預測等方向有著廣泛的應用前景。

半個多世紀以來，棋牌類遊戲一直是人工智慧（AI）發展創新的舞台。利用AI在被視作智力遊戲的棋牌中打敗人類，也一直是AI研究所追求的目標。從1997年IBM的超級電腦「深藍」擊敗國際象棋世界冠軍卡斯帕羅夫，到2016年谷歌開發的AI機器人AlphaGo戰勝圍棋世界冠軍李世石，AI在棋牌類比賽中屢獲突破。2019年7月，卡耐基梅隆大學與Facebook公司共同開發的AI機器人「Pluribus」，在無限制德州撲克6人對決比賽中戰勝5名專家級人類玩家，AI在德州撲克戰場再下一城。

Pluribus概況

Pluribus與人類的比賽分為兩種模式：1個AI與5個人類玩家和5個AI與1個人類玩家，Pluribus在這兩種模式中都取得了勝利。而為了戰勝人類，Pluribus在策略、演算法和能耗上進行了多次優化。

Pluribus研發的核心策略是運用改進版本的蒙特卡洛遺憾最小化演算法（Monte Carlo Counter factual Regret Minimization，MCCFR），通過自我博弈的方式學習。Pluribus首先隨機地選擇玩法，通過蠻力計算得到收斂的結果，並對這些行動擬合概率分布，使得其實力在不斷自我博弈中逐步變強。在整個學習過程中，AI機器人和自己進行對戰，不使用任何人類遊戲數據作為輸入。

演算法上，為了解決6名玩家的額外複雜性，Pluribus整合了新的在線搜索演算法，使AI能夠在遊戲中向前預測並決定下一步該做什麼，這種機制被稱為搜索功能。以往的棋牌類演算法的每一步決策都需要計算到遊戲結束，而在線搜索演算法只需搜索前面的幾步即可。此外，Pluribus還利用了速度更快的新型self-play非完美信息遊戲演算法。基於上述兩種演算法，使得憑藉極少的處理能力和內存來訓練Pluribus成為可能。

能耗上，研究人員使用一個64核的伺服器，利用不大於512GB的內存，在8天時間裡完成了Pluribus的自我博弈訓練，其成本大約為150美元，同其他自我對弈的AI研究相比，成本極低。而且演算法上的進步，讓研究人員可憑藉較少的資源消耗實現極大的性能提升。

撲克AI和其他棋牌類AI的對比

撲克AI與棋類AI的基本原理相同，都採用蒙特卡洛搜索樹演算法作為基本演算法，不依賴人類所提供的策略，在不斷迭代的過程中實現自我學習。不同的是，棋類遊戲中的棋子都展現在棋盤上，結果種類有限，所有的結果都是可推算的，這種情況被稱為「完美信息博弈」；牌類遊戲中無法知道對手的底牌，含有隱藏信息，結果可能是多樣的，導致其計算難度和計算量大大增加，被稱為「不完美信息博弈」。

棋類AI

棋類遊戲包括西洋雙陸棋、國際象棋、圍棋等，比賽中所有的信息和決策公開，並且遊戲對於玩家來說只有贏或輸兩種可能的結果，從某種意義上說，這使得訓練AI變得更容易。棋類在理論上可通過計算機模擬出每一種可能的情況，從而進行完美信息動態博弈。這類完美信息博弈中AI機器人往往使用實時搜索。例如，當模型在決定下一步該如何走時，國際象棋AI通常會考慮以後的一些移動步驟，直到演算法的前瞻到達深度上限。而圍棋的棋盤變化可能性比可觀測宇宙範圍的原子總數還多，因此圍棋AI主要通過深度學習技術訓練用於判斷結果輸贏概率的價值網路，來增強AI對弈能力。

麻將AI

麻將AI的策略需要更多地增加得點的期望值，盡量增大和大牌的可能性，同時盡量避免對手的大牌點炮，這一打牌策略顯然是有最優解的。為了有更大的可能性和大牌，AI需要通過手牌和棄牌池裡的牌，計算進張（摸到有效牌）和鳴牌（吃、碰、杠）使手牌有進展的概率，進而計算和牌得分的期望值。目前最強的麻將AI機器人是日本東京大學開發的「暴打」。

撲克AI

以德州撲克為例，由於在遊戲中，玩家無法獲取已發生事件的全部信息（如對手的底牌等），因此這個遊戲屬於「不完美信息」（Imperfect Information）類遊戲。德州撲克一直是人工智慧領域最難以攻克的重大問題之一，因為和棋類遊戲不同，撲克AI必須推理隱藏的信息，並慎重平衡自己策略。同時，相比棋類比賽，在撲克遊戲中需要使用Bluff（嚇唬）等更多遊戲策略。

在Pluribus之前，AI機器人曾在兩個參與者的完美信息零和博弈中取得了多次引人注目的成功，但大多數真實世界中的策略交互都涉及隱藏信息，且並非兩個參與者的零和博弈。Pluribus的成功表明，在複雜的多參與者場景中，基於自我博弈和搜索演算法的AI能夠獲得很好的效果。

AI棋牌應用的現實意義

Pluribus提出了在大型狀態空間、隱藏信息中有效地解決博弈論推理挑戰的方法，所開發出的技術很大程度上獨立於撲克領域，可用於大量不完美信息博弈。Pluribus處理的諸多問題，與真實世界中的通用問題相對應，「不知道對手的牌」對應現實中的「不完整信息」，「下注策略和由此帶來的結果」對應現實中的「風險管理」，「確認對手的模式，並進行利用」對應現實中的「智能體建模」，「Bluffing(撲克中的恐嚇技巧)」對應現實中的「欺騙」，「處理對手欺騙的牌」對應現實中的「不可靠信息」。

事實上，棋牌類遊戲的本質是競爭和對抗，由遊戲規則定義其目標（評價標準），玩家使用各種策略達成目標，其中涉及數量可觀的博弈過程。AI在棋牌類遊戲的應用，將促進博弈決策的研究。以棋牌類AI應用為基礎的相關AI博弈工具，在經濟金融領域的風險預測、軍事領域的戰局預測等方向有著廣泛的應用前景。

在經濟金融領域，不論對經濟發展的總體趨勢預測，還是銀行、保險、股市等細分行業的風險模型建立，都需要依靠大量「不完美信息」來決策。AI博弈工具可通過處理不完美信息來獲得最佳決策。政府可利用AI博弈工具對社會行業的未來趨勢進行預測，判斷供需關係，合理有序引導行業健康發展。銀行、保險公司可利用AI工具判斷短期行業走勢，高效評估企業風險，以決定是否達成交易。

在軍事領域，具有自主學習功能的AI博弈工具與兵棋推演相結合，將爆發出極強的戰鬥力，幫助軍隊獲取制勝先機。從上個世紀70年代初開始，美國陸軍就按照「全自動兵棋」概念建立起「地面作戰模擬系統」。20世紀90年代初，美軍在海灣戰爭爆發前就使用兵棋遊戲對整個戰爭進行了推演，而戰爭的過程幾乎和美軍事前的推演如出一轍。隨著技術的進步，演算法不斷成熟使得算力需求進一步降低，同時計算技術朝著系統微型化和處理高速化方向發展，具備超強自主學習和計算能力的AI系統與兵器推演等作戰模擬系統相結合，將提升對戰局的預測和把控。未來，AI系統將有希望直接與戰場指揮系統對接，其快速戰局推演能力、高效制定作戰方案的能力，將主導戰爭的勝負走向。

研究所簡介

國際技術經濟研究所（IITE）成立於1985年11月，是隸屬於國務院發展研究中心的非營利性研究機構，主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題，跟蹤和分析世界科技、經濟發展態勢，為中央和有關部委提供決策諮詢服務。「全球技術地圖」為國際技術經濟研究所官方微信賬號，致力於向公眾傳遞前沿技術資訊和科技創新洞見。

地址：北京市海淀區小南庄20號樓A座

電話：010-82635522

微信：iite_er

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全球技術地圖 的精彩文章:

※發展監管科技迫在眉睫
※朝鮮向東海方向發射兩枚短程導彈

TAG:全球技術地圖 |