從雀聖到股神，微軟只差「最後一英里」

科技 08-30

創造出最強麻將 AI 的微軟亞研院團隊，竟然沒有一個真正的麻將高手。

2019 年 8 月 29 日，微軟全球執行副總裁沈向洋在世界人工智慧大會的主論壇上宣布，微軟亞洲研究院（以下簡稱亞研院）創造出了世界上最強的麻將 AI，Suphx（超級鳳凰）。

今年 6 月，Suphx 成為首個在國際知名的專業麻將平台「天鳳」上榮升十段的 AI 系統。沈向洋表示，這是目前 AI 系統在麻將領域取得的最好成績，其實力已經超過了該平台公開房間頂級人類選手的平均水平。

沈向洋在 WAIC 主會場演講 | WAIC

「天鳳」是一家創辦於 2006 年的在線麻將對戰平台，規則完善，且有著專業的段位升級系統。目前平台上在全球範圍內已有近 33 萬名麻將玩家，其中有很多專業選手。「天鳳」對戰平台分為「特上房」和「鳳凰房」兩種競技房間。前者對四段以上所有玩家免費開放，最高段位為十段，後者則僅對七段以上的人類付費玩家開放，最高段位為十一段「天鳳位」，但該房間目前暫不允許 AI 參與。自 2006 年平台上線以來，達到十段的選手約有 180 位，現役僅有十幾位。而在「鳳凰房」，達到四人麻將「天鳳位」的高手僅有 13 人。

自從今年 3 月登陸日本「天鳳」麻將平台以來，Suphx 已經在公開房間「特上房」與人類選手進行了超過 5000 場對戰。除此以外，據亞研院副院長劉鐵岩表示，自 2017 年年中亞研院啟動這一項目以來，Suphx 已經完成了約 2000 萬場自我博弈。

雖然目前 Suphx 還不曾與天鳳位的選手對戰過，但很多天鳳位的高手已經在關注 Suphx 在特上房的比賽，其中號稱天鳳位第一人的朝倉康心在社交媒體上表示，他認為 Suphx 可能比他還要強大。

天鳳平台「特上房」穩定段位對比 | 亞研院博客

遊戲 AI 的下一步

自從 2016 年 AlphaGo 擊敗李世乭以來，人工智慧在遊戲領域的應用就一直飽受關注，且隨著科技巨頭們對人工智慧的不斷加碼，越來越多的棋類遊戲和電子競技遊戲成為了 AI 能力的試驗田。

根據遊戲信息暴露的程度，AI 研究者大多把遊戲分為兩大類，一是完美信息遊戲（Perfect-Information Games），即所有遊戲參與者都能隨時訪問所有關於遊戲（以及對手）的狀態和可能延續的信息；二是不完美信息遊戲（Imperfect-Information Games），即遊戲參與者不能掌握所有信息，且各個對局者所掌握的信息不對稱。

完美信息遊戲的典型代表有雙陸棋、國際跳棋、國際象棋和圍棋等，其中複雜程度最高的是圍棋。2017 年 AlphaGo 兩次迭代後的版本 AlphaZero 通過深度強化學習成功解決了包括圍棋在內的多個完美信息遊戲。在此之後學術界研究的熱點開始轉向不完美信息遊戲和多人對戰的電競遊戲。

圍棋、德州撲克、橋牌和麻將的信息集數目和信息集平均大小對比 | 亞研院博客

撲克、麻將、橋牌，還有包括星際爭霸 2 和 Dota2 等地圖不完全公開的電子遊戲，都屬於不完美信息遊戲。2017 年到 2019 年，卡內基梅隆大學（CMU）發布的 Libratus 和與 Facebook AI 合作發布的 Pluribus 分別擊敗了兩人無限注德州撲克和六人不限注撲克的人類頂級玩家，由此正式開啟了 AI 學界對不完美信息遊戲的征程。

與此同時，包括開發了 AlphaGo 的 DeepMind，埃隆·馬斯克參與創辦的 OpenAI，Facebook 人工智慧實驗室 FAIR 以及國內的騰訊 AI Labs 都開始對星際爭霸 2、Dota2、王者榮耀等 RTS 和 MOBA 類電子遊戲進行遊戲 AI 的開發。其中 DeepMind 聯合暴雪開發的星際爭霸 2 遊戲 AI AlphaStar 在 2019 年 1 月戰勝了頂尖的人類玩家，OpenAI Five 也在 2019 年 4 月戰勝了 Dota2 剛剛蟬聯世界冠軍的戰隊 OG 俱樂部。

AlphaStar | 亞研院博客

2017 年 4 月，國際智力運動聯盟宣布，競技麻將成為繼圍棋、象棋、國際象棋、橋牌和國際跳棋之後的第六項國際正式智力運動項目。因為麻將本身對比其他棋類遊戲在隱藏信息和難度上給 AI 研究帶來的挑戰，麻將 AI 的開發也一直是遊戲 AI 領域較難攻克的一個領域。

麻將的特殊性

微軟本身是一家全球頂級的遊戲公司，旗下也有著《帝國時代》等經典即時戰略類遊戲，但這次亞研院卻選擇了更為傳統的全民類棋牌遊戲麻將。對於這次亞研院對遊戲的選擇，劉鐵岩對極客公園表示，亞研院對其他電子遊戲也有關注，但在內部，他們玩笑稱「即時戰略類遊戲更『遊戲』，而棋牌類遊戲更『AI』」，意思是即時戰略類電子遊戲對選手有著控制鍵鼠等設備的「遊戲感」要求，受到手速、反應速度等方面的影響，「當我們把一些不必要的人和機器的差別抹掉，體現出的更多是智慧、智能的作用」。因此亞研院選擇在棋牌類遊戲里尋求 AI 上的突破。

Suphx 大三元胡牌 | 亞研院博客

而在棋牌類遊戲里，麻將也有著一些特殊性。

首先，麻將對戰中存在著巨大的狀態空間。136 張麻將牌的排列組合可能性遠遠高於 52 張的德州撲克，且在同一個玩家兩次出牌之間，夾雜了其他 3 個玩家的出牌和自己摸的底牌，可能出現的不同局面數目非常巨大。更大的變數是，在麻將中，4 位玩家的出牌順序是不固定的，任意一位玩家的「吃碰杠」都可能使出牌順序突然改變，導致遊戲樹不規則且動態變化。這些特點使麻將很難直接利用 AlphaGo 等棋盤遊戲 AI 常用的蒙特卡洛樹搜索演算法。

其次，在不完美信息的棋牌遊戲中，麻將玩家只能看到手上 13 張手牌和之前已經打出來的牌，因此最多會有超過 120 張未知牌。一方面，由於隨機性太大，玩家即便在出牌決策中能估測出對方玩家手牌、底牌等不可見的牌，也無法避免不確定性對於遊戲走向的影響。這給 AI 模型的訓練帶來很大挑戰：AI 模型很難發現已知牌面信息和最優打法之間的邏輯鏈路。另一方面，豐富的隱藏信息導致遊戲樹的寬度非常大，對樹搜索演算法的可行性提出了進一步的挑戰。

最後，麻將有著複雜的獎勵機制。日本麻將的規則是「無役不能和牌」，多樣的特殊牌面構成了複雜的「役種」和番數計算規則。一輪遊戲共包含 8 局，單局得分與役種和番數相關，最後根據 8 局的得分總和進行排名，來形成最終影響段位的點數獎懲。因此有時麻將高手會策略性輸牌，例如，在第 8 輪時如果 A 玩家已經大比分領先第二名，他可能會故意放炮給排名第四的玩家，來防止總分被排名第二的玩家反超，保證自己在最終結算時獲得最大的點數獎勵。這為構建高超的麻將 AI 策略帶來了額外的挑戰，AI 需要審時度勢，把握進攻與防守的時機。

「面對麻將遊戲的巨大挑戰，AI 僅靠強大的計算力無法從根本上解決問題，而需要更強的直覺、預測、推理和模糊決策能力。」劉鐵岩說道，從棋牌類角度來說，麻將在可觀測以及不可觀測兩個方面都有著很大的難度，亞研院作為一家研究機構，攻克這一問題也便成了順理成章的選擇。

AI 的「大局意識」

針對麻將在遊戲 AI 領域的這幾個難點，亞研院針對性地在強化學習的基礎上嘗試了一些新的演算法，從而保證 Suphx 在對戰中能夠對遊戲有更全面的掌握，從而在多局遊戲中做出策略性的決策。

麻將遊戲的挑戰以及 Suphx 的核心技術 | 亞研院博客

首先，針對麻將巨大的狀態空間，亞研院的研究團隊在演算法中引入了對探索過程多樣性進行動態調控的機制，這使得 Suphx 能夠比傳統演算法更充分地試探牌局狀態的不同可能。另一方面，一旦某一輪的底牌給定，其狀態子空間會大幅縮小；所以研究團隊讓 Suphx 在推理階段根據本輪的牌局來動態調整策略，對縮小了的狀態子空間進行更有針對性的探索，進而更好地根據本輪牌局的演進做出自適應決策。

其次，針對不完美信息遊戲的挑戰，Suphx 提出了名為「先知教練」的技術以提升強化學習的效果。其基本思想是利用 AI 不可見的信息，對模型進行引導，不斷地訓練促使其越來越熟悉不可見的信息，從機器的角度理解已有信息，從中找到決策依據。

另外，對於麻將複雜的牌面表達和計分機制，研究團隊還利用全盤預測技術搭建起每輪比賽和 8 輪過後的終盤結果之間的橋樑。通過設計，這一預測器可以理解每輪比賽對終盤的不同貢獻，從而將終盤的獎勵信號分配回每一輪比賽之中，以便對自我對戰的過程進行更加直接而有效的指導，並使得 Suphx 可以學會一些掌控全局的高級技巧。

基於上面這三種特別的演算法，Suphx 在進入「天鳳」平台後快速地在與人類選手的對戰中掌握了獨特的策略，有不少玩家表示，「天鳳」的玩法與人類有很大的不同，甚至有天鳳位的選手表示自己看了幾百場 Suphx 的比賽，學了很多新技術，對他個人的打法有很大幫助。

不過有趣的是，據劉鐵岩介紹，Suphx 背後的研究團隊並沒有麻將高手，最擅長麻將的研究員在「天鳳」平台上「可能都打不到一段」。

還差「最後一英里」

可是如此投入精力做出的遊戲 AI 究竟有什麼用？麻將僅僅四人的對弈，牌數也是數量明確且有限的，在這樣的環境里訓練出的模型和系統，是否能在複雜度遠遠高於遊戲的真實世界裡應用？

面對這一問題，劉鐵岩說道：「在做基礎科學研究的時候，首先我們希望能在一個相對可控的環境里淬鍊技術，當我們找到最好的技術後，去落地的時候，還有所謂的『最後一英里的創新』（last mile innovation）。」

目前，Suphx 相關研究帶來的技術創新還沒有全部應用到實際落地場景中，但已經有了部分應用。亞研院與華夏基金、太平資產等金融機構一起做了一些「很大膽」的實盤投資實驗，涉及資金上億人民幣，「取得了非常好的效果，在業界遙遙領先」，其中就使用了自適應決策的技術。劉鐵岩解釋說，通過歷史的金融交易數據離線訓練出的 AI 模型，在今天的市場上有很多變數，包括經濟走勢、國家政策和世界範圍內互動模式的差異等等，因此動態適應今天的場景就非常重要。「這與 Suphx 里的自適應決策是一脈相承的」。

在 Suphx 的開發和研究中，最有價值的部分就是以上介紹的，基於麻將特性，研究團隊在深度強化學習基礎上做出的改進（自適應決策、先知教練和全盤獎勵的預測機制）。現階段，深度強化學習是業界最為有效的一種機器學習方法，但它在具體解決一些複雜問題的時候還需要進一步改進，而 Suphx 就是這樣一種探索。半年來，Suphx 在與人類選手的對戰中不斷改進，背後的數據對團隊的演算法研究有很大的幫助。劉鐵岩表示，不久後，亞研院會以論文的方式分享相關的技術細節。

最後，至於 Suphx 是否會在未來登陸中國麻將平台，劉鐵岩表示，「作為一個研究單位，我們對一切都是開放的。因為我們使用的是機器學習的技術，它對遊戲的規則（中國麻將規則與日本麻將有差別）沒有那麼敏感，只要有明確的規則體系在，就會有解決辦法。」

責任編輯：克里斯

題圖來源：視覺中國