AI變身超級賭神，德撲六人局擊敗世界冠軍！

新聞 07-13

智造觀點

日前，Facebook人工智慧研究和卡內基梅隆大學日前發表在《科學》雜誌上的一篇論文，介紹了Pluribus這款AI撲克機器人，它擊敗了15位撲克專業人士，是第一個在基準遊戲中持續擊敗兩個以上人類玩家的人工智慧。

AI又雙叒叕超神了！

儘管AI在很多1VS1的遊戲中具有相當的優越性，但在複雜的多人遊戲版本紙牌遊戲中，人類還是一直保持著自己的優勢。

直到現在，一個新的AI出現了。

這款名叫Pluribus的AI機器人，在6人德州撲克中碾壓了人類的頂尖高手。

目前正在各大網站刷屏的Facebook人工智慧研究和卡內基梅隆大學日前發表在《科學》雜誌上的論文，介紹了Pluribus創建。這是一款撲克玩家AI，Facebook稱其是第一個擊敗德州撲克（撲克有時用來衡量人工智慧或遊戲理論表現）專業人士的AI。

Pluribus擊敗的15位人類專業人士，都是人類中的頂尖選手，每個人曾經贏得過至少100萬美元的撲克比賽。例如2000年世界撲克錦標賽冠軍克里斯「耶穌」Ferguson和4次世界撲克巡迴賽冠軍達Darren Elias。

對此，最早測試Pluribus的玩家兼它的手下敗將Darren表示，幾周前，Pluribus還是一個牌技平庸的小可憐。「它的主要優勢在於它能夠使用混合策略，這與人類試圖做所的事情是一樣的。而且Pluribus完全隨機的方式執行此操作並始終如一地執行此操作。」

Facebook AI聲稱，Pluribus是第一個在基準遊戲中持續擊敗2個以上人類玩家的人工智慧。

那麼這款AI機器人訓練成本如何？

研究人員表示，Pluribus只需花費150美元的雲計算進行培訓，即可實現其目標。

而且，超過20小時的訓練產生的人工智慧玩家，就可以比人類頂級玩家更好。

Pluribus建立在Libratus的基礎之上。Libratus是卡內基梅隆在2017年製作的AI撲克玩家，曾經歷時20天戰勝了4為德州撲克頂級選手，但是只能1V1。

Pluribus是怎樣練成的？

就像AI被訓練玩Pluribus之前的Go、Dota II和星際爭霸II等遊戲一樣，AI可以通過與自己比賽進行訓練。

「Pluribus戰略的核心是通過自我遊戲來計算的，在這個過程中，AI與其自身的副本進行比賽，而沒有任何人類或先前AI遊戲的數據用作輸入。」論文寫道，「人工智慧從零開始，隨機地玩遊戲，然後隨著它決定了哪些行為，以及這些行為的概率分布，逐漸地改進，與早期版本的策略相比，會產生更好的結果。」

在研究人員的測試中，Pluribus贏得了5場人類和1場AI比賽，以及5場AI和1場人類比賽。Facebook AI表示，如果每個晶元價值1美元，那麼Pluribus每手的收益大約為5美元，每小時與5個人玩遊戲的收益大約為1000美元。

「根據具體情況，它考慮的具體下注數量在1到14之間不等。」《科學》雜誌寫道：「雖然多人可以將自己的賭注限制在100美元到10000美元之間，但實際上玩無限制撲克時，對手並不局限於這幾個選項中的一個。」

在這裡必須說明，實驗設置並不完全反映普通的6人撲克遊戲。與真實遊戲不同，籌碼數量並不是一個持續的總數：對於每一手牌，每個玩家都會獲得10000個籌碼，無論輸贏，他們也會在下一手牌中獲得10000個籌碼。

Facebook人工智慧研究科學家NoamBrown說，顯然這限制了長期戰略的可能，事實上「機器人並沒有在對手身上尋找可以利用的弱點」。

但僅僅因為它不是基於對對手個人習慣或風格的長期觀察，並不意味著它的策略是膚淺的。相反，它可以說更令人印象深刻，並從另一個角度來看待遊戲，即存在一種不依賴行為暗示或利用個人弱點的獲勝策略。

在撲克中擊敗人類只是一個開始，作為一名優秀的選手，Pluribus更重要的是一個AI代理可以在像6人撲克這樣複雜的東西上實現超人表現的示範。

「許多現實世界的互動，如金融市場、拍賣和交通導航，可以類似地建模為多代理互動。」Facebook在其博客中寫道。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 人工智慧觀察 的精彩文章: