AI變身超級賭神,德撲六人局擊敗世界冠軍!
智造觀點
日前,Facebook人工智慧研究和卡內基梅隆大學日前發表在《科學》雜誌上的一篇論文,介紹了Pluribus這款AI撲克機器人,它擊敗了15位撲克專業人士,是第一個在基準遊戲中持續擊敗兩個以上人類玩家的人工智慧。
AI又雙叒叕超神了!
儘管AI在很多1VS1的遊戲中具有相當的優越性,但在複雜的多人遊戲版本紙牌遊戲中,人類還是一直保持著自己的優勢。
直到現在,一個新的AI出現了。
這款名叫Pluribus的AI機器人,在6人德州撲克中碾壓了人類的頂尖高手。
目前正在各大網站刷屏的Facebook人工智慧研究和卡內基梅隆大學日前發表在《科學》雜誌上的論文,介紹了Pluribus創建。這是一款撲克玩家AI,Facebook稱其是第一個擊敗德州撲克(撲克有時用來衡量人工智慧或遊戲理論表現)專業人士的AI。
Pluribus擊敗的15位人類專業人士,都是人類中的頂尖選手,每個人曾經贏得過至少100萬美元的撲克比賽。例如2000年世界撲克錦標賽冠軍克里斯「耶穌」Ferguson和4次世界撲克巡迴賽冠軍達Darren Elias。
對此,最早測試Pluribus的玩家兼它的手下敗將Darren表示,幾周前,Pluribus還是一個牌技平庸的小可憐。「它的主要優勢在於它能夠使用混合策略,這與人類試圖做所的事情是一樣的。而且Pluribus完全隨機的方式執行此操作並始終如一地執行此操作。」
Facebook AI聲稱,Pluribus是第一個在基準遊戲中持續擊敗2個以上人類玩家的人工智慧。
那麼這款AI機器人訓練成本如何?
研究人員表示,Pluribus只需花費150美元的雲計算進行培訓,即可實現其目標。
而且,超過20小時的訓練產生的人工智慧玩家,就可以比人類頂級玩家更好。
Pluribus建立在Libratus的基礎之上。Libratus是卡內基梅隆在2017年製作的AI撲克玩家,曾經歷時20天戰勝了4為德州撲克頂級選手,但是只能1V1。
Pluribus是怎樣練成的?
就像AI被訓練玩Pluribus之前的Go、Dota II和星際爭霸II等遊戲一樣,AI可以通過與自己比賽進行訓練。
「Pluribus戰略的核心是通過自我遊戲來計算的,在這個過程中,AI與其自身的副本進行比賽,而沒有任何人類或先前AI遊戲的數據用作輸入。」論文寫道,「人工智慧從零開始,隨機地玩遊戲,然後隨著它決定了哪些行為,以及這些行為的概率分布,逐漸地改進,與早期版本的策略相比,會產生更好的結果。」
在研究人員的測試中,Pluribus贏得了5場人類和1場AI比賽,以及5場AI和1場人類比賽。Facebook AI表示,如果每個晶元價值1美元,那麼Pluribus每手的收益大約為5美元,每小時與5個人玩遊戲的收益大約為1000美元。
「根據具體情況,它考慮的具體下注數量在1到14之間不等。」《科學》雜誌寫道:「雖然多人可以將自己的賭注限制在100美元到10000美元之間,但實際上玩無限制撲克時,對手並不局限於這幾個選項中的一個。」
在這裡必須說明,實驗設置並不完全反映普通的6人撲克遊戲。與真實遊戲不同,籌碼數量並不是一個持續的總數:對於每一手牌,每個玩家都會獲得10000個籌碼,無論輸贏,他們也會在下一手牌中獲得10000個籌碼。
Facebook人工智慧研究科學家NoamBrown說,顯然這限制了長期戰略的可能,事實上「機器人並沒有在對手身上尋找可以利用的弱點」。
但僅僅因為它不是基於對對手個人習慣或風格的長期觀察,並不意味著它的策略是膚淺的。相反,它可以說更令人印象深刻,並從另一個角度來看待遊戲,即存在一種不依賴行為暗示或利用個人弱點的獲勝策略。
在撲克中擊敗人類只是一個開始,作為一名優秀的選手,Pluribus更重要的是一個AI代理可以在像6人撲克這樣複雜的東西上實現超人表現的示範。
「許多現實世界的互動,如金融市場、拍賣和交通導航,可以類似地建模為多代理互動。」Facebook在其博客中寫道。
※從2億美元估值到被蘋果收購,曾經的明星無人車公司Drive.ai黯然退場
※背了單詞再也不怕忘,多鄰國的AI要逆天!
TAG:人工智慧觀察 |