世界上最強的德州撲克牌玩家,加入了美國國防部
最近外媒有消息說,五角大樓和一位世界上最強的德州撲克玩家簽訂了一項可能高達上千萬美元的大合同,將可能會幫助美國軍方進行軍事策略的推演。這位玩家在去年和4名頂尖高手大戰了三周,從他們手中贏下了將近180萬美元,平均百手大盲注勝率高達+14.7。
打開今日頭條,查看更多圖片這位實力超群的撲克高手,就是卡內基梅隆大學的人工智慧「冷撲」(Libratus)。
雖然沒有圍棋AI「阿爾法狗」那麼矚目,但是「冷撲」需要解決的問題其實要比圍棋更加複雜。在AI的傳統強勢領域,比如棋類遊戲中,對戰雙方的信息相對是很透明的,所有的形勢都被擺在了棋盤上,每個決策帶來的收益和風險都相對比較明顯。
但是像德州撲克這樣的遊戲,參與者只能看到自己的手牌信息,對手的情況對於AI來說是相對未知的混沌狀態。另外在德州撲克裡面,參賽者有好幾人,每個人對局面都有自己的判斷和下注策略,但是最終的贏家只有一個,讓遊戲的場面更加撲朔迷離。
德州撲克玩家並不知道其他人的手牌
「冷撲」和同時期的AI類似,都是在自我博弈中逐漸成長,但是這個AI使用的演算法哲學有一些獨特的地方。每次對局結束之後,它都會對之前的結果進行「反思」:如果我作出了不同的決策,結果會不會更好?什麼樣的決策可以讓減小這種「當時要是做了不一樣的事情就好了」的遺憾?
這種基於博弈論的演算法在國內通常被稱為「遺憾最小化演算法」。採用深度學習演算法的AI,通常在被某種策略擊敗以後會去學習和模仿這種策略,但「冷撲」的思路則是去分析和研究如何彌補自己的缺陷並反制對手的行動。
在經過不斷的優化以後,這種演算法還是挺有成效的。在2016年,「冷撲」的前身在人類高手面前還不堪一擊,但是一年以後,這個AI已經可以熟練地使用各種陰險的伎倆吊打人類最頂尖的德州撲克大師了。
「冷撲」前身Claudico和「冷撲」的勝率對比
美國五角大樓主要應該就是看重了「冷撲」這種在信息不全面的情況下能夠學習和制定策略的能力。德州撲克裡面常用的各種詐胡和欺瞞的技巧,在戰爭中也很適用,作為軍事策略模擬中的「對手」或者「指導」應該都有一定價值。「冷撲」的團隊將在接下來的兩年里,幫助美軍改進訓練和軍事推演的效率。
在「阿爾法狗」戰勝李世石和柯潔以後,人工智慧在大眾眼中的熱度稍有減退。但其實在過去幾年中,AI的演算法一直在飛快演進。除了「冷撲」以外,伊隆?馬斯克主導的OpenAI在《DOTA2》這種複雜的競技遊戲里也有很亮眼的表現。
OpenAI設陷阱Gank人類以後傳送脫身
AI的發展速度讓挺多人都心懷憂慮。去年穀歌和美國國防部的合作項目「Maven」就因為社會和谷歌內部的反對而被迫終止。但是這種大趨勢看來是很難阻擋的。世界上的一些主要強國,都展現出了將AI和國防結合起來的意願。這究竟是好是壞,恐怕只有AI才會給出最終答案。
※為什麼要說「醫院的負責人是個騙子」?
※歐美遊戲人也不喜歡2018年,但他們組織了遊戲產業工會
TAG:游研社 |