快訊！柯潔人機大戰首戰落敗深度拆解AlphaGo套路

最新 05-24

AlphaGo到底是怎麼贏的？它的技術有什麼現實意義？年初不是PK過了嗎？怎麼又來？……

智東西文 Lina

智東西5月23日下午，今天，世界圍棋第一人柯潔與谷歌DeepMind旗下的AlphaGo進行了一場長達4個半小時的圍棋對戰，最終柯潔僅以幾目的差距惜敗AlphaGo，這場從上午10點半開始的鏖戰終於告一段落。（頭圖為最終盤面）

這是本次烏鎮圍棋大賽中柯潔對戰AlphaGo三場比賽中的頭一場，柯潔執黑先行。與年初披著「Master」馬甲的連勝60場時不同，這次「柯Go大戰」下的是每方時長3小時的慢棋，而不是每手30秒快棋，對人類有著一定優勢。

理論上本輪比賽將持續3+3=6小時，但最終柯潔幾近耗盡3小時，AlphaGo僅用了1個多小時。比賽後期柯潔頻頻有咬嘴唇、抓頭髮等焦慮的小動作，看得觀眾也不禁緊張起來。在最終只剩十幾分鐘、敗局已定時，柯潔仍堅持下完全局。

（賽事焦灼時的柯潔）

（觀棋室里人山人海，由專業圍棋家進行講解）

AlphaGo是由谷歌旗下DeepMind團隊的戴密斯·哈薩比斯、大衛·席爾瓦、黃士傑等開發的一款人工智慧程序。2016年3月，AlphaGo曾以5:3戰勝韓國棋手李世石，成為第一個擊敗人類職業圍棋選手的電腦程序。2016年12月底，AlphaGo身披「Master」馬甲，5天內橫掃中日韓棋壇，最終以60場連勝紀錄告退。

讀完本文，你可以知道以下問題的答案：

1）年初不是PK過了嗎？怎麼又來？

2）為什麼AI老盯著圍棋不放？

3）AlphaGo到底是怎麼下棋的？（最通俗易懂版本解釋）

4）德撲、圍棋、象棋，下一個被AI入侵的領域是啥？

5）AlphaGo的技術有什麼現實意義？

（10點半開場第一手）

一、說在前面

其實，柯潔與AlphaGo的這場比賽開始前，勝率並不被多少人看好。就連柯潔本人在四月初的發布會上，也用上了「懷有必死的信念，不會輕易言敗」這種情懷悲壯的詞語，昨夜11點半更是在微博發布了一條名為《最後的對決》的賽前感言。

「無論輸贏，這都將是我與人工智慧最後的三盤對局」

「現在的AI進步之快遠超我們的想像。像國產的絕藝、日產的ZEN雖然和AIphago還有著較大差距，但已經表現出超強的實力了…」

「我相信未來是屬於人工智慧的。可它始終都是冷冰冰的機器，與人類相比，我感覺不到它對圍棋的熱情和熱愛……」

如此沉重，如此傷懷，很難想像這是曾經意氣風發的天才少年。去年3月9日李世石1:4落敗AlphaGo時，年僅19歲的他曾在微博放出豪言——「就算阿法狗戰勝了李世石，但它贏不了我」，彼時尚不知柯潔是何方神聖的吃瓜群眾對其一頓群嘲，接著立刻被刷刷刷一溜世界冠軍的履歷反轉打臉的劇情看得人大呼過癮。國內大眾向來是偏愛柯潔的，我們都愛聽傳奇故事，愛看任性的少年天才打破陳規，揚名立萬，如同起點網文一般的人生贏家。

此役戰敗，著實讓人唏噓不已。

二、年初不是PK過了嗎？怎麼又來？

其實，這並不是柯潔與AlphaGo的第一次交手。

2016年12月底，一位身披Master馬甲的神秘棋手突然出現，5天內橫掃中日韓棋壇，包括當時年僅19的三次世界大賽冠軍柯潔九段（今年20歲）、韓國等級分第一朴廷桓九段、中國名人戰冠軍連笑七段等，甚至激起了業內64歲泰斗聶衛平參戰，最終在連勝60場後宣告揭曉真身——就是AlphaGo。

既然已經PK過了，為什麼又要比一次呢？

原來在年底時，Master與各位棋手下的是30秒快棋，對於擁有強大計算能力的電腦來說，優勢非常明顯。而本次柯潔 vs AlphaGo下的是慢棋，有3小時的思考時間，對於人類比較有利。

此外，本次柯潔與AlphaGo下的是「三番棋」，無論輸贏都將下滿三局，下兩輪比賽將分別在本周四（25號）與本周六（27號）的同一時間進行，大賽同時還設有150萬美元獎金。

三、為什麼AI老盯著圍棋不放？

很多人其實都對AlphaGo下棋的套路存在誤會，認為它是程序嘛，那用最簡單（最暴力）的方法——窮舉，自然是最有效的。

也……不是不行。但我們先來算算窮舉一共會出現多少情況。

普林斯頓研究人員曾經做過這樣一個統計項目，對於一個標準的圍棋棋盤而言，一共有19×19=361個位置，每個位置存在黑子、白子、空，3種情況。因此一局棋面理論上有3^361種可能。但根據圍棋規則，不是所有位置都可合法落子，因此在排除掉所有不合法的棋局後，精確的合法棋局數為——

……

你真的想知道嗎？……

深呼吸……

……

208168199381979984699478633344862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935局。

讓一台計算機暴力演算法窮舉……也不是不行，普林斯頓的研究人員這麼試過一遍，使用15TB硬碟空間、8-16核處理器、192GB內存的伺服器將這約等於2.08×10^170局棋全部窮舉出來，大概需要幾個月的時間。按3個月來算的話，如果AlphaGo按照這個配置每下一步棋都將所有情況窮舉一遍，那麼這盤棋下完的時候，今年20歲的柯潔已經是六十多歲的老人家了……

四、AlphaGo到底是怎麼下棋的？（最通俗易懂版本解釋）

當然啦，上文的這個比喻有些偷換概念，而且AlphaGo的配置比這要高出許多。當年和李世石下棋時，AlphaGo配備了1920個CPU加280個GPU，如今經過一年多的軟硬體升級，自然將計算能力武裝到了牙齒。

不過，AlphaGo用的真的不是窮舉，而是一套結合了深度學習(Deep Learning)與增強學習(Reinforcement Learning)的系統。DeepMind團隊在《自然》雜誌上發表的《用深度神經網路和樹搜索掌握圍棋博弈(Mastering the Game of Go with Deep Neural Networks and Tree Search)》論文中詳細介紹了AlphaGo是怎麼下棋的，此處不展開講了，只做一個粗淺的流程介紹：