為什麼柯潔一局都贏不了｜大象公會

知識 05-24

「這是柯潔一人的不幸，世人之萬幸。」

文｜李李南戈

5 月 23 至 27 日，曾戰勝圍棋世界冠軍李世石的谷歌人工智慧 AlphaGo，在浙江烏鎮挑戰目前世界排名第一的人類棋手柯潔九段。

今天下午，柯潔首戰告負，輸四分之一子。

在人類棋手之間，這種結果說明雙方棋藝基本旗鼓相當。所以有人據此認為，柯潔只是惜敗。

事實上，柯潔遠非惜敗，而是 AlphaGo 完全掌控了棋局，在確保勝利的同時，不冒無謂的風險。

在這場人機大戰開賽前，前谷歌大中華區總裁李開復就公開表示：柯潔必敗毫無懸念。

不僅科技界人士這麼認為，概率也顯示柯潔幾無勝算。根據國際職業圍棋 Elo 等級分制度排名，可算出 AlphaGo 每盤的獲勝概率為 99.37% 。說這是一場起重機與舉重選手的比賽並不為過。

▍

2016

年

月

日

，AlphaGo

超越柯潔成為

Elo

排名第一（左側排名），

之後不久就被柯潔反超（右側排名）。

2017 年 2 月初，Go Ratings 網站刪除了 AlphaGo、DeepZenGo 等圍棋人工智慧在該網站上的所有信息，目前世界排名第一的柯潔 Elo 3620

/ 數據來自：gorating.org

▍

AlphaGo 開發團隊主管 David Silver 使用 Elo 演算法評估 AlphaGo 的 Elo 為 4500。對陣柯潔，

AlphaGo 的勝率 P(A) = 1/(1+10^((3620-4500)/400))

/ 圖片來自：Advanced Study Room

從擊敗樊麾二段（Elo 3000 左右），到擊敗李世石九段（Elo 3500 左右），AlphaGo 只用了五個月。相比之下，從 Elo 3300 到 3600，天才棋手柯潔走了將近五年。

▍

柯潔的 Elo 上升路徑

圖片來自

goratings.org

2016 年底，AlphaGo 化名「Master」橫掃圍棋網戰平台時，即已強大到讓柯潔感嘆「人類幾千年來總結的棋譜都是錯的」。

AlphaGo 為什麼這麼厲害？它到底是怎麼下棋的？人類頂尖圍棋高手在人工智慧面前的集體潰敗，意味著什麼？

寡不敵眾的世界冠軍

早在 20 世紀 50 年代，計算機科學家就開始研究讓人工智慧與人類下棋了。棋盤遊戲是人類智力的博弈，如果能達到頂尖棋手的水平、甚至超過他們，便可證明人工智慧變得更聰明、更有靈活性。

人類下棋，是經驗、理性與靈感的結合。

昭和棋聖吳清源就將決定圍棋勝負的三個要素歸納為：實力、氣力和運氣。

以此標準，人工智慧「先天不足」，只有理性，靠什麼與人對弈？

一言以蔽之：搜索。

早在 1952 年，人工智慧就通過窮舉所有可能性的」暴力搜索「，在井字棋這樣的小型棋類遊戲中戰無不勝。

▍

在谷歌搜索框中輸入「tic-tac-toe」，就能跟電腦下井字棋

/ 圖片來源：theverge.com

下面這幅樹狀圖，展示了井字棋遊戲中可能出現的部分棋盤情況。

人工智慧要做的，就是沿著這棵「遊戲樹」一步步往下搜索，在所有可能出現的棋盤局面中，根據最有利於己方的終局結果，向前回溯至當前節點，決定下一步應該怎麼走。

但對棋盤更大、可能性更多的遊戲，暴力搜索就行不通了，因為棋局的可能性遠超人工智慧的運算能力，純靠搜索不可能下贏頂尖棋手。

國際象棋和圍棋一度被認為是「人類智慧的最後堡壘」，原因就在於此。

▍

國際象棋的棋盤為 8x8 的網格，在對陣雙方各走三步以後，可能出現的棋局就超過九百萬種

要在這類遊戲中戰勝人類，人工智慧必須在暴力搜索的基礎上優化改進。

取得突破的是 1997 年 IBM 開發的人工智慧深藍，它戰勝了國際象棋世界冠軍卡斯帕羅夫。這是歷史上人工智慧首次在正式比賽中，下贏國際象棋頂尖棋手。

相較用於井字棋的暴力搜索，深藍的改進主要在兩個方面：

一，優先搜索勝率最大的棋局，以便能預測更多步以後的棋盤情況；二，即便如此，也無法像井字棋那樣搜索到最終局，這時就要評估當前棋局做出評估，判斷下一步怎麼走，未來勝率更大。

不論是搜索還是評估，深藍的演算法都包含了大量的人類智慧。深藍僅評估演算法就有 8000 多個部分，很多是為特定棋局專門設計的。為完善演算法，提高勝率，IBM 還專門請來包括國際象棋特級大師喬爾·本傑明在內的多位頂尖棋手做參謀。

因此，與其說深藍戰勝了人類，不如說超級計算機+科學家+一群頂尖棋手，戰勝了一個卡斯帕羅夫。

▍卡斯帕羅夫與深藍對弈

/ 圖片來源：

theverge.com

但是，深藍這種人工調試演算法的策略，在圍棋上卻難以取得相同戰績。

這是因為，圍棋的可能性和變數都遠超國際象棋，即使最頂尖的圍棋選手，也很難用有邏輯的語言清晰闡釋自己的下棋策略，更不用說把這種策略轉化為計算機能夠理解執行的編程語言。

人工智慧的勝利

圍棋的棋盤為 19x19 的網格，比國際象棋大，可能的下法（10^174）超過已知宇宙中所有原子數目的總和（10^80）。巨大的變數和可能性，讓圍棋棋道幾乎成為一門玄學。

AlphaGo 下圍棋的策略，

與按人類預設劇本下棋的深藍不同，其下棋演算法沒有經過人工調試，全部是靠自己「學會」的。

▍

AlphaGo 的「遊戲樹」

/ 圖片來源：Nature

AlphaGo 怎麼「學」？答案是人工神經網路。

人工神經網路是一種計算模型，可以在海量數據中找出規律。近年來，人工神經網路在人臉識別、機器翻譯等領域被廣泛應用。

▍

如果人臉識別技術大規模應用，丁義珍就跑不了了

▍

與人類神經網路類似，人工神經網路的基本單位是神經元。一個神經元可以接收多個輸入，在計算後可以產生一個輸出。一個神經網路有若干層，每一層由成百上千個神經元組成。A：生物神經元，B：人工神經元（左側箭頭代表多個輸入，右側箭頭代表一個產生的輸出），

C：突觸，

D：人工神經網路

/ 圖片來源：InTechOpen

AlphaGo 使用了兩種人工神經網路，一個是預測網路（policy network），一個是評估網路（value network）。預測網路用來預測對手下一步可能怎麼走，評估網路則用來評估給定棋局下己方的獲勝概率。

▍

人工神經網路要用海量數據訓練。AlphaGo 輸入了至少三千萬種棋局，自我博弈超過一百萬次。在與李世石對決前，AlphaGo 預測對手的準確率達到 57%——超過半數的情況下，AlphaGo 能猜中對手下一步會怎麼走

/ 圖片來源：Nature

相比深藍，AlphaGo 採取的策略效率更高，戰績更輝煌。藉助遠勝於深藍的計算能力和搜索策略，AlphaGo 搜索的深度與廣度均大幅提高；深藍要靠人工調試的演算法才能戰勝卡斯帕羅夫，AlphaGo 的下棋策略，卻完全是靠自己在海量數據中摸索出來的。

這是真正的人工智慧對職業棋手的勝利。

▍

AlphaGo 的研發團隊中僅有黃世傑博士（業餘四段）一人會下圍棋。在與李世石的對決中，黃博士代為執子。

為什麼柯潔一局都贏不了

理解了 AlphaGo 怎麼下棋，就不難理解為什麼柯潔必輸。

首先，AlphaGo 的訓練量、所見棋局和進步速度都遠超柯潔。

AlphaGo 見過、下過的棋，以百萬計。柯潔的訓練量，我們做最樂觀的粗略估算，也難以超過五萬局。

▍

根據啟蒙老師李守勝的說法，「柯潔可以說還在娘胎里的時候，就是聽著圍棋聲長大的」。我們假設 1997 年出生的柯潔，從負一歲就開始下棋，每天 24 小時不眠不休，每局 4 小時，在整整 21 年中，也只能下不到 5 萬局。

需要指出的是，人類對棋譜的利用率遠超人工智慧。職業棋手通過幾十局棋譜，就能大致摸清對手棋路。人工智慧卻需要至少數以萬計的棋譜，才有可能發現其中規律。

而且，並非數據「喂」得越多，下棋水平越高。輸入海量數據後，人工智慧仍不得法的情況也很常見。

不過，一旦找到了規律，人工智慧就進步神速。AlphaGo 只用兩年，就從零起步登頂世界第一，手下敗將包括李世石、聶衛平、柯潔。

這次與柯潔對弈的 AlphaGo，也不同於去年大戰李世石的版本。

AlphaGo 有分布式版與單機版兩個版本，去年與李世石對決，AlphaGo 還需動用分布式版全力以赴，今次只需單機版就能輕取棋藝更高的柯潔。兩個版本的計算能力差距懸殊，單機版運行在 48 個CPU 和 8 個 GPU 上，分布式版運行在 1202 個 CPU 和 176 個 GPU 上。

或者說，對李世石是群毆，對柯潔是單挑。

▍

2017 年初，AlphaGo 化名 Master，在在線快棋對決中，橫掃中日韓頂尖棋手，獲 60 勝 0 負 1 平。唯一一次平局是因為對手掉線，比賽不得不提前終止。擊敗聶衛平後，代為執子的黃世傑博士在對話框中敲出「謝謝聶老師」。

柯潔有沒有可能通過研究 AlphaGo 的棋譜找到對手的弱點呢？

可能性非常小。時至今日，AlphaGo 的圍棋下法已經超出了人類經驗和理解力範疇。理論上，大家都知道，AlphaGo 是按概率下棋。但實戰中，棋手猜不出 AlphaGo 下一步會怎麼走，AlphaGo 卻不僅猜得中，還算得出各種下法勝算幾何。

數千年來，人類學習圍棋的方式更多是依靠經驗。這種經驗可能來自前人棋譜，也可能來自長年累月的對弈訓練出的「直覺」。

這種經驗，既成就了柯潔，也束縛了柯潔。它讓柯潔可以站在前人的肩膀上往更高處攀登，但也局限了他對圍棋的理解和創新。

當看到 AlphaGo 下出棋論上的「臭棋」，卻所向披靡時，柯潔便會發出文章開頭那樣的驚嘆，認為人類幾千年來在圍棋上的所有積累都化為烏有了。

儘管柯潔試圖跳出這種局限，但不論他研究 AlphaGo 的棋譜，還是和其他人工智慧下棋，在 AlphaGo 強大的運算和預測能力面前，這樣的努力都無異於大海撈針。

AlphaGo 的勝利，雖然難免給柯潔個人造成不快，但對更多人來說，體現的是意義非凡的技術進步。

如果把「尋找圍棋的至高真理」看做一個懸疑千年未解的難題，將職業棋手和人工智慧看做人類解決這個難題的不同嘗試，AlphaGo 的勝利顯然意義非凡，彷彿一百年前拖拉機的成功問世。

▍

拖拉機的發明，讓人類有了比馬更高效的生產工具。上圖顯示了拖拉機出現後，美國農場 1910 年到 1960 年，拖拉機和馬、騾子數量的增減對比。藍色代表拖拉機，紅色代表馬和騾子

/ 圖片來源：Economic History Association

計算機科學家開發 AlphaGo，並不是為了給人類創造修身養性的工具，

而是像谷歌研究總監彼得·諾維格所說，

希望用人工智慧解決人類自己也不知道如何解決的問題。

圍棋是對抗類、回合制、無隨機性的完全信息遊戲，AlphaGo 的演算法可以為具備同樣條件的場景，提供解決問題的參考方案。

▍

圍棋的「無隨機性」是指對手可以落棋的位置、手中的棋，以及開局以來到現在為止的所有棋盤信息都是已知的。撲克屬於非完全信息遊戲，有隨機性，因為其他玩家手中的牌是未知的。

未來十年，如果具備精準決策能力的人工智慧獲得大範圍的應用，金融、醫療、法律、交通、公共安全等領域都將發生翻天覆地的變化。

一年多來人類高手們的接連慘敗，也許只是一個偉大故事的開頭。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 大象公會 的精彩文章:

※達芬奇沒有密碼｜混亂博物館
※薦號｜少數幾個我們還在看的微信號
※除了諸葛亮，你絕對猜不到這兩個人是三國中最重要的人物｜大象公會

TAG:大象公會 |

您可能感興趣

※你為什麼不認識你的鄰居｜大象公會
※巴黎就是這麼臟｜大象公會
※清宮戲為什麼這麼火｜大象公會
※在北京，怎樣吃到一隻合格的雞｜大象公會
※為什麼你總是開心不起來｜大象公會
※連爹媽都不知道他們可以被這麼關愛｜大象公會
※好吃的豬從哪裡來丨大象公會
※在中國，正當防衛為什麼這麼難｜大象公會
※理想的辦公室是什麼樣的｜大象公會
※大象公會
※真正的世界，可能和你想的不一樣｜大象公會
※為護眼想盡了辦法，為什麼還是近視了｜大象公會
※一隻大象也踩不爛的碗，連義大利人也開始不靠譜了么？
※殺人犯長什麼樣｜大象公會
※為什麼藏人的帽子這麼西部片｜大象公會
※日本人為什麼這麼愛乾淨｜大象公會
※二人轉為什麼高級不起來｜大象公會
※盜墓最怕遇到什麼｜大象公會
※當女生說自己不好看時，她們在想什麼｜大象公會
※中國什麼地方的人最能打｜大象公會