當前位置:
首頁 > 知識 > 為什麼柯潔一局都贏不了|大象公會

為什麼柯潔一局都贏不了|大象公會


「這是柯潔一人的不幸,世人之萬幸。」





文|李李 南戈




5 月 23 至 27 日,曾戰勝圍棋世界冠軍李世石的谷歌人工智慧 AlphaGo,在浙江烏鎮挑戰目前世界排名第一的人類棋手柯潔九段。




今天下午,柯潔首戰告負,輸四分之一子。




在人類棋手之間,這種結果說明雙方棋藝基本旗鼓相當。所以有人據此認為,柯潔只是惜敗。




事實上,柯潔遠非惜敗,而是 AlphaGo 完全掌控了棋局,在確保勝利的同時,不冒無謂的風險。



在這場人機大戰開賽前,前谷歌大中華區總裁李開復就公開表示:柯潔必敗毫無懸念。




不僅科技界人士這麼認為,概率也顯示柯潔幾無勝算。根據國際職業圍棋 Elo 等級分制度排名,可算出 AlphaGo 每盤的獲勝概率為 99.37% 。說這是一場起重機與舉重選手的比賽並不為過。





2016

7

18

,AlphaGo

超越柯潔成為

Elo

排名第一(左側排名),

之後不久就被柯潔反超(右側排名)。

2017 年 2 月初,Go Ratings 網站刪除了 AlphaGo、DeepZenGo 等圍棋人工智慧在該網站上的所有信息,目前世界排名第一的柯潔 Elo 3620

/ 數據來自:gorating.org





AlphaGo 開發團隊主管 David Silver 使用 Elo 演算法評估 AlphaGo 的 Elo 為 4500。對陣柯潔,

AlphaGo 的勝率 P(A) = 1/(1+10^((3620-4500)/400))

/ 圖片來自:Advanced Study Room




從擊敗樊麾二段(Elo 3000 左右),到擊敗李世石九段(Elo 3500 左右),AlphaGo 只用了五個月。相比之下,從 Elo 3300 到 3600,天才棋手柯潔走了將近五年。





柯潔的 Elo 上升路徑

/

圖片來自

goratings.org




2016 年底,AlphaGo 化名「Master」橫掃圍棋網戰平台時,即已強大到讓柯潔感嘆「人類幾千年來總結的棋譜都是錯的」。



AlphaGo 為什麼這麼厲害?它到底是怎麼下棋的?人類頂尖圍棋高手在人工智慧面前的集體潰敗,意味著什麼?




寡不敵眾的世界冠軍



早在 20 世紀 50 年代,計算機科學家就開始研究讓人工智慧與人類下棋了。棋盤遊戲是人類智力的博弈,如果能達到頂尖棋手的水平、甚至超過他們,便可證明人工智慧變得更聰明、更有靈活性。




人類下棋,是經驗、理性與靈感的結合。






昭和棋聖吳清源就將決定圍棋勝負的三個要素歸納為:實力、氣力和運氣。




以此標準,人工智慧「先天不足」,只有理性,靠什麼與人對弈?




一言以蔽之:搜索。




早在 1952 年,人工智慧就通過窮舉所有可能性的」暴力搜索「,在井字棋這樣的小型棋類遊戲中戰無不勝。





在谷歌搜索框中輸入「tic-tac-toe」,就能跟電腦下井字棋

/ 圖片來源:theverge.com





下面這幅樹狀圖,展示了井字棋遊戲中可能出現的部分棋盤情況。







人工智慧要做的,就是沿著這棵「遊戲樹」一步步往下搜索,在所有可能出現的棋盤局面中,根據最有利於己方的終局結果,向前回溯至當前節點,決定下一步應該怎麼走。




但對棋盤更大、可能性更多的遊戲,暴力搜索就行不通了,因為棋局的可能性遠超人工智慧的運算能力,純靠搜索不可能下贏頂尖棋手。




國際象棋和圍棋一度被認為是「人類智慧的最後堡壘」,原因就在於此。





國際象棋的棋盤為 8x8 的網格,在對陣雙方各走三步以後,可能出現的棋局就超過九百萬種





要在這類遊戲中戰勝人類,人工智慧必須在暴力搜索的基礎上優化改進。




取得突破的是 1997 年 IBM 開發的人工智慧深藍,它戰勝了國際象棋世界冠軍卡斯帕羅夫。這是歷史上人工智慧首次在正式比賽中,下贏國際象棋頂尖棋手。




相較用於井字棋的暴力搜索,深藍的改進主要在兩個方面:




一,優先搜索勝率最大的棋局,以便能預測更多步以後的棋盤情況;二,即便如此,也無法像井字棋那樣搜索到最終局,這時就要評估當前棋局做出評估,判斷下一步怎麼走,未來勝率更大。




不論是搜索還是評估,深藍的演算法都包含了大量的人類智慧。深藍僅評估演算法就有 8000 多個部分,很多是為特定棋局專門設計的。為完善演算法,提高勝率,IBM 還專門請來包括國際象棋特級大師喬爾·本傑明在內的多位頂尖棋手做參謀。




因此,與其說深藍戰勝了人類,不如說超級計算機+科學家+一群頂尖棋手,戰勝了一個卡斯帕羅夫。





▍卡斯帕羅夫與深藍對弈

/ 圖片來源:

theverge.com




但是,深藍這種人工調試演算法的策略,在圍棋上卻難以取得相同戰績。




這是因為,圍棋的可能性和變數都遠超國際象棋,即使最頂尖的圍棋選手,也很難用有邏輯的語言清晰闡釋自己的下棋策略,更不用說把這種策略轉化為計算機能夠理解執行的編程語言。




人工智慧的勝利






圍棋的棋盤為 19x19 的網格,比國際象棋大,可能的下法(10^174)超過已知宇宙中所有原子數目的總和(10^80)。巨大的變數和可能性,讓圍棋棋道幾乎成為一門玄學。




AlphaGo 下圍棋的策略,

與按人類預設劇本下棋的深藍不同,其下棋演算法沒有經過人工調試,全部是靠自己「學會」的。





AlphaGo 的「遊戲樹」

/ 圖片來源:Nature





AlphaGo 怎麼「學」?答案是人工神經網路。




人工神經網路是一種計算模型,可以在海量數據中找出規律。近年來,人工神經網路在人臉識別、機器翻譯等領域被廣泛應用。





如果人臉識別技術大規模應用,丁義珍就跑不了了





與人類神經網路類似,人工神經網路的基本單位是神經元。一個神經元可以接收多個輸入,在計算後可以產生一個輸出。一個神經網路有若干層,每一層由成百上千個神經元組成。A:生物神經元,B:人工神經元(左側箭頭代表多個輸入,右側箭頭代表一個產生的輸出),

C:突觸,

D:人工神經網路

/ 圖片來源:InTechOpen




AlphaGo 使用了兩種人工神經網路,一個是預測網路(policy network),一個是評估網路(value network)。預測網路用來預測對手下一步可能怎麼走,評估網路則用來評估給定棋局下己方的獲勝概率。





人工神經網路要用海量數據訓練。AlphaGo 輸入了至少三千萬種棋局,自我博弈超過一百萬次。在與李世石對決前,AlphaGo 預測對手的準確率達到 57%——超過半數的情況下,AlphaGo 能猜中對手下一步會怎麼走

/ 圖片來源:Nature




相比深藍,AlphaGo 採取的策略效率更高,戰績更輝煌。藉助遠勝於深藍的計算能力和搜索策略,AlphaGo 搜索的深度與廣度均大幅提高;深藍要靠人工調試的演算法才能戰勝卡斯帕羅夫,AlphaGo 的下棋策略,卻完全是靠自己在海量數據中摸索出來的。




這是真正的人工智慧對職業棋手的勝利。





AlphaGo 的研發團隊中僅有黃世傑博士(業餘四段)一人會下圍棋。在與李世石的對決中,黃博士代為執子。




為什麼柯潔一局都贏不了



理解了 AlphaGo 怎麼下棋,就不難理解為什麼柯潔必輸。




首先,AlphaGo 的訓練量、所見棋局和進步速度都遠超柯潔。




AlphaGo 見過、下過的棋,以百萬計。柯潔的訓練量,我們做最樂觀的粗略估算,也難以超過五萬局。





根據啟蒙老師李守勝的說法,「柯潔可以說還在娘胎里的時候,就是聽著圍棋聲長大的」。我們假設 1997 年出生的柯潔,從負一歲就開始下棋,每天 24 小時不眠不休,每局 4 小時,在整整 21 年中,也只能下不到 5 萬局。





需要指出的是,人類對棋譜的利用率遠超人工智慧。職業棋手通過幾十局棋譜,就能大致摸清對手棋路。人工智慧卻需要至少數以萬計的棋譜,才有可能發現其中規律。




而且,並非數據「喂」得越多,下棋水平越高。輸入海量數據後,人工智慧仍不得法的情況也很常見。




不過,一旦找到了規律,人工智慧就進步神速。AlphaGo 只用兩年,就從零起步登頂世界第一,手下敗將包括李世石、聶衛平、柯潔。




這次與柯潔對弈的 AlphaGo,也不同於去年大戰李世石的版本。




AlphaGo 有分布式版與單機版兩個版本,去年與李世石對決,AlphaGo 還需動用分布式版全力以赴,今次只需單機版就能輕取棋藝更高的柯潔。兩個版本的計算能力差距懸殊,單機版運行在 48 個CPU 和 8 個 GPU 上,分布式版運行在 1202 個 CPU 和 176 個 GPU 上。




或者說,對李世石是群毆,對柯潔是單挑。





2017 年初,AlphaGo 化名 Master,在在線快棋對決中,橫掃中日韓頂尖棋手,獲 60 勝 0 負 1 平。唯一一次平局是因為對手掉線,比賽不得不提前終止。擊敗聶衛平後,代為執子的黃世傑博士在對話框中敲出「謝謝聶老師」。




柯潔有沒有可能通過研究 AlphaGo 的棋譜找到對手的弱點呢?




可能性非常小。時至今日,AlphaGo 的圍棋下法已經超出了人類經驗和理解力範疇。理論上,大家都知道,AlphaGo 是按概率下棋。但實戰中,棋手猜不出 AlphaGo 下一步會怎麼走,AlphaGo 卻不僅猜得中,還算得出各種下法勝算幾何。




數千年來,人類學習圍棋的方式更多是依靠經驗。這種經驗可能來自前人棋譜,也可能來自長年累月的對弈訓練出的「直覺」。




這種經驗,既成就了柯潔,也束縛了柯潔。它讓柯潔可以站在前人的肩膀上往更高處攀登,但也局限了他對圍棋的理解和創新。




當看到 AlphaGo 下出棋論上的「臭棋」,卻所向披靡時,柯潔便會發出文章開頭那樣的驚嘆,認為人類幾千年來在圍棋上的所有積累都化為烏有了。




儘管柯潔試圖跳出這種局限,但不論他研究 AlphaGo 的棋譜,還是和其他人工智慧下棋,在 AlphaGo 強大的運算和預測能力面前,這樣的努力都無異於大海撈針。




AlphaGo 的勝利,雖然難免給柯潔個人造成不快,但對更多人來說,體現的是意義非凡的技術進步。




如果把「尋找圍棋的至高真理」看做一個懸疑千年未解的難題,將職業棋手和人工智慧看做人類解決這個難題的不同嘗試,AlphaGo 的勝利顯然意義非凡,彷彿一百年前拖拉機的成功問世。





拖拉機的發明,讓人類有了比馬更高效的生產工具。上圖顯示了拖拉機出現後,美國農場 1910 年到 1960 年,拖拉機和馬、騾子數量的增減對比。藍色代表拖拉機,紅色代表馬和騾子

/ 圖片來源:Economic History Association





計算機科學家開發 AlphaGo,並不是為了給人類創造修身養性的工具,

而是像谷歌研究總監彼得·諾維格所說,

希望用人工智慧解決人類自己也不知道如何解決的問題。




圍棋是對抗類、回合制、無隨機性的完全信息遊戲,AlphaGo 的演算法可以為具備同樣條件的場景,提供解決問題的參考方案。





圍棋的「無隨機性」是指對手可以落棋的位置、手中的棋,以及開局以來到現在為止的所有棋盤信息都是已知的。撲克屬於非完全信息遊戲,有隨機性,因為其他玩家手中的牌是未知的。





未來十年,如果具備精準決策能力的人工智慧獲得大範圍的應用,金融、醫療、法律、交通、公共安全等領域都將發生翻天覆地的變化。




一年多來人類高手們的接連慘敗,也許只是一個偉大故事的開頭。




喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大象公會 的精彩文章:

達芬奇沒有密碼|混亂博物館
薦號|少數幾個我們還在看的微信號
除了諸葛亮,你絕對猜不到這兩個人是三國中最重要的人物|大象公會

TAG:大象公會 |

您可能感興趣

你為什麼不認識你的鄰居|大象公會
巴黎就是這麼臟|大象公會
清宮戲為什麼這麼火|大象公會
在北京,怎樣吃到一隻合格的雞|大象公會
為什麼你總是開心不起來|大象公會
連爹媽都不知道他們可以被這麼關愛|大象公會
好吃的豬從哪裡來丨大象公會
在中國,正當防衛為什麼這麼難|大象公會
理想的辦公室是什麼樣的|大象公會
大象公會
真正的世界,可能和你想的不一樣|大象公會
為護眼想盡了辦法,為什麼還是近視了|大象公會
一隻大象也踩不爛的碗,連義大利人也開始不靠譜了么?
殺人犯長什麼樣|大象公會
為什麼藏人的帽子這麼西部片|大象公會
日本人為什麼這麼愛乾淨|大象公會
二人轉為什麼高級不起來|大象公會
盜墓最怕遇到什麼|大象公會
當女生說自己不好看時,她們在想什麼|大象公會
中國什麼地方的人最能打|大象公會