柯潔首戰失利AlphaGo，但這只是Google的又一場科技秀

最新 05-28

不出預料，柯潔首戰負於AlphaGo。

5月23日，在烏鎮召開的「中國烏鎮·圍棋峰會」上，中國圍棋職業九段棋手，現世界圍棋排名網站GoRatings位列第一的柯潔，不敵谷歌旗下圍棋人工智慧程序AlphaGo，收官階段中以1/4子之差——即中國圍棋裡面最微小的勝負值落敗。

此次比賽從上午10：30開始，到下午2：55結束，共歷時4小時25分鐘，柯潔執黑子先行，AlphaGo執白，由DeepMind資深研究員黃士傑博士（Aja Huang）代為行棋。整場比賽，柯潔幾乎花費了AlphaGo兩倍的時間，後者是接近勻速的計算速度。但現場擔任解說的中國圍棋大師華學明和徐瑩卻認為柯潔已經發揮出了世界級水平。

去年3月9日，在得知AlphaGo對戰李世乭勝利後，柯潔在微博上寫道「就算阿法狗戰勝了李世石，但它贏不了我。」

柯潔寫在比賽之前的微博

但在AlphaGo化身Master完成60連勝之後，柯潔改變了看法，他在新年寄語中表示，「人類幾千年甚至沒人沾到圍棋真理的邊」。

這次人機大賽的意義已經並不在乎輸贏，而是谷歌另一次「秀肌肉」。對於谷歌來說，它的意義更在於谷歌對中國市場的需求，讓這場比賽為自己在中國做一個更大的廣告，是為了向世人展示人工智慧的進化速度，增強世人對人工智慧的正面看法，也為其它人工智慧的發展鋪路，還能贏得一波投資。

天才少年柯潔：AlphaGo接近圍棋上帝

這個結局似乎早就被預料到。開幕式環節，AlphaGo開發者DeepMind創始人傑米斯·哈薩比斯（Demis Hassabis）意味深長地說，「這不是人機大戰，而是人使用電腦發現新的奧秘和知識。和哈勃望遠鏡一樣，探索宇宙，AlphaGo就是新的哈勃望遠鏡。」他還補充，目的不是輸贏，最終的勝利屬於人類。

中國「棋聖」聶衛平表示，他認為柯潔會被0：3擊潰。古力九段認為，如果柯潔發揮出100%的狀態，那麼他也許有5%的勝率。而曾經狂傲地認為「阿爾法狗戰勝不了我」的柯潔，也謙虛地表示：「這次能代表人類出戰是我的榮幸，我將盡全力去爭勝，一決勝負，抱有必勝的信念和必死的決心，不輕易言敗。」

這只是此次峰會中雙方的第一局比賽，此次比賽採用三局兩勝制，柯潔和AlphaGo將在接下來的5月25日和27日進行餘下的兩場比賽。除了柯潔和AlphaGo的對戰之外，5月26日還將舉行AlphaGo和人類棋手共同行棋的配對賽（AlphaGo分別搭檔兩個人類棋手古力和連笑進行對弈）和5位九段棋手對陣AlphaGo的團隊賽（由羋昱廷、時越、唐韋星、周睿羊、陳耀燁五位棋手組隊，聯手向AlphaGo發起挑戰）。

在第一局結束後，國手樊輝再次向大家解析了這盤棋的打法。讓他最驚奇的大概就是AlphaGo最大的殺手鐧——從來不按常規出牌。賽後發布會上，柯潔表示，「我覺得AlphaGo下得很精彩，但我自己也盡了全力，我覺得很多地方值得我們棋手去學習、探討，它很多棋的思想、理念，在改變我們最初對圍棋的看法，沒有什麼是不能下的。AlphaGo真的下得非常好。我覺得現在AI跟去年完全是兩個人，上一次還是很接近人的，現在越來越接近圍棋上帝了。」

DeepMind團隊透露，目前的AlphaGo是在雲端由單TPU運行，這與Google上周在 I/O 大會上剛公布的晶元版本一致。TPU是專門為機器學習而設計的處理器。與去年3月與李世石的比賽時相比，當前的版本在處理計算時所消耗的能量僅為過去的十分之一。

AlphaGo和它背後的DeepMind

AlphaGo是由英國Google DeepMind公司開發的圍棋人工智慧程序。它可能是有史以來最強大的圍棋棋手。

DeepMind公司於2010年由傑米斯·哈薩比斯（Demis Hassabis）博士、沙恩·萊吉（Shane Legg）博士和穆斯塔法·蘇雷曼（Mustafa Suleyman）共同創立。其中，哈薩比斯和萊吉相識於倫敦大學學院蓋茨比計算神經科學組。

2014年，DeepMind被谷歌以4億美元收購。同年，AlphaGo項目誕生，開始一步步向圍棋遊戲的巔峰發起挑戰。

2015年10月，AlphaGo在沒有任何讓子的情況下，以5：0的懸殊比分擊潰歐洲圍棋冠軍樊麾二段。

2016年3月，韓國職業棋手李世乭九段迎戰AlphaGo，以1：4不幸敗北。此戰之初，柯潔曾斷言李會以5：0的比分大勝，AlphaGo毫無勝算。但在李世乭輸掉第三盤後，柯潔也不得不承認計算機的實力強大。表示「跟AlphaGo下的話，同樣的條件下，我輸的可能性非常大」。

AlphaGo是一個標誌。它的誕生，意味著人們對人工智慧的探索已經到達了一個新的階段。造就AlphaGo的學習模式，將被推廣到各種領域，譬如面孔識別、語音識別等等。造就AlphaGo的核心技術，也許還能在其他領域同樣的幫助我們。

儘管不如AlphaGo那麼有名，但DeepMind研製的AI已經在為谷歌公司服務了。他們出品的人工智慧幫助谷歌減少了40%在機房冷卻系統上的花費。他們還希望能夠與英國國家電網合作，利用人工智慧將英國的能耗減少10%。

DeepMind的傑米斯·哈薩比斯（Demis Hassabis）博士表示，公司已經不滿足於只由自己來打造AlphaGo，而是向開發者開放一些新的技術平台與工具，讓開發者自己來做AlphaGo，為他們所用。「我們想讓他們走進尋常百姓家，特別是在醫學及能源領域，你將會看到AlphaGo的新身份，我們會在接下來的幾天內逐步公開。」

拓展：深度學習+大數據+監督=AlphaGo

支撐AlphaGo提高棋力、打敗人類選手的「秘訣」有三個：深度神經網路、監督/強化學習、蒙特卡羅樹搜索。

對於人工智慧而言，世界是被用數字的方式呈現的。人們將人工智慧設計出不同的「層」，來解決不同層級的認知任務。這種具備許多「層」的神經網路，被稱為深度神經網路。AlphaGo包含兩種深度神經網路：價值網路和策略網路。價值網路使得AlphaGo能夠明晰局勢的判斷，左右全局「戰略」，拋棄不合適的路線；策略網路使得AlphaGo能夠優化每一步落子，左右局部「戰術」，減少失誤。兩者結合在一起，使得AlphaGo不需要過於龐大的計算也能夠走出精妙的棋局，就像人類一樣。

監督學習和強化學習是機器學習方式的不同種類。監督學習是指機器通過人類輸入的信息進行學習，而加強學習是指機器自身收集環境中的相關信息作出判斷，並綜合成自己的「經驗」。在初始階段，AlphaGo收集研究者輸入的大量棋局數據，學習人類棋手的下法，形成自己獨特的判斷方式。之後，在不計其數的自己與自己模擬對弈，以及每一次與人類棋手對弈中，AlphaGo都能並根據結果來總結並生成新的範式，實現自我提高。

蒙特卡洛樹是一種搜索演算法。AI在利用它進行決策判斷時，會從根結點開始不斷選擇分支子結點，通過不斷的決策使得遊戲局勢向AI預測的最優點移動，直到模擬遊戲勝利。AI每一次的選擇都會同時產生多個可能性，它會進行模擬運算，推斷出可能的結果再做出決定。