當前位置:
首頁 > 最新 > 快訊!柯潔人機大戰首戰落敗 深度拆解AlphaGo套路

快訊!柯潔人機大戰首戰落敗 深度拆解AlphaGo套路

AlphaGo到底是怎麼贏的?它的技術有什麼現實意義?年初不是PK過了嗎?怎麼又來?……

智東西文 Lina

智東西5月23日下午,今天,世界圍棋第一人柯潔與谷歌DeepMind旗下的AlphaGo進行了一場長達4個半小時的圍棋對戰,最終柯潔僅以幾目的差距惜敗AlphaGo,這場從上午10點半開始的鏖戰終於告一段落。(頭圖為最終盤面)

這是本次烏鎮圍棋大賽中柯潔對戰AlphaGo三場比賽中的頭一場,柯潔執黑先行。與年初披著「Master」馬甲的連勝60場時不同,這次「柯Go大戰」下的是每方時長3小時的慢棋,而不是每手30秒快棋,對人類有著一定優勢。

理論上本輪比賽將持續3+3=6小時,但最終柯潔幾近耗盡3小時,AlphaGo僅用了1個多小時。比賽後期柯潔頻頻有咬嘴唇、抓頭髮等焦慮的小動作,看得觀眾也不禁緊張起來。在最終只剩十幾分鐘、敗局已定時,柯潔仍堅持下完全局。

(賽事焦灼時的柯潔)

(觀棋室里人山人海,由專業圍棋家進行講解)

AlphaGo是由谷歌旗下DeepMind團隊的戴密斯·哈薩比斯、大衛·席爾瓦、黃士傑等開發的一款人工智慧程序。2016年3月,AlphaGo曾以5:3戰勝韓國棋手李世石,成為第一個擊敗人類職業圍棋選手的電腦程序。2016年12月底,AlphaGo身披「Master」馬甲,5天內橫掃中日韓棋壇,最終以60場連勝紀錄告退。

讀完本文,你可以知道以下問題的答案:

1)年初不是PK過了嗎?怎麼又來?

2)為什麼AI老盯著圍棋不放?

3)AlphaGo到底是怎麼下棋的?(最通俗易懂版本解釋)

4)德撲、圍棋、象棋,下一個被AI入侵的領域是啥?

5)AlphaGo的技術有什麼現實意義?

(10點半開場第一手)

一、說在前面

其實,柯潔與AlphaGo的這場比賽開始前,勝率並不被多少人看好。就連柯潔本人在四月初的發布會上,也用上了「懷有必死的信念,不會輕易言敗」這種情懷悲壯的詞語,昨夜11點半更是在微博發布了一條名為《最後的對決》的賽前感言。

「無論輸贏,這都將是我與人工智慧最後的三盤對局」

「現在的AI進步之快遠超我們的想像。像國產的絕藝、日產的ZEN雖然和AIphago還有著較大差距,但已經表現出超強的實力了…」

「我相信未來是屬於人工智慧的。可它始終都是冷冰冰的機器,與人類相比,我感覺不到它對圍棋的熱情和熱愛……」

如此沉重,如此傷懷,很難想像這是曾經意氣風發的天才少年。去年3月9日李世石1:4落敗AlphaGo時,年僅19歲的他曾在微博放出豪言——「就算阿法狗戰勝了李世石,但它贏不了我」,彼時尚不知柯潔是何方神聖的吃瓜群眾對其一頓群嘲,接著立刻被刷刷刷一溜世界冠軍的履歷反轉打臉的劇情看得人大呼過癮。國內大眾向來是偏愛柯潔的,我們都愛聽傳奇故事,愛看任性的少年天才打破陳規,揚名立萬,如同起點網文一般的人生贏家。

此役戰敗,著實讓人唏噓不已。

二、年初不是PK過了嗎?怎麼又來?

其實,這並不是柯潔與AlphaGo的第一次交手。

2016年12月底,一位身披Master馬甲的神秘棋手突然出現,5天內橫掃中日韓棋壇,包括當時年僅19的三次世界大賽冠軍柯潔九段(今年20歲)、韓國等級分第一朴廷桓九段、中國名人戰冠軍連笑七段等,甚至激起了業內64歲泰斗聶衛平參戰,最終在連勝60場後宣告揭曉真身——就是AlphaGo。

既然已經PK過了,為什麼又要比一次呢?

原來在年底時,Master與各位棋手下的是30秒快棋,對於擁有強大計算能力的電腦來說,優勢非常明顯。而本次柯潔 vs AlphaGo下的是慢棋,有3小時的思考時間,對於人類比較有利。

此外,本次柯潔與AlphaGo下的是「三番棋」,無論輸贏都將下滿三局,下兩輪比賽將分別在本周四(25號)與本周六(27號)的同一時間進行,大賽同時還設有150萬美元獎金。

三、為什麼AI老盯著圍棋不放?

很多人其實都對AlphaGo下棋的套路存在誤會,認為它是程序嘛,那用最簡單(最暴力)的方法——窮舉,自然是最有效的。

也……不是不行。但我們先來算算窮舉一共會出現多少情況。

普林斯頓研究人員曾經做過這樣一個統計項目,對於一個標準的圍棋棋盤而言,一共有19×19=361個位置,每個位置存在黑子、白子、空,3種情況。因此一局棋面理論上有3^361種可能。但根據圍棋規則,不是所有位置都可合法落子,因此在排除掉所有不合法的棋局後,精確的合法棋局數為——

……

你真的想知道嗎?……

深呼吸……

……

208168199381979984699478633344862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935局。

讓一台計算機暴力演算法窮舉……也不是不行,普林斯頓的研究人員這麼試過一遍,使用15TB硬碟空間、8-16核處理器、192GB內存的伺服器將這約等於2.08×10^170局棋全部窮舉出來,大概需要幾個月的時間。按3個月來算的話,如果AlphaGo按照這個配置每下一步棋都將所有情況窮舉一遍,那麼這盤棋下完的時候,今年20歲的柯潔已經是六十多歲的老人家了……

四、AlphaGo到底是怎麼下棋的?(最通俗易懂版本解釋)

當然啦,上文的這個比喻有些偷換概念,而且AlphaGo的配置比這要高出許多。當年和李世石下棋時,AlphaGo配備了1920個CPU加280個GPU,如今經過一年多的軟硬體升級,自然將計算能力武裝到了牙齒。

不過,AlphaGo用的真的不是窮舉,而是一套結合了深度學習(Deep Learning)與增強學習(Reinforcement Learning)的系統。DeepMind團隊在《自然》雜誌上發表的《用深度神經網路和樹搜索掌握圍棋博弈(Mastering the Game of Go with Deep Neural Networks and Tree Search)》論文中詳細介紹了AlphaGo是怎麼下棋的,此處不展開講了,只做一個粗淺的流程介紹:

1)分析專業棋手棋譜,得到兩個結果,快速走棋策略(Rollout Policy)與策略網路(SL Policy Network)。其中快速走棋策略類似於人觀察盤面獲得的「直覺」,使用線性模型訓練;策略網路則經過深度學習模型訓練進行分析,類似於人類的「深思熟慮」。

2)用新的策略網路與先前訓練好的策略網路互相對弈,利用增強學習來修正參數,最終得到增強的策略網路(RL Policy Network),類似於人類左右互搏後得到一個「更加深思熟慮」的結果,對某一步棋的好壞進行判斷。

3)將所有結果組成一個價值網路(Value Network),對整個盤面進行「全局分析」判斷,圖中藍色越深的位置贏面越大,這樣可以讓程序有大局觀,不會因蠅頭小利而輸掉整場比賽。

4)綜合「直覺」、「深思熟慮」、「全局分析」的結果進行評價,循環往複,找出最優落子點。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智東西 的精彩文章:

4.9毫米小米電視4推出 過去5個月到底發生了什麼?

TAG:智東西 |

您可能感興趣

深度 | 嵌入技術在Dota2人工智慧戰隊OpenAI Five中的應用
Yoshua:深度學習AI邁向人類水平的挑戰
深度解讀重要變革FBA Onsite:機遇和挑戰
Karpathy更新深度學習開源框架排名:TensorFlow第一,PyTorch第二
斯坦福DAWNBench:華為雲ModelArts深度學習訓練全球最快
Tomaso Poggio解析下個「AlphaGo」線索,再談「深度學習鍊金術」
從零開始Tensorflow:用AI深度學習來玩戰艦棋
深度剖析 Memcached 超大型DRDoS攻擊
深度測評 加拿大大鵝 CanadaGoose 中長款羽絨服 深度「拆解」
Ansible 深度解析
ADAM artist5 深度把玩記
斯坦福DAWNBench最新成績:華為雲ModelArts深度學習訓練速度登頂
Yoshua Bengio首次中國演講:深度學習通往人類水平AI的挑戰
macOS木馬Calisto深度分析
Yoshua Bengio團隊基於深度強化學習打造聊天機器人MILABOT
從AlexNet到MobileNet,帶你入門深度神經網路
使用Caicloud TaaS 平台落地深度學習演算法實戰
Pieter Abbeel:深度強化學習加速方法
ArXiv最受歡迎開源深度學習框架榜:TensorFlow第一,PyTorch第四
深度學習訓練決策,Waymo披露ChauffeurNet進展