當前位置:
首頁 > 新聞 > 谷歌AlphaZero堪稱遊戲大師,但與人類頭腦比起來孰高孰低?

谷歌AlphaZero堪稱遊戲大師,但與人類頭腦比起來孰高孰低?

在構建AlphaGo並擊敗全球最出色的圍棋棋手之後,谷歌DeepMind又打造出AlphaZero並打垮了眾多世界上最強大的機器棋手。


谷歌AlphaZero堪稱遊戲大師,但與人類頭腦比起來孰高孰低?

打開今日頭條,查看更多圖片

對於人類而言,國際象棋可能是那種需要投入終生才有可能精通的技藝。然而,谷歌DeepMind的全新人工智慧程序AlphaZero能夠在短時間內通過自我學習快速將其掌握。

基於AlphaGo套件(包括一系列用於攻克圍棋這一傳統技藝的程序)以往取得的成功,谷歌宣稱其全一代AlphaZero不僅在這款棋盤遊戲當中實現了「超越人類的表現」,甚至一舉破解了三種棋類的秘密:圍棋、國際象棋與將棋(類似於日本版的國際象棋)。由谷歌公司David Silver領導的計算機科學家與工程師團隊最近在《科學》雜誌上報告了這一重要發現。

喬治亞理工學院互動式計算與人工智慧專家Ayanna Howard雖沒有參與這項研究,但卻做出評述稱,「在此之前,我們雖然能夠利用機器學習讓機器掌握某種技能,但卻也僅限於一種技能本身。而在AlphaZero的啟發下,我們意識到完全可以構建起一種不那麼具體的演算法,並使其立足某些參數範圍之內進行學習。」

AlphaZero這種出色的智能水平肯定會增加人類與機器在遊戲領域的對抗程度,但谷歌長期以來一直將目光投向更偉大的目標:工程智能

研究人員們小心翼翼地控制著AlphaZero在宣傳中的形象(但也有不少人迫不及待地想將其塑造為前所未有的強大智能造物)。儘管如此,Silver及其他DeepMind小組都有著共同的心愿:有朝一日,將這類系統應用於藥物設計或者材料科學領域。

那麼,AlphaZero到底擁有哪些特質,足以讓人工智慧從業者們對其刮目相看?

遊戲玩法長期以來一直被視為衡量人工智慧研究水平的黃金標準。結構化的互動遊戲像是對現實場景的簡化:參與方必須做出艱難的決定; 在勝出與失敗因素之間做出權衡; 另外,預測、自我批判以及戰略眼光是決定一切的關鍵。

編碼一直是種非常棘手的工作。從傳統角度講,以往的遊戲AI(包括AlphaGo的初代原型)一直充斥著大量代碼與數據,用以模仿多年以來自然形成的人類遊戲玩法(基本上屬於被動學習過程,由程序員對其進行知識「填鴨」)並獲得遊戲經驗。但在AlphaGo Zero(AlphaGo的最新版本)以及現在的AlphaZero當中,研究人員只需要為其提供一項輸入:遊戲規則。在此之後,系統將親自從零開始學習遊戲技巧,並最終探索出一條只屬於人工智慧的思維道路。


谷歌AlphaZero堪稱遊戲大師,但與人類頭腦比起來孰高孰低?

AlphaZero以AlphaGo Zero為基礎,後者則作為AlphaGo圍棋套件中的重要組成部分甚至是收官之作。該程序的早期迭代版本主要基於人類棋手之間對弈產生的數據; 後期版本則強調自主學習,軟體將進行自我對弈以建立起專屬於自己的策略。

這種被稱為自我對弈強化學習的策略在本質上可以概括如下:為了建立起對棋藝的深刻理解,AlphaZero會反覆進行自我迭代,通過無數次實驗磨練其技能。這種近乎暴力的方式得到了顯著的回報。

與AlphaGo Zero不同,AlphaZero不只學會了圍棋,其亦在國際象棋與將棋棋盤上將往日的AI王者斬於馬下。整個學習過程非常高效:只需要兩小時、四小時或者三十個小時的自主學習,其就能夠勝過專門針對將棋、國際象棋及圍棋量身設計的定製化程序。

更值得注意的是,雖然研究作者們沒有提到,但AlphaZero在順利擊敗Stockfish(前任AI國際象棋大師)與Elmo(前AI將棋專家程序)的同時,在對弈的每個回合中所需要計算的下一步動作數量反而更少。並未參與AlphaZero項目的英國巴斯大學人工智慧研究員Joanna Bryson還強調稱,由於這裡討論的幾種演算法存在本質層面的差異,且消耗的計算資源也很可能完全不同,因此我們很難直接將AlphaZero與其它原有程序進行比較。

谷歌往往對其軟體中的大量細節保持沉默,AlphaZero自然也不例外。雖然不知道該程序的功耗水平,但顯而易見的是:AlphaZero項目的運行必然需要相當可觀的計算資源作為支持。在整個訓練周期當中,該程序一直高強度運轉,進行數十萬甚至數百萬次自我對弈,這樣的數量顯然遠遠超過了人類棋手在磨練棋藝當中所需要或者能夠達到的程度。但如此可觀的對弈量也帶來了令人驚艷的成果——該項目的棋藝可謂震古鑠今、登峰造極。

這種資源密集型方案使用到5000個谷歌專門打造的機器學習處理器單元,簡稱TPU。根據估計,每個單元的功耗約為200瓦。無論如何計算,AlphaZero所需要的能量都要遠遠高於人類大腦——畢竟人腦的運行功率僅為20瓦左右。

加州大學伯克利分校的統計學、機器學習與人工智慧研究專家Bin Yu補充稱,我們有理由對AlphaZero的絕對能耗做出估算。AlphaZero雖然功能強大,但在項目創建與執行的人力與時間投入方面卻可能並不友好。

無論成本是否高昂,AlphaZero的出現還是引發了廣泛轟動:大多數AI方案僅針對單一任務進行超級專業化調整,但AlphaZero卻擁有能夠同時玩轉三種棋類遊戲的靈活性。Yu指出,「令人印象深刻的是,AlphaZero能夠在三種不同的棋類遊戲當中使用相同的架構。」

所以,沒錯,谷歌的這套新型AI方案確實在多個方面樹立起新的標杆。它很快,它很強大——但是,它是否真的具有智能?

這正是定義當中最為模糊的部分。DeepMind的Silver在向媒體公開發表的一份聲明中指出,「AlphaZero能夠在無需任何人類知識作為基礎的前提下開始從零學習,並在每一種棋類遊戲當中獲得超越人類的技藝水平。」

眾所周知,棋類遊戲對精神的敏銳度提出了極高的要求,而現有的所有代理在這方面都存在著一定的局限性。在目前的迭代版本中,AlphaZero確實在三種人類設計的遊戲中獲得勝利,但這並不一定能夠保證其實現「全面超越人類」的終極目標。如果在遊戲當中引入新的規則集合,AlphaZero很可能會陷入困境。在另一方面,人類大腦能夠掌握的棋類技藝也絕不止區區三種。

Bryson表示,更重要的是,要如何將AlphaZero基準與tabula rasa(即白板)進行比較。研究人員們也確實將此視為一種重要的延伸。不可否認,程序員仍然需要為AlphaZero提供一小部分人類知識:即需要遵循的遊戲規則。Bryson補充稱,「這方面信息量確實遠遠低於以往AI方案的需求。但從本質上講,其中仍然存在規則,而且規則本身必須是明確的。」

這些討厭的規則很可能成為AI方案難以擺脫的「拐杖」。Howard表示,「即使這些程序學會了如何玩轉遊戲,但仍然需要規則的引導。而真正重要的是,這世界上存在著大量沒有明確規則的任務。」

在發展過程當中,AlphaZero成為已經無比強大的AlphaGo Zero的升級版本。來自弗吉尼亞州立大學理工學院且並未參與這項研究的人工智慧與計算造夢專家JoAnn Paul解釋稱,AlphaZero仍在使用大量與AlphaGo Zero相同的構建塊與演算法,因此其只能算是真正智能方案的組成部分之一。她補充道,「在我看來,這一新進展還要持續演變才能帶來真正的變革。更具體地講,演算法不應進行人為創建,而是由智能本身勾勒故事框架,或者說想像出尚不存在的東西。我們在計算機科學領域還沒有考慮到這些問題。」

在Yu看來,產生問題的原因之一,在於如今人們對於「智能」的定義仍然沒有達成廣泛共識——包括在技術之外的領域也是如此。她同時補充稱,「我們仍不清楚人類是如何建立起批判性思維方式的,也不知道人類如何在無意識中使用大腦資源。」

到目前為止,大部分研究人員堅信可能存在多種智能類型,而強調其中一種的同時也意味著我們遠離了其它種類。舉例來說,一些最聰明的傢伙在國際象棋領域可能表現出眾,但卻未必能夠解決普通人就能輕鬆完成的其它某些任務。

正是由於上述局限性的存在,Yu認為人工智慧未來將以一種共同進化的方式實現人類與機器間的相互配合。她解釋稱,機器肯定能夠繼續在某些任務當中帶來出色的表現,但也許永遠無法徹底擺脫人們的輸入與監督——也就是其中總會存在無法自動化的部分。

當然,沒人清楚整個人工智慧領域將朝著怎樣的方向發展。與此同時,我們也面臨著更多值得思考的問題。Paul總結稱,「這些計算機功能強大,在很多方面也做得比人類更好。但這是否意味著我們揭開了智慧的神秘面紗?答案恐怕是否定的。」

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技行者 的精彩文章:

5G前夜的高通進擊之路:賦能產業新生態
高通發布驍龍855:有第4代AI引擎,還比那些對手快兩倍

TAG:科技行者 |