專訪田淵棟:AlphaGo 之後,研究智能圍棋還有什麼意義?
沒有什麼是永垂不朽的,沒有什麼會一直昌盛,所以我寧願做點真正有意義的事情,來致敬這個風起雲湧的人工智慧時代。
------- 題記。
近日,田淵棟受地平線曾經在 Facebook 的同事邀請,赴中國做了一期大牛講堂,分享了關於遊戲和增強學習等的話題。分享會後,AI 科技評論採訪了田淵棟,就他為什麼離開 Google無人駕駛團隊去 Facebook 人工智慧研究院,現在正在做的工作,如何平衡工作中理論和應用的比率,怎麼看待絕藝和 AlphaGo 的棋藝水平,怎麼看待智能圍棋的實用價值,接受了 AI 科技評論的採訪。以下是採訪正文。
1. AlphaGo 目前是世界第一的圍棋選手,在此之後,研究智能圍棋還有什麼意義?
我覺得圍棋是很有意思的遊戲,AlphaGo 雖然把它做出來了。但很多東西的做法和人是不一樣的。人在學圍棋的時候有很多概念,按照概念做判斷,但是機器解決他還是比較暴力的。
一方面,你可以說人用概念來做推理局限了他的計算能力,體現出人本身有一個高度抽象的能力,就是用非常非常局限的計算能力,能達到那麼強的棋力。而 AlphaGo 就是用非常多的計算能力去彌補這些不足,所以恰恰是互補的,我相信還是有意義的。
另一方面,聯繫到後面那個問題(目前你的研究團隊,對圍棋 AI 的研究進展到何種地步?相比 AlphaGo 如何。),我們這邊在開源之後就先放在那兒了,可能等到以後我們有新想法再拿過來試一試。我們這邊是七八十人的研究機構,要讓我們花二十人做圍棋,這個是不可能的。我們這邊都是很有名的研究員,這些研究員每個人都有自己的方向,像計算機視覺和自然語言處理等等,不可能把自己的方向放棄掉來專門(搞圍棋)。
最後,從本質上來說,我們的風格跟其它公司不一樣。我們研究員的一個目標是說在大家不做這個東西的時候,在比較冷門或者大家不相信它能做得更好的時候去做它,證明這條路能走通。比如說我們在做 DarkForest 的時候,圍棋還是很冷門的方向,大家都不認為圍棋可以做出來。我們的文章比 AlphaGo 早了三個月出來,證明這個東西確實有效果,而且能提高挺多的,這就是我們的貢獻。我之前在採訪裡面說過,好的研究就是 「於無聲處聽驚雷」。
像星際這樣的遊戲,大家都不知道怎麼做,研究員們的任務就是要想辦法找到一些突破口,這個突破口可能沒有人想到,或者是沒有人覺得能做成,我們的目標是在這兒。我回到第一個問題,就是說智能圍棋之後還有什麼意義,就是我剛才說的,如果有人願意想要做下去的話, 就看能不能自動從裡面學出一些概念來,學出一些有意思的東西,比如說人有大局觀或者是大勢,或者是各種下棋時候的概念,概念是不是能從這裡面自動學出來。像這些,目前大家都沒什麼辦法。
(你說大局觀嗎?)
對,像這樣的東西其實對於我們如何理解人的思維方式是更重要的。職業棋手是很厲害的,人腦的神經傳導是毫秒級的,這點時間機器可以干很多事情,但人就是用這麼慢的處理速度達到了這麼強的水平。
2. 絕藝和 AlphaGo 有差距么,差距是多少,是什麼造成了這種差距?
這個我稍微看了一下,我覺得絕藝肯定是比 Zen 要強挺多,200 手不到就讓 Zen 認輸了。我之前看新聞是它對職業棋手可以戰勝 80% 甚至更高,所以我相信它已經是做得非常好了,我相信它肯定是超過了或者是相當於 AlphaGo 之前 Paper(AI 科技評論註:2016 年 1 月 28 日,Deepmind 公司在 Nature 雜誌發表論文 Mastering the game of Go with deep neural networks and tree search,介紹了 AlphaGo 程序的細節。)的水平,但是它跟現在的 Master 相比,可能還是有差距。
3. 跟 AlphaGo 3 月份比賽的水平比如何?
跟 3 月份(對戰李世石)的時候這個我不好說,我只能說和 Nature 那篇論文相比做得好, 當然了跟 Master 比是有差距的,現在 Master 所有對戰是全部都是贏的,沒有輸的,勝率是 100%,而且都是贏的莫名其妙。Master 贏了你,你都不知道什麼地方出錯了,好像下得挺好的,然後就輸掉了。所以就是已經到了不知道錯哪兒的程度了。我相信他們應該用別的方法做訓練的,而不是單純拓展之前的文章。像我是聽說他們最近把訓練好的值網路單獨拿出來,根據它再從頭訓練一個策略網路。我覺得這樣做的好處是會發現一些看起來很怪但其實是好棋的招法,畢竟人類千百年下棋的師承形成了思維定式,有些棋在任何時候都不會走,所以按照人類棋譜訓練出來的策略網路終究會有局限性;而用值網路作為指導,從頭訓練一個策略網路的話,確實會發現很多新招。
(AlphaGo 用其他的方法迭代的?)
我相信他們也用了別的辦法,但是細節我也不知道,因為我最近也沒有做,所以我也不知道他們用什麼樣的辦法,我覺得這方面需要創新。
4. 絕藝這次是跟電腦圍棋比賽,跟下一次的真人比賽區別在哪?
電腦圍棋我們之前也參加過,就是大家坐著,連上之後讓計算機自己下,下到什麼地方就說我輸了你輸了,然後就結束了,有可能說我們看看剩下好像不行了,但是機器誤判,就讓人去認輸。 基本上是這樣的過程。
(那我可以這樣理解嗎?跟電腦圍棋比賽的是兩個既定程序的對戰,比如說電腦圍棋絕藝跟真人,比如柯潔對戰的時候,是變動性更大一點,是嗎?)
我相信是的,因為電腦圍棋至少在之前都是有些明顯的風格,比如說有些喜歡在角上和你拼,不願意去外面搶大場。人可能能看出來這個風格,就會擊敗它,特別是水平不是很高的兩個 AI 下的話,很明顯能看出問題,比如我們 DarkForest 就有死活的問題,我們自己會說,你看這裡下得不對,肯定是這裡下錯了,這個地方他可能判斷有問題,以為這塊棋是活的,其實是死的,所以會有各種各樣的問題。當然了,如果是達到絕藝或者是 AlphaGo 這樣的水平的話,我肯定是看不出來,我需要計算機輔助幫我下到後面才能看到,但是我相信職業棋手還是能看出來,但 Master 我不知道,我不是特別清楚。
5. 以 DarkForest 為例,除了圍棋,這種完全信息博弈的遊戲智慧要應用在其他領域需要解決哪些問題?
我覺得現在這個系統是針對於某個問題做特別優化,我之前在 talk 里也說了,那麼多方法,要依照不同的遊戲用不同的方法,沒有那麼通用的。比如說你在國際象棋上用蒙特卡洛樹搜索肯定是不行的,你可能漏搜了某一條特別重要的分支,然後導致一個殺王的走棋序列沒有看到,這是非常有可能的。所以整個 AlphaGo 是一個大的系統工程和框架結構,它需要有幾個人每天花時間在上面,還得每天不停地調啊調。所以說,現在所謂的 「人工智慧」 還是比較弱的,還是需要人去監督,然後把它做出來。
(如果是要針對某一個特定領域呢?)
就是我剛才說的,你先要對這個領域有了解,然後去設計。比如說圍棋和國際象棋就不一樣,國際象棋每步的可能性比較少,對局面的判斷相對容易,因為這個原因,你要換一個方法做,而不是用原來的方法做。所以對於方法的選擇,其實是完全依賴於這個問題本身的,所以這個是需要大量的人工智慧相關知識才能做出來的。
6. 你剛才講 PPT 的時候,講到你們的圍棋理論可以應用在遊戲方面,還有其它現實生活中的應用場景嗎?
一個問題就是說像完全信息博弈遊戲,你知道你下完這步後局面會變成什麼樣子,你心裡非常非常清楚。但到了現實世界的時候,有時候並不那麼清楚,沒有一個現實世界給你玩,你做完決定之後你得對這個決定的後果負責,所以對這個世界在你下完決定之後變成什麼樣子,你要有一個大概的估計。
所以你在現實世界做規劃的時候,其實需要一個前向模型(forward model), 就是你對將來會發生什麼事情的一個預計,前向模型是一種規劃,是對將來會發生什麼樣事情的預計 。比如說你下完這步之後,可能整個情況變成什麼樣子,之後你再做下一步的計劃。所以這個其實是很大的問題,是遊戲和現實生活中是不同的。
7. 能詳細介紹一下前向模型?
前向模型就是你要對現實世界的運行規律做一個模型。比如說你這個房子過了幾年會變成什麼樣子,比如說這朵花過幾年會變成什麼樣子。你當然不可能能預測所有細節,要找到關鍵性的方面,才能讓你的蒙特卡羅樹之類的搜索產生效果。比如一個國家 30 年後會怎麼樣,和現在這束花是不是會枯萎沒什麼關係,但可能和大家的收入統計有關係。所以關鍵就是怎麼對現實世界來做出抽象的建模。
8. 我們看到絕藝那邊,騰訊的副總裁姚星說他們可以把其 「精準決策」 能力用在無人駕駛,量化金融,輔助醫療等,這個是不是說得太早了?
長遠來說,通過在絕藝上投入的人力和物力,這些工程師的思考本身可以變成經驗。比如說它在人工智慧上通過對於絕藝的提高,他知道了蒙特卡羅樹的適用範圍,知道了增強學習演算法的適用範圍,對這些演算法有一個切身的理解。這樣之後,如果去從事其它方向的 AI,就更加得心應手 。
我不知道 「絕藝」 是怎麼做的,如果他們用的是 Alphago 相似的(原理)的話,要用到其他領域上,就不是特別容易 。比如說像輔助醫療,可能更多的是去識別圖片,去怎麼樣去找到病變組織,這個其實更多的是圖像識別的問題,而不是說關於決策的問題。所以這個其實關係不是特別大,但是不好說,說不定他們有方法。
9. 李開復之前說 「AlphaGo 其實做了相當多的圍棋領域的優化,除了系統調整整合之外,裡面甚至還有人工設定和調節的一些參數,因此還不能算是一個通用技術平台,不是一個工程師經過調動 API 就可以使用的,而且還距離比較遠。」 假如要應用在其他領域,以金融為例,這套系統大概需要改動或調整多少?
這個我也不知道多少,感覺是完全不一樣的。你說金融領域,關鍵是你想要解決什麼問題,你想預測股票價格,還是想要預測什麼?
(比如信用體系一般比較多。)
根據不同的具體問題可能又是完全不一樣的方法,所以你沒有辦法說把這套框架用在某一個很大的領域,因為這個領域有很多問題,你得列出來,對應每個問題去想這個方法能不能用,所以我覺得這個問題其實很難回答。
(這個是要靠 AI 加某個垂直應用場景的實踐,是吧?)
嗯是的。目前為止現在還不存在一個強人工智慧,像人一樣什麼都可以學會,現在沒有這樣的東西,所以現在對應具體的問題我要具體分析,根據這個問題再分析,決定用什麼樣的模型去做它比較好,所以現在是處於這樣的狀態。所以說機器還不能自己決定用什麼模型,還是需要人的輸入 。
10. 你除了圍棋還有其他的研究領域嗎?
我們現在主要在做增強學習在遊戲上的應用。比如說我在 Talk 裡面講了圍棋和最近在第一人稱射擊遊戲上的應用。另外我也做理論,比如說對於二層神經網路做一些收斂性分析,像這個非凸優化問題,要怎麼分析才是好的。
(現在最主要的哪一部分是重點?是理論還是偏應用。)
重點當然是偏應用。理論這個是我以前讀博的方向,也是我個人愛好,我自己比較喜歡,覺得深度學習之所以效果好,肯定有其背後的原因,這個是很重要的問題,需要人去理解,不能放棄。當然純做理論風險比較大,這個大家都知道。
11. 其實之前看你知乎的文章,好像是講過目前深度學習在複雜推理的一些,還有今天的分享裡面你也講了有一些進展和挑戰,在這麼多挑戰裡面,最大的一個挑戰是什麼?
其實有很多點是挺關鍵的,沒有特別重要的,說我們就差這個點了,不是這樣的 。其中一個就是你怎麼樣去像人那樣有高層的建模能力,人可能對一件事情會有比較整體的把握。什麼是戰略上的。什麼是戰術上的,什麼是具體執行上的。人在處理問題時很自然就會有這樣層次式的思考方式。目前為止很多人想做這個。雖然你可以設計很多模型,但沒有看到特別穩定的,很多模型聽起來很好,但是訓練的時候,效果會有問題,會有很多實際的問題,沒辦法做到跟你想像中的那麼好,這是一個問題。另外比如說,如何讓機器能在外界監督信號極度稀缺的情況下學習,如何做無監督學習,如何把傳統符號推理和深度學習結合起來。
12. 你剛才說的目前研究的領域來說,能透露一下你最近一段時間比較重要的進展?
我覺得,理論上來說有一些小小的進展,我之前做了一篇文章研究了兩層神經網路的動力學系統,神經網路它是怎麼收斂的,需要什麼條件。 像這個就是更偏研究類型的。實踐上來說,有一些東西我們在做,不方便說。另外就是多看文章,現在還處在一個積累的過程,多看點兒文章,多理解一些別人做的工作,就會有一些更多的想法。
下一步工作也是圍繞上面說的那些,繼續往下進行?
對。
13. 你目前負責項目和研究領域在整個 Facebook 公司的架構裡面,是處於一個什麼樣的位置,起什麼樣的作用?
其實現在是這樣的,我們組是比較偏研究的,所以我們組的東西不一定要跟產品組有直接聯繫。我們做的東西都會比較前沿一點,不一定會有直接的應用,這是我們這個組很好的地方。我們公司也賦予這樣的自由度。你想,你做的東西完全跟產品掛鉤,每隔幾個月就要求彙報進展,那這樣的話最後的結果就是大家只找最容易做的那些方向,在原來的系統上修修補補。這樣大家就不會願意去想更多的東西了。
(像您剛才說的做研究,需要把一個現在還冷門的東西鑽進去。)
對,比如說訓練圍棋,當時沒有多少人知道這個東西。做研究最重要的是能夠在那麼多方向上,你能看到一個方向是對的,願意花時間把它做出來,證明它是對的,這個是很重要的。
(之前看過您那篇在谷歌和 Facebook 的一個比較,在谷歌是沒有這種自由度的?)
不能這麼說。因為在谷歌時我在無人車組,這是個產品組,決定了必須要有一個非常清楚的脈絡和將來的走向。我當時其實也是想做一些開放性的東西,但是覺得環境也不是特別適合,所以就走了,這是原因之一,我並不是說這個組不好,這個組挺好的,確實是因為我個人的志向和組裡的發展方向不一致,所以我就走了。
14. 你其實特別喜歡寫博客和雜文,甚至我還看到有古文,我想問寫作不管是中文的還是英文的,對於你研究來說有什麼幫助?
這個我覺得是一個思考的方式,東西要寫下來之後你才知道什麼地方出問題了,一個典型的例子就是做數學證明嘛,你覺得好像是對的,但是你寫下來才能證明,很有可能一落筆就發現錯誤了,這個是司空見慣的事情。
(但是其實寫博客和寫論文還是兩種東西嘛,因為寫博客可能不會寫得那麼深。)
論文當然摳得細得多,但大方向都是一樣的 。寫博客的時候一樣要有邏輯,很多話當時想的是這樣,但是寫下來發現這兩句話不連貫,或者是邏輯不通,所以你在整理的過程中其實就是在整理你的思路,這個是挺重要的。
15. 經常看見你說表達的重要性,它在你不管是做研究還是之前在谷歌做產品的時候,它扮演了一個什麼樣的角色?
這個對研究來說非常重要,研究者的一部分工作是要把自己的成果公諸於世。要以清楚的語言概括在做什麼,所以這個其實是我作為這個職位的要求之一,所以這個重要性就不用多談了。
(必須要把現在這個事情給別人說清楚,得到別人的認可?)
對,你要跟別人說清楚,當然公司裡面還好,但你在學校裡邊的時候,你在團隊裡面作為技術帶頭人,必須出去跟其他公司談,或者說跟上層說我需要資源做這樣的事情。這樣表達能力就非常重要了,如果你沒有辦法表達清楚你想要做什麼的話,別人不一定能相信你,也不會給你各種資源。另外比如說你遇到的人才,覺得你做的東西他沒聽懂,或者是不知道你在做什麼,他也不會願意跟你一起共事。作為一個研究員來說,或者是任何在研究這條路上願意走的後輩人來說,這個很重要。
16. 對於 AI 領域的後進者們,比如說學生、創業者或者是研究者們來說,你作為一個過來人,當然還在繼續往前走,對他們有什麼建議?
第一點,我不是什麼過來人,我還要往前走,我也覺得我也只是很多方向剛開始的人,我也不覺得我是一個非常資深的研究員。你之前說我是高級研究員,我們組沒有高級研究員這個頭銜。
(你現在在 Facebook 的頭銜是什麼?)
頭銜就是研究科學家,其實就是研究員。我也不覺得我自己做得有多好,只能說很多事情儘力了 。如果你要翻一下我兩三年前的文章,我之前是做非凸優化在圖像扭曲上的理論分析的,很榮幸地拿了馬爾獎提名。我都不是做這方面(深度學習)的,我也不是做強化學習的,這些方向都是我最近覺得很有意思,然後自己學並且嘗試做的。所以從這方面來說,我對目前我的工作覺得還行,想想只有一兩年時間,會有這樣的知名度和曝光率,這已經是出乎我的意料了。但是不管怎麼樣,曝光率再高,我覺得我自己還是要往前走的,我有很多東西不懂的,前面的路還很長的。所以要說對於其他人的建議,我覺得是就靜下心來做事情,文章該看的要看,該學的要學,程序該寫的要寫,該調通的調通,一步一步往前走。
(就是把眼前的事情做好?)
對。當然方向還要看清楚的。做為一個研究者,要自己看文章定方向,不能人云亦云,這個是身為科研人員最重要的特質。然後做自己想做的事情,重要的就是要做自己想做的事,並且花時間在上面。不要說今天公司有很多錢,我就去了,這樣的話對將來的發展不是特別好的,希望大家能找到自己想做的方向,主要是這一點。還有就是珍惜時間吧,大家的時間都是很寶貴的,如果願意做一些事情,就早點行動,把事情很快地做好。另外要不斷地提高自己。
小結:
AI 科技評論在採訪田淵棟的時候,
在問到 DarkForest 現在的進展時,他表示 「我們這邊其實目前還沒有繼續做,在開源之後就先放在那兒了。」。
在說道人工智慧有什麼意義的時候,他表示 「就是我剛才說的,如果你繼續做下去的話,我們想能不能自動從這裡面學出一些概念來,學出一些有意思的東西…… 像這樣的東西其實對於我們如何理解人的思維方式是更重要的。」
在問道你現在在 Facebook 的頭銜是什麼時,他表示我的 「頭銜就是研究科學家,其實就是研究員。」
類似這樣的風格的回答很多很多,給近在遲尺的 AI 科技評論展現了一個直白坦率,嚴格待己,謙虛待學的生動形象。這跟我們採訪 AI 業界公司大佬時他們覺得他們能解決這個問題,他們沒遇到什麼困難,他們即將所向披靡的那一面然不同,眼前的這個年輕科學家體現的是學界人士低調,謹慎,求是的另一面。但值得一提的事,AI 科技評論看到那張謙遜卻帶了一點點桀驁不馴的臉的背後,的是一個對自己有極高要求,對理想有極高追求的,不願意人云亦云,卻希望真的在人工智慧領域有所作為的科學家的心。在孤獨和庸俗,在跟著心走和大流之間,他選擇了孤獨和跟著心走。
※入侵智能家居網路,黑到讓你懷疑世界
※HTC Vive生態圈大會:汪叢青說了不少好消息,但還是沒說什麼時候出二代頭顯
※微信小程序公布六個新能力,向個人開發者開放註冊
※60秒慢棋賽制「電聖戰」,騰訊「絕藝」戰勝日本新銳棋手一力遼
TAG:雷鋒網 |
※田淵棟直播講解Facebook 圍棋 AI 程序 DarkForest 是如何推理的?
※「AlphaGo太厲害了,我輸得沒什麼脾氣。現在感覺AlphaGo越來越像圍棋上帝。」人工智慧的哲學思考
※馬云:人工智慧下贏了圍棋 又so what?
※AlphaGo之父:選圍棋因其複雜性 盼與柯潔探索真諦
※人和機器,誰才是主宰中國圍棋的「Master」?
※柯潔輸了圍棋界再遭AlphaGo團滅,對於人工智慧你是期待還是恐慌?
※繼攻克圍棋後,Deepmind想「看透」人類的眼睛
※「模仿棋」是什麼?用它就能打敗神秘圍棋AI「Master」嗎?
※除了下圍棋,DeepMind的AI還解鎖了新技能「想像力」
※柯潔迎戰AlphaGo:機器對圍棋沒有熱情
※AlphaGo完爆圍棋界高手,「人工智慧」治不了?
※人類能否戰勝AI?世界圍棋第一人柯潔將與AlphaGo展開終極PK!
※Alpha狗圍棋贏了人類,廚師會不會也終有一天被替代?Hakkasan全球總廚唐志威深度專訪
※[視頻]馬雲評AlphaGo沒意義 聶衛平:圍棋他不懂
※除了圍棋人機世紀對決,Google 還點燃 AI TPU、GPU 大戰盤算為何?
※真人版棋魂:圍棋少年柯潔慢棋智斗AlphaGo
※夢百合杯世界圍棋賽,人類棋手能否阻擊「DeepZenGo」?
※柯潔×AlphaGo對戰日,我們採訪了圍棋大師吳清源
※柯潔:令我震驚的一手 AlphaGo就像圍棋上帝