專訪田淵棟：AlphaGo 之後，研究智能圍棋還有什麼意義？

新聞 03-28

沒有什麼是永垂不朽的，沒有什麼會一直昌盛，所以我寧願做點真正有意義的事情，來致敬這個風起雲湧的人工智慧時代。

------- 題記。

近日，田淵棟受地平線曾經在 Facebook 的同事邀請，赴中國做了一期大牛講堂，分享了關於遊戲和增強學習等的話題。分享會後，AI 科技評論採訪了田淵棟，就他為什麼離開 Google無人駕駛團隊去 Facebook 人工智慧研究院，現在正在做的工作，如何平衡工作中理論和應用的比率，怎麼看待絕藝和 AlphaGo 的棋藝水平，怎麼看待智能圍棋的實用價值，接受了 AI 科技評論的採訪。以下是採訪正文。

1. AlphaGo 目前是世界第一的圍棋選手，在此之後，研究智能圍棋還有什麼意義？

專訪田淵棟：AlphaGo 之後，研究智能圍棋還有什麼意義？

我覺得圍棋是很有意思的遊戲，AlphaGo 雖然把它做出來了。但很多東西的做法和人是不一樣的。人在學圍棋的時候有很多概念，按照概念做判斷，但是機器解決他還是比較暴力的。

一方面，你可以說人用概念來做推理局限了他的計算能力，體現出人本身有一個高度抽象的能力，就是用非常非常局限的計算能力，能達到那麼強的棋力。而 AlphaGo 就是用非常多的計算能力去彌補這些不足，所以恰恰是互補的，我相信還是有意義的。

另一方面，聯繫到後面那個問題（目前你的研究團隊，對圍棋 AI 的研究進展到何種地步？相比 AlphaGo 如何。），我們這邊在開源之後就先放在那兒了，可能等到以後我們有新想法再拿過來試一試。我們這邊是七八十人的研究機構，要讓我們花二十人做圍棋，這個是不可能的。我們這邊都是很有名的研究員，這些研究員每個人都有自己的方向，像計算機視覺和自然語言處理等等，不可能把自己的方向放棄掉來專門（搞圍棋）。

最後，從本質上來說，我們的風格跟其它公司不一樣。我們研究員的一個目標是說在大家不做這個東西的時候，在比較冷門或者大家不相信它能做得更好的時候去做它，證明這條路能走通。比如說我們在做 DarkForest 的時候，圍棋還是很冷門的方向，大家都不認為圍棋可以做出來。我們的文章比 AlphaGo 早了三個月出來，證明這個東西確實有效果，而且能提高挺多的，這就是我們的貢獻。我之前在採訪裡面說過，好的研究就是「於無聲處聽驚雷」。

像星際這樣的遊戲，大家都不知道怎麼做，研究員們的任務就是要想辦法找到一些突破口，這個突破口可能沒有人想到，或者是沒有人覺得能做成，我們的目標是在這兒。我回到第一個問題，就是說智能圍棋之後還有什麼意義，就是我剛才說的，如果有人願意想要做下去的話，就看能不能自動從裡面學出一些概念來，學出一些有意思的東西，比如說人有大局觀或者是大勢，或者是各種下棋時候的概念，概念是不是能從這裡面自動學出來。像這些，目前大家都沒什麼辦法。

（你說大局觀嗎？）

對，像這樣的東西其實對於我們如何理解人的思維方式是更重要的。職業棋手是很厲害的，人腦的神經傳導是毫秒級的，這點時間機器可以干很多事情，但人就是用這麼慢的處理速度達到了這麼強的水平。

2. 絕藝和 AlphaGo 有差距么，差距是多少，是什麼造成了這種差距？

這個我稍微看了一下，我覺得絕藝肯定是比 Zen 要強挺多，200 手不到就讓 Zen 認輸了。我之前看新聞是它對職業棋手可以戰勝 80% 甚至更高，所以我相信它已經是做得非常好了，我相信它肯定是超過了或者是相當於 AlphaGo 之前 Paper（AI 科技評論註：2016 年 1 月 28 日，Deepmind 公司在 Nature 雜誌發表論文 Mastering the game of Go with deep neural networks and tree search，介紹了 AlphaGo 程序的細節。）的水平，但是它跟現在的 Master 相比，可能還是有差距。

3. 跟 AlphaGo 3 月份比賽的水平比如何？

跟 3 月份（對戰李世石）的時候這個我不好說，我只能說和 Nature 那篇論文相比做得好，當然了跟 Master 比是有差距的，現在 Master 所有對戰是全部都是贏的，沒有輸的，勝率是 100%，而且都是贏的莫名其妙。Master 贏了你，你都不知道什麼地方出錯了，好像下得挺好的，然後就輸掉了。所以就是已經到了不知道錯哪兒的程度了。我相信他們應該用別的方法做訓練的，而不是單純拓展之前的文章。像我是聽說他們最近把訓練好的值網路單獨拿出來，根據它再從頭訓練一個策略網路。我覺得這樣做的好處是會發現一些看起來很怪但其實是好棋的招法，畢竟人類千百年下棋的師承形成了思維定式，有些棋在任何時候都不會走，所以按照人類棋譜訓練出來的策略網路終究會有局限性；而用值網路作為指導，從頭訓練一個策略網路的話，確實會發現很多新招。

（AlphaGo 用其他的方法迭代的？）

我相信他們也用了別的辦法，但是細節我也不知道，因為我最近也沒有做，所以我也不知道他們用什麼樣的辦法，我覺得這方面需要創新。

4. 絕藝這次是跟電腦圍棋比賽，跟下一次的真人比賽區別在哪？

電腦圍棋我們之前也參加過，就是大家坐著，連上之後讓計算機自己下，下到什麼地方就說我輸了你輸了，然後就結束了，有可能說我們看看剩下好像不行了，但是機器誤判，就讓人去認輸。基本上是這樣的過程。

（那我可以這樣理解嗎？跟電腦圍棋比賽的是兩個既定程序的對戰，比如說電腦圍棋絕藝跟真人，比如柯潔對戰的時候，是變動性更大一點，是嗎？）

我相信是的，因為電腦圍棋至少在之前都是有些明顯的風格，比如說有些喜歡在角上和你拼，不願意去外面搶大場。人可能能看出來這個風格，就會擊敗它，特別是水平不是很高的兩個 AI 下的話，很明顯能看出問題，比如我們 DarkForest 就有死活的問題，我們自己會說，你看這裡下得不對，肯定是這裡下錯了，這個地方他可能判斷有問題，以為這塊棋是活的，其實是死的，所以會有各種各樣的問題。當然了，如果是達到絕藝或者是 AlphaGo 這樣的水平的話，我肯定是看不出來，我需要計算機輔助幫我下到後面才能看到，但是我相信職業棋手還是能看出來，但 Master 我不知道，我不是特別清楚。

5. 以 DarkForest 為例，除了圍棋，這種完全信息博弈的遊戲智慧要應用在其他領域需要解決哪些問題？

我覺得現在這個系統是針對於某個問題做特別優化，我之前在 talk 里也說了，那麼多方法，要依照不同的遊戲用不同的方法，沒有那麼通用的。比如說你在國際象棋上用蒙特卡洛樹搜索肯定是不行的，你可能漏搜了某一條特別重要的分支，然後導致一個殺王的走棋序列沒有看到，這是非常有可能的。所以整個 AlphaGo 是一個大的系統工程和框架結構，它需要有幾個人每天花時間在上面，還得每天不停地調啊調。所以說，現在所謂的「人工智慧」還是比較弱的，還是需要人去監督，然後把它做出來。

（如果是要針對某一個特定領域呢？）

就是我剛才說的，你先要對這個領域有了解，然後去設計。比如說圍棋和國際象棋就不一樣，國際象棋每步的可能性比較少，對局面的判斷相對容易，因為這個原因，你要換一個方法做，而不是用原來的方法做。所以對於方法的選擇，其實是完全依賴於這個問題本身的，所以這個是需要大量的人工智慧相關知識才能做出來的。

6. 你剛才講 PPT 的時候，講到你們的圍棋理論可以應用在遊戲方面，還有其它現實生活中的應用場景嗎？

一個問題就是說像完全信息博弈遊戲，你知道你下完這步後局面會變成什麼樣子，你心裡非常非常清楚。但到了現實世界的時候，有時候並不那麼清楚，沒有一個現實世界給你玩，你做完決定之後你得對這個決定的後果負責，所以對這個世界在你下完決定之後變成什麼樣子，你要有一個大概的估計。

所以你在現實世界做規劃的時候，其實需要一個前向模型（forward model）, 就是你對將來會發生什麼事情的一個預計，前向模型是一種規劃，是對將來會發生什麼樣事情的預計。比如說你下完這步之後，可能整個情況變成什麼樣子，之後你再做下一步的計劃。所以這個其實是很大的問題，是遊戲和現實生活中是不同的。

7. 能詳細介紹一下前向模型？

前向模型就是你要對現實世界的運行規律做一個模型。比如說你這個房子過了幾年會變成什麼樣子，比如說這朵花過幾年會變成什麼樣子。你當然不可能能預測所有細節，要找到關鍵性的方面，才能讓你的蒙特卡羅樹之類的搜索產生效果。比如一個國家 30 年後會怎麼樣，和現在這束花是不是會枯萎沒什麼關係，但可能和大家的收入統計有關係。所以關鍵就是怎麼對現實世界來做出抽象的建模。

8. 我們看到絕藝那邊，騰訊的副總裁姚星說他們可以把其「精準決策」能力用在無人駕駛，量化金融，輔助醫療等，這個是不是說得太早了？

長遠來說，通過在絕藝上投入的人力和物力，這些工程師的思考本身可以變成經驗。比如說它在人工智慧上通過對於絕藝的提高，他知道了蒙特卡羅樹的適用範圍，知道了增強學習演算法的適用範圍，對這些演算法有一個切身的理解。這樣之後，如果去從事其它方向的 AI，就更加得心應手。

我不知道「絕藝」是怎麼做的，如果他們用的是 Alphago 相似的（原理）的話，要用到其他領域上，就不是特別容易。比如說像輔助醫療，可能更多的是去識別圖片，去怎麼樣去找到病變組織，這個其實更多的是圖像識別的問題，而不是說關於決策的問題。所以這個其實關係不是特別大，但是不好說，說不定他們有方法。

9. 李開復之前說「AlphaGo 其實做了相當多的圍棋領域的優化，除了系統調整整合之外，裡面甚至還有人工設定和調節的一些參數，因此還不能算是一個通用技術平台，不是一個工程師經過調動 API 就可以使用的，而且還距離比較遠。」假如要應用在其他領域，以金融為例，這套系統大概需要改動或調整多少？

這個我也不知道多少，感覺是完全不一樣的。你說金融領域，關鍵是你想要解決什麼問題，你想預測股票價格，還是想要預測什麼？

（比如信用體系一般比較多。）

根據不同的具體問題可能又是完全不一樣的方法，所以你沒有辦法說把這套框架用在某一個很大的領域，因為這個領域有很多問題，你得列出來，對應每個問題去想這個方法能不能用，所以我覺得這個問題其實很難回答。

（這個是要靠 AI 加某個垂直應用場景的實踐，是吧？）

嗯是的。目前為止現在還不存在一個強人工智慧，像人一樣什麼都可以學會，現在沒有這樣的東西，所以現在對應具體的問題我要具體分析，根據這個問題再分析，決定用什麼樣的模型去做它比較好，所以現在是處於這樣的狀態。所以說機器還不能自己決定用什麼模型，還是需要人的輸入。

10. 你除了圍棋還有其他的研究領域嗎？

我們現在主要在做增強學習在遊戲上的應用。比如說我在 Talk 裡面講了圍棋和最近在第一人稱射擊遊戲上的應用。另外我也做理論，比如說對於二層神經網路做一些收斂性分析，像這個非凸優化問題，要怎麼分析才是好的。

(現在最主要的哪一部分是重點？是理論還是偏應用。)

重點當然是偏應用。理論這個是我以前讀博的方向，也是我個人愛好，我自己比較喜歡，覺得深度學習之所以效果好，肯定有其背後的原因，這個是很重要的問題，需要人去理解，不能放棄。當然純做理論風險比較大，這個大家都知道。

11. 其實之前看你知乎的文章，好像是講過目前深度學習在複雜推理的一些，還有今天的分享裡面你也講了有一些進展和挑戰，在這麼多挑戰裡面，最大的一個挑戰是什麼？

其實有很多點是挺關鍵的，沒有特別重要的，說我們就差這個點了，不是這樣的。其中一個就是你怎麼樣去像人那樣有高層的建模能力，人可能對一件事情會有比較整體的把握。什麼是戰略上的。什麼是戰術上的，什麼是具體執行上的。人在處理問題時很自然就會有這樣層次式的思考方式。目前為止很多人想做這個。雖然你可以設計很多模型，但沒有看到特別穩定的，很多模型聽起來很好，但是訓練的時候，效果會有問題，會有很多實際的問題，沒辦法做到跟你想像中的那麼好，這是一個問題。另外比如說，如何讓機器能在外界監督信號極度稀缺的情況下學習，如何做無監督學習，如何把傳統符號推理和深度學習結合起來。

12. 你剛才說的目前研究的領域來說，能透露一下你最近一段時間比較重要的進展？

我覺得，理論上來說有一些小小的進展，我之前做了一篇文章研究了兩層神經網路的動力學系統，神經網路它是怎麼收斂的，需要什麼條件。像這個就是更偏研究類型的。實踐上來說，有一些東西我們在做，不方便說。另外就是多看文章，現在還處在一個積累的過程，多看點兒文章，多理解一些別人做的工作，就會有一些更多的想法。

下一步工作也是圍繞上面說的那些，繼續往下進行？

對。

13. 你目前負責項目和研究領域在整個 Facebook 公司的架構裡面，是處於一個什麼樣的位置，起什麼樣的作用？

其實現在是這樣的，我們組是比較偏研究的，所以我們組的東西不一定要跟產品組有直接聯繫。我們做的東西都會比較前沿一點，不一定會有直接的應用，這是我們這個組很好的地方。我們公司也賦予這樣的自由度。你想，你做的東西完全跟產品掛鉤，每隔幾個月就要求彙報進展，那這樣的話最後的結果就是大家只找最容易做的那些方向，在原來的系統上修修補補。這樣大家就不會願意去想更多的東西了。

（像您剛才說的做研究，需要把一個現在還冷門的東西鑽進去。）

對，比如說訓練圍棋，當時沒有多少人知道這個東西。做研究最重要的是能夠在那麼多方向上，你能看到一個方向是對的，願意花時間把它做出來，證明它是對的，這個是很重要的。

（之前看過您那篇在谷歌和 Facebook 的一個比較，在谷歌是沒有這種自由度的？）

不能這麼說。因為在谷歌時我在無人車組，這是個產品組，決定了必須要有一個非常清楚的脈絡和將來的走向。我當時其實也是想做一些開放性的東西，但是覺得環境也不是特別適合，所以就走了，這是原因之一，我並不是說這個組不好，這個組挺好的，確實是因為我個人的志向和組裡的發展方向不一致，所以我就走了。

14. 你其實特別喜歡寫博客和雜文，甚至我還看到有古文，我想問寫作不管是中文的還是英文的，對於你研究來說有什麼幫助？

這個我覺得是一個思考的方式，東西要寫下來之後你才知道什麼地方出問題了，一個典型的例子就是做數學證明嘛，你覺得好像是對的，但是你寫下來才能證明，很有可能一落筆就發現錯誤了，這個是司空見慣的事情。

（但是其實寫博客和寫論文還是兩種東西嘛，因為寫博客可能不會寫得那麼深。）

論文當然摳得細得多，但大方向都是一樣的。寫博客的時候一樣要有邏輯，很多話當時想的是這樣，但是寫下來發現這兩句話不連貫，或者是邏輯不通，所以你在整理的過程中其實就是在整理你的思路，這個是挺重要的。

15. 經常看見你說表達的重要性，它在你不管是做研究還是之前在谷歌做產品的時候，它扮演了一個什麼樣的角色？

這個對研究來說非常重要，研究者的一部分工作是要把自己的成果公諸於世。要以清楚的語言概括在做什麼，所以這個其實是我作為這個職位的要求之一，所以這個重要性就不用多談了。

（必須要把現在這個事情給別人說清楚，得到別人的認可？）

對，你要跟別人說清楚，當然公司裡面還好，但你在學校裡邊的時候，你在團隊裡面作為技術帶頭人，必須出去跟其他公司談，或者說跟上層說我需要資源做這樣的事情。這樣表達能力就非常重要了，如果你沒有辦法表達清楚你想要做什麼的話，別人不一定能相信你，也不會給你各種資源。另外比如說你遇到的人才，覺得你做的東西他沒聽懂，或者是不知道你在做什麼，他也不會願意跟你一起共事。作為一個研究員來說，或者是任何在研究這條路上願意走的後輩人來說，這個很重要。

16. 對於 AI 領域的後進者們，比如說學生、創業者或者是研究者們來說，你作為一個過來人，當然還在繼續往前走，對他們有什麼建議？

第一點，我不是什麼過來人，我還要往前走，我也覺得我也只是很多方向剛開始的人，我也不覺得我是一個非常資深的研究員。你之前說我是高級研究員，我們組沒有高級研究員這個頭銜。

（你現在在 Facebook 的頭銜是什麼？）

頭銜就是研究科學家，其實就是研究員。我也不覺得我自己做得有多好，只能說很多事情儘力了。如果你要翻一下我兩三年前的文章，我之前是做非凸優化在圖像扭曲上的理論分析的，很榮幸地拿了馬爾獎提名。我都不是做這方面（深度學習）的，我也不是做強化學習的，這些方向都是我最近覺得很有意思，然後自己學並且嘗試做的。所以從這方面來說，我對目前我的工作覺得還行，想想只有一兩年時間，會有這樣的知名度和曝光率，這已經是出乎我的意料了。但是不管怎麼樣，曝光率再高，我覺得我自己還是要往前走的，我有很多東西不懂的，前面的路還很長的。所以要說對於其他人的建議，我覺得是就靜下心來做事情，文章該看的要看，該學的要學，程序該寫的要寫，該調通的調通，一步一步往前走。

（就是把眼前的事情做好？）

對。當然方向還要看清楚的。做為一個研究者，要自己看文章定方向，不能人云亦云，這個是身為科研人員最重要的特質。然後做自己想做的事情，重要的就是要做自己想做的事，並且花時間在上面。不要說今天公司有很多錢，我就去了，這樣的話對將來的發展不是特別好的，希望大家能找到自己想做的方向，主要是這一點。還有就是珍惜時間吧，大家的時間都是很寶貴的，如果願意做一些事情，就早點行動，把事情很快地做好。另外要不斷地提高自己。

小結：

AI 科技評論在採訪田淵棟的時候，

在問到 DarkForest 現在的進展時，他表示「我們這邊其實目前還沒有繼續做，在開源之後就先放在那兒了。」。

在說道人工智慧有什麼意義的時候，他表示「就是我剛才說的，如果你繼續做下去的話，我們想能不能自動從這裡面學出一些概念來，學出一些有意思的東西…… 像這樣的東西其實對於我們如何理解人的思維方式是更重要的。」

在問道你現在在 Facebook 的頭銜是什麼時，他表示我的「頭銜就是研究科學家，其實就是研究員。」

類似這樣的風格的回答很多很多，給近在遲尺的 AI 科技評論展現了一個直白坦率，嚴格待己，謙虛待學的生動形象。這跟我們採訪 AI 業界公司大佬時他們覺得他們能解決這個問題，他們沒遇到什麼困難，他們即將所向披靡的那一面然不同，眼前的這個年輕科學家體現的是學界人士低調，謹慎，求是的另一面。但值得一提的事，AI 科技評論看到那張謙遜卻帶了一點點桀驁不馴的臉的背後，的是一個對自己有極高要求，對理想有極高追求的，不願意人云亦云，卻希望真的在人工智慧領域有所作為的科學家的心。在孤獨和庸俗，在跟著心走和大流之間，他選擇了孤獨和跟著心走。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※入侵智能家居網路，黑到讓你懷疑世界
※HTC Vive生態圈大會：汪叢青說了不少好消息，但還是沒說什麼時候出二代頭顯
※微信小程序公布六個新能力，向個人開發者開放註冊
※60秒慢棋賽制「電聖戰」，騰訊「絕藝」戰勝日本新銳棋手一力遼

TAG:雷鋒網 |

您可能感興趣

※田淵棟直播講解Facebook 圍棋 AI 程序 DarkForest 是如何推理的？
※「AlphaGo太厲害了，我輸得沒什麼脾氣。現在感覺AlphaGo越來越像圍棋上帝。」人工智慧的哲學思考
※馬云：人工智慧下贏了圍棋又so what？
※AlphaGo之父：選圍棋因其複雜性盼與柯潔探索真諦
※人和機器，誰才是主宰中國圍棋的「Master」？
※柯潔輸了圍棋界再遭AlphaGo團滅，對於人工智慧你是期待還是恐慌？
※繼攻克圍棋後，Deepmind想「看透」人類的眼睛
※「模仿棋」是什麼？用它就能打敗神秘圍棋AI「Master」嗎？
※除了下圍棋，DeepMind的AI還解鎖了新技能「想像力」
※柯潔迎戰AlphaGo：機器對圍棋沒有熱情
※AlphaGo完爆圍棋界高手，「人工智慧」治不了？
※人類能否戰勝AI？世界圍棋第一人柯潔將與AlphaGo展開終極PK！
※Alpha狗圍棋贏了人類，廚師會不會也終有一天被替代？Hakkasan全球總廚唐志威深度專訪
※[視頻]馬雲評AlphaGo沒意義聶衛平：圍棋他不懂
※除了圍棋人機世紀對決，Google 還點燃 AI TPU、GPU 大戰盤算為何？
※真人版棋魂：圍棋少年柯潔慢棋智斗AlphaGo
※夢百合杯世界圍棋賽，人類棋手能否阻擊「DeepZenGo」？
※柯潔×AlphaGo對戰日，我們採訪了圍棋大師吳清源
※柯潔：令我震驚的一手 AlphaGo就像圍棋上帝