專訪 UCL 教授汪軍:中國能不能出現像 DeepMind 這樣的企業?| CCF-GAIR 2017
雷鋒網 AI 科技評論按:想必大家都對前段時間火遍學術圈的 BiCNet 並不陌生,這個 UCL 與阿里巴巴合作的多智能雙向協作網路,可在星際爭霸中研究多智能體間的協作學習。在今年由中國計算機學會(CCF)主辦,雷鋒網與香港中文大學(深圳)承辦的第二屆CCF-GAIR全球人工智慧與機器人峰會上,我們榮幸地邀請到了倫敦大學學院(UCL)計算機系教授汪軍博士做了主題演講。
汪軍教授在題為《A Society of AI Agents》的演講中,從多智體群體的特徵切入,介紹了多智體的強化學習特性。具體表現為:在同一環境下,不同的智體既可以單獨處理各自的任務,又可以聯合在一起處理優化一個主要的目標方程,而且會根據具體的情況會有不同的變化。此外,汪軍教授還以多個例子闡述了強化學習與環境的關係。
演講全文:UCL計算機系教授汪軍:如何進行大規模多智體強化學習?| CCF-GAIR 2017
汪軍教授告訴雷鋒網 AI 科技評論,實際上他此前準備的是《Artificial Collective Intelligence》的演講主題,但近期因為在多智能體領域有了一些新的研究和嘗試,因此他在 CCF-GAIR 大會的演講中所引用的兩篇論文也是第一次在公開場合露面。其實他在演講中想講的東西還有很多,因此在演講之後,雷鋒網 AI 科技評論與汪軍進行了一次對話,雷鋒網整理如下:
目前學界少有人在多智能體上進行深度學習方法的研究,這是因為大家目前還只關注單個智能體的作用,還是說這個議題本身就非常難?
其實多智能體是一個研究領域,也有自成一體的會議,研究的人也很多。但目前將多智能體結合強化學習,特別是深度強化學習,目前還是比較新的一個話題。
首先,研究者要解決只有一個智能體的問題,比如說象棋、圍棋,等這個問題解決之後,可能就會接著用深度學習去處理更多的智能體。你可以看到,這有一個自然的脈絡在其中。所以今年就特別明顯,有很多多智能體的問題採用了深度學習的方法去解決,包括 UC 伯克利的一個研究室,做了一個理解語言的研究。在一個給定的場景下,研究者讓多智能體們自己去通訊、去交流,但不告訴彼此交流的內容,最終發現慢慢地,語言就有可能在其中產生。因此這個也非常有意思。
我們團隊可能是從另一個角度出發,想像這些場景在生物學上有沒有什麼規律,比如有可能會出現 Leader,那麼我們可以在這個過程中理解領袖是如何產生的,是不是有些智能體自己就會成為領袖。我們現在所理解的內容就是所謂的「grouping」,也就是在給定一些特定條件下,可能就會認為這些多智能體可以成為一個團隊,這與人類最早最原始的狀態其實是一樣的。最早的時候人需要捕獵,出於安全的考慮可能會組成一個團隊。所以我們通過深度學習的方式,可以學習到以前完全學習不到的東西,甚至對人類學可以了解。
更進一步地,我們是不是可以學習宗教是如何產生的?宗教到底是什麼,因為每個人都可能是自私的,或者每個人都有自己的利益,如果有一個宗教把這些人約束起來,可能這個集團的利益可能會最大化。當然,我現在所說的只是一個假設,現在還沒有人去研究這個,我們所做的研究也只是第一步。
您在演講中也提到,目前很少有人研究超過 20 個智能體的協作,但您也提到了比如說像滴滴的調度問題,還有共享單車的問題。實際上 MSRA 的城市計算,或是滴滴研究院的調度系統都有類似的交通系統研究,但它是屬於一個系統調動所有的個體,那麼將行為個體作為智能體的意義在什麼地方?
在多智能體的情況下,你有兩種設置情況,一種情況是讓每個人之間只優化自己的利益,利益之間雖然可能會有些聯繫,但是每次做決定的時候,雙方不需要知道對方所做的決定。
還有一種是協作關係,在做決定之前需要相互獲取一些信息,最後聯合起來做一個決定。這兩個情況是不一樣的,如果你把它放到一個最特殊的情況,就像你剛才講的,我有一個大系統,我把所有的多智能體全部一起優化,這時候呢這個多智能體其實就轉化成了單智能體,你可以把它當作一個智能體,只不過它的這個輸出太多了,每個都要輸出一個結果。但這個計算量太大,可能有一百萬個,如果每個都要去權衡決策的話,這是不現實的。所以一般來說會選擇一種完全獨立的,或者中間有雙向通訊的方式。
那這樣是不是也涉及到一個博弈問題?
對,博弈有兩種,一個是啊就是我們所謂的零和博弈,就像下棋一樣,你贏了我就輸了,它是一個互相博弈的情況。那麼還有一些協作的關係,比如我們倆的目標是一樣的,那麼會涉及到雙方的貢獻程度。
那麼您在演講中所說的生態系統的例子,其實是希望找到背後的一些生態學規律?這些理論性的內容能夠如何被應用呢?
其實有兩個層面。第一個是,我們想從科學上面理解它背後的規律,要滿足我們的好奇心。比如說人工智慧體在做出一個群體以後,是不是跟大自然的表現情況是一樣的,如果不一樣,有什麼差別?如果一樣,為什麼?我們完全不會考慮它可能會有什麼(應)用,主要還是滿足我們的好奇心。
我們當時做環境動態變化研究的出發點在於,在玩遊戲的時候,比如說玩王者榮耀,如果你玩遊戲的水平比較弱,如果對手設計得太強了,你玩一下就覺得沒意思了;如果你的水平很強,但這個遊戲對手的難度又很弱,你玩著也沒有意思。因此遊戲難度的設計,本身也就是優化這個遊戲本身的一個過程。
但遊戲還是在一個虛擬環境下設計的,那麼在實際情況和實際應用里,如何進行各種指標的量化?
主要有兩點,一個是在有些情況下你可以自己設定,那麼進行試錯就可以了。如果是理論性更加的話,還有一種叫「Inverse Reinforce Learning」的方法,就是說反過來玩,我們有一些最優化的策略作為訓練集,然後把它放回強化學習系統里去學習 reward ,然後用獲得的 reward 再去解決新問題。
其實我看您的近期研究內容與 GAN 的聯繫非常緊密,包括 SeqGAN、IRGAN 等。你覺得目前 GAN 是一個比較有效的方法嗎?還是說,與 GAN 的結合會是未來的一個趨勢?
我們的 SeqGAN 出來之後,現在是目前唯一一個可以用在離散數據上的有效方法,所以今年你會看到有很多論文用 SeqGAN 去解決文本問題,所以我們那個文章的引用就變得非常高。
有研究者採用的是另外一個方法,那個方法理論很好,但是實際數據的表現還不是太好。所以我們現在也在嘗試,是不是要在一些標準的數據集上再好好地把效果提上去。
那如果引申到您非常擅長的推薦系統與計算化廣告領域,您覺得應該如何用深度學習結合起來?
比如像 GAN 的話,我覺得現在就火得有點過了,它在解決某些問題可能還是夠嗆。(比如說呢?)比如說像離散數據就比較難解決,我們也只是提出了一個方法,具體效果好壞大家也都還在嘗試。此外,在優化的時候不一定效果很好,可能要試很多次,不像現在的 Deep Learning。
以 IRGAN 為例,這是您與學術界進行合作的一個成果;而像 BiCNet 這樣的多智能體協作系統則是與工業界合作聯繫的,那麼在這兩個研究中,您感受到最大的不同之處在哪裡?
公司具有很強的工程性,而且有數據,比如說有些論文如果是與工業界合作,你可以進行在線測試,包括系統上的 A/B Testing,但在學校不可能讓幾個博士生去做這個事情。博士生必須在這幾年內找到一個題目,直接去做科學的研究。
除了與雙界合作外,我了解到您也在北京創辦了一個公司,做個性化推薦的業務,那麼為何不選擇直接創業,學術界對您的吸引力可能在什麼地方?
不論是在學校還是在產業界,大家的出發點都是想解決一些技術問題。我的興趣還是一直在學校,創立公司的目的也是希望通過這樣的方式實現技術轉化。像計算化廣告或是推薦系統,如果沒有一個公司作為載體,可能我就不能拿到用戶的數據,也不能做在線測試。
我覺得高校對我的吸引力在於解決一些最基礎的問題,在企業界可能不太容易能實現這個狀態,公司也有產品化的需求。
那麼像阿里與高校合作研究星際爭霸,實際上是一個比較特殊的情況?因為它並不是直接以產品化為導向的?
是的,阿里做這個事情的確是一個比較特例的情況,而像 DeepMind 這樣的情況就更少了。DeepMind 給自己的定位是純研究機構,但實現的卻是商業化的運作。實際上我認為,母公司提供資金,讓基礎研究機構以商業化模式去管理,做一些比較前沿的研究,它的回報率會更高。我一直想強調的一點是,為什麼中國不能出現像 DeepMind、Magic Pony 這樣的公司?
如果是 VC 比較急功近利,那可能就做不了,第一年投錢,第二年就想把產品做出來,這對基礎研究來說是不現實的。但如果把研究放回高校,高校的機制又存在著不足,也就是「一個蘿蔔一個坑」。什麼意思呢?一個博士生,他要在四年里獨立地完成一個項目。當然我們有些機制可以讓學生們一起合作,但還是非常零散的狀態。不可能在高校里找 10 個最牛的學生去把星際這個問題徹底搞定,只有在工業界中雇 10 個最牛的人去做這個事情,這其中有工程師、有程序員、有系統維護,這樣才能產生一個 AlphaGo。
現在國內很多企業也在建研究院,是不是也在想向這種方向靠攏?
對,但他們的研究院都是非常功利性的,都是研究院,但是都不研究。我覺得要解決這個問題可能有兩種渠道,一個是大公司突然就覺悟了,要做一個全新的商業化運作的純研究機構;另一個是創業公司自己帶頭做基礎研究,如果把 AlphaGo 這樣的研究做成了,我相信對 VC 的價值也很高。比如星際爭霸這個事情,或者說王者榮耀,如果能做到能與一般水平或者水平稍微好點的玩家對抗,那它的價值就非常大了。
後記:汪軍教授的微信簽名是「with a curious mind」,問他這是不是一個對自己的評價,他說,做學術就是這麼回事,需要永遠保持一顆好奇心。此外,這句簽名更多地也表達了他對生活的一種態度。汪軍教授表示,在回學校後打算繼續安安靜靜踏踏實實再做幾篇文章。「AI 可能今年火,那明年可能就不火了,那麼你是要改行干別的嗎?肯定不是,你還得繼續往下走。」
※黑客:iPhone的這些腦殘功逼我去越獄 蘋果:乖,招安是我強項!
※深度丨中科院田捷博士:基於醫療大數據和AI技術的影像組學及其應用丨CCF-GAIR 2017
※一位學術青年眼中的CCF-GAIR ,除了乾貨滿滿還有哪些細節?
※AI 時代,Google 等科技巨頭如何避免被顛覆?
※阿里智能音箱力推的「殺手鐧」功能,也許只是個「偽賣點」
TAG:雷鋒網 |
※2017中國好應用,Testin IoT工業AppBase Best 50強報告
※A BATHING APE x Dr.Martens聯乘系列登陸中國內地
※VR虛擬現實2017中國好應用AppBase Best 50強,Testin雲測年度發布
※2017年VRPinea廠商年終回訪報告(一):Epic Games中國
※中國好公司!這次送iPhoneX,還是「定製版」的256GB!
※Apple Watch 3 LTE版2月9日香港開賣 暫不支持在中國大陸使用
※Maison&Objet 2018 中國設計中心首次亮相巴黎
※NOT CONFIDENTIAL主題概念展火熱開啟!Balenciaga變中國製造?丨潮聞快食
※陳冠希+PEACEBIRD MEN=中國製造!
※雪山再現!中國三方團隊聯手打造 Supreme x TNF x Air Foamposite One !
※「天津噴」 不再孤單!今年的 NIKE Air Foamposite One中國特別款 「要上天」 !
※「天津噴」 不再孤單!今年的 NIKE Air Foamposite One中國特別款 「要上天」!
※重磅!2018版中國NSCLC血液EGFR檢測專家共識發表!
※Ke-Da Wang 中國水彩畫家
※Event Report on China s English World 中國英語界盛事報道
※港版Apple Watch 3 LTE版上市 不支持中國大陸網路
※堪比「天津噴」!NIKE Air Foamposite One 「中國煙花噴」完整高清大圖一覽!
※杜德偉獲Billboard RadioIcon Awards成為首位獲獎中國歌手
※Ingenico ePayments:中國商戶「出海」的新機會
※01.27展覽預告︱「抽象+」 Abstract Plus 抽象繪畫在中國的新可能性