對標DeepMind：馬斯克要用開源對抗巨頭，現在卻飽受質疑

新聞 08-16

OpenAI 的研究員們認為，AI 研究是一個純凈的世界，最棒的理念並不是靠下一個產品循環或者利潤驅動的——至少不完全由它們驅動。研究人員想讓AI更好，如果拒絕分享最新的研究成果，AI 就不可能變得更好。

新智元原創

作者：胡祥傑張易文強

【新智元導讀】DOTA2的比賽讓OpenAI 火了一把。對於Open AI, 我們知道它是一家非盈利的，要用開放的方法研究通用人工智慧，為人類帶來福祉的研究機構。我們可能還知道，Elon Musk 是這家機構的最大股東之一，目前他們已經募集到了10億美元的融資。但是，你可能不知道的是，懷著崇高理想的Open AI 和馬斯克正飽受質疑：從人才流動到業務模式，再到發展前景。Open AI 的初衷真的是為了更安全的AI 嗎？它是不是成為了馬斯克或者其他利益集團的人才「後花園」？

GIF/38K

今年的 DOTA2 經典賽事 TI7 國際邀請賽讓 Open AI 大火了一把: 他們研發的Self-Play 機器人在Dota2 1v1 比賽中戰勝了人類頂級職業玩家 Dendi，在這場頂尖的電競比賽中大放異彩。

提到Open AI，一般都會稱「馬斯克的Open AI」。作為Open AI 的最大投資人之一，馬斯克也在 Twitter 上盛讚團隊在這次與人類玩家對決的DOTA 2 比賽中的英勇表現。

Elon Musk 發表推文稱讚 OpenAI 的戰績，並其為「在電子競技領域首個擊敗人類頂級玩家的機器人」。

這場比賽結束之後，AI界討論的一個焦點是：OpenAI 的 bot 究竟有沒有連接 Dota 的 bot API？因為如果連接了的話，那麼它就能直接獲得遊戲中的實時信息，比如，不同角色之間的地理距離（以決定攻擊或者逃逸）。後來，Open AI的Greg Brockman 證實，他們確實使用了Bota的bot API，並且，某些技巧是他們自己手寫代碼，以硬編程的方式寫進agent中的。雖然他們確實也使用了一些試錯的技術，比如強化學習。總體而言，Open AI 這次出戰Dota 2 的機器人確實是有少量人為「指導」的。

巴斯大學遊戲AI研究員、經驗豐富的Dota玩家Andreas Theodorou解釋了為什麼這會帶來不同結果。「Dota的一個關鍵就是你需要計算距離才能知道一些[攻擊]的里程」，他說，「API讓機器人能對範圍長短獲得暗示。所以你可以說：「如果有人在500米範圍內，就攻擊吧，」但人類玩家必須自己計算，通過試錯來學習。如果機器人能夠獲得人類玩家沒有的信息，那麼就真的會給它們一個優勢。「在一個1v1比賽中，對抗一個像Shadow Fiend這樣的英雄，這一效果尤為顯著。玩家必須專註於在正確的時機展開攻擊，而不是總體戰略。

在當天接下來的比賽中，Open AI 的機器人被人類玩家擊敗了50次，但是這個時候，關心這一人機對抗的人已經不多了。

外界認為，雖然Dota2 等遊戲確實比圍棋的複雜得多，需要的技巧和能力也更多。但是 Open AI 的機器人對人類玩家的這一場勝利意義遠遠比不上DeepMind AlphaGo戰勝人類圍棋專業棋手。

在技術方向和目標上，DeepMind 和 Open AI 有著巨大的相似性：目前都專註於對強化學習（reinforce learning)，目標都是開發出具有人類能力的通用人工智慧，而他們目前訓練和研究人工智慧的主要環境也都是遊戲。

蒙特利爾會議：Open AI 誕生記

2015年12月一個周五的下午，特斯拉創始人Musk 和 Y Combinator總裁Sam Altman 宣布成立新的人工智慧（AI）公司Open AI，當時他們正在參加 Montreal AI 會議，當會議進入尾聲時他們宣布了該消息。

OpenAI 現在擁有60名全職研究員和工程師。OpenAI 關注長期研究，會在頂尖的機器學習會議上發布論文、開源了一系列加速 AI 研究的軟體工具，他們還會公布研究博客，以促進研究交流。

Open AI 的主要業務有兩個：機器人、複雜的計算機遊戲和大量的計算機遊戲。機器人方面，聚焦於機器人操作，機器人的研究主要涉及三個層面，移動（locomotion）、導航（ navigation）和操作（manipulation）。

從研究上說，OpenAI 主要做的是基礎研究，關注技術長期的發展，最有代表性的是強化學習（Reinforce Learning）。

關於OpenAI，有兩個比較重大的事實：最大的投資人是馬斯克和 Sam Altman。截止 2017年5月17日，總共融資額已經超過 10億美元。

除馬斯克外，Open AI 的創始人還有：Sam Altman、Breg Brockman、Reid Hoffman 、Jessica Livingston、Peter THiel和Wojciech Zaremba。

Sam Altman曾被《商業周刊》評為最優秀的年輕企業家，他是位置服務提供商 Loopt的聯合創始人和CEO，該公司於2012年3月被預付借記卡業務公司Green Dot收購。2014年2月，Sam Altman 接替Paul Graham，成為YC的新掌門人。

Breg Brockman前StripeCTO，現OpenAI CTO。

Reid HoffmanLinkedIn聯合創始人，曾經擔任過PayPal高級副總裁。是矽谷最有名的天使投資者之一，曾經投資過60多家創業公司，包括Facebook和 Digg。

Jessica LivingstonY Combinator 創始合伙人。

Peter THiel對沖基金管理者，PayPal的共同創建者之一，也是Palantir的共同創建者和對沖基金Clarium Capital的總裁，以及暢銷書《Zero to One》的作者。

用理想與情懷廣納人才

據內部人士透露，Open AI 給的薪酬並不高，但它能提供其它的激勵：不用關心產品和季度盈利，可以專心探索麵向未來的研究，最終與所有人分享大多的研究成果。開放一詞可以視為Open AI的核心宗旨，也是其名字的來源。

Open AI CTO Greg Brockman 曾對Wired透露，實驗室支付的工資沒有谷歌、Facebook等企業給的多。Brockman 還說 Open AI 不想給他們太多工資，它會用股票期權來補償研究人員，最開始會用Y Combinator股票，未來可能會用SpaceX的股票。但是SpaceX和特斯拉不同，它現在還是一家私營企業。

Wojciech Zaremba 是波蘭人，專業是機器人。曾在谷歌大腦工作一年，在Facebook AI 研究院工作一年，博士畢業於《紐約大學》，後加入Open AI。

Zaremba 加入Open AI 後，谷歌和 Facebook 都曾開出天價來挖他。但是，他在一次採訪中表示，正是「瘋狂的開價」讓他掉轉了方向，雖然他很尊重谷歌、Facebook等企業，但他認為一些企業之所以開出高價格搶人，主要是想阻止Open AI成立，守護他們自己的業務，這種認識使薩林巴更加推崇 OpenAI 的宏大使命。薩林巴稱：「我意識到 Open AI是最佳工作地點。」

Open AI 成立後，其崇高的目標和理想的研究環境迅速吸引了一大批實力不俗的AI研究院，其中包括Ian GoodFellow（GAN 理論的集大成者、後加入谷歌大腦）、Andrej Kapathy（後加入特斯拉）和 Ilya Sutskever 等。

Ilya Sutskever 師從Hinton，是吳恩達的斯坦福研究小組博士後，谷歌大腦頂級研究者，加拿大史上第一位 Google Fellow，DNN Research 創始人……Ilya Sutskever 在AI研究領域可謂「根正苗紅」，成績顯赫。目前，他的身份是 OpenAI 研究主管。

Open AI 的第一個正式辦公室

崇高的理想：用開放對抗巨頭

Open AI 從成立起就標榜要對抗谷歌、Facebook等巨頭的「技術壟斷」，以開放、開源的方式進行研究。

在OpenAI剛成立時，Altman在接受媒體採訪時被問及：谷歌也在不斷進行開源，你們的開源與他們有什麼不一樣？他回答說，谷歌的確與公眾分享了許多研究成果。隨著時間過去，隨著我們逐漸接近那種超越人類智能的東西，谷歌還會與公眾分享多少成果是值得懷疑的。

Altman表示，OpenAI中研究的東西最終是會超越人類智能的。最重要的是，它會是開源的，任何人都能使用，而不是只能被，比如說谷歌來使用。這個團體研發的任何東西都將對所有人開放。如果你拿去以後做了一些改變、讓它適應其他用途，你也不會有義務要和公眾分享你的成果。但是只要是我們做的任何工作，都會對所有人開放。

現在大企業分享的AI研究成果更多了。這是一大改變，谷歌的改變尤其巨大，以前它喜歡將技術秘密禁錮在龐大的線上帝國內，近年來在機器學習上也進行了廣泛的開源，比如，TensorFlow。不過，外界評論認為，儘管如此，為了佔據未來制高點，谷歌的核心技術仍然是保密的。馬斯克等人的目標是將開放理念向前推進一步，他們不願意一家或者兩家企業控制未來的AI。

2016年4月28日，OpenAI 對外發布了人工智慧開發平台Gym。Gym平台的基本理念是，研究者建立自己的演算法後，可以把該演算法置於不同的環境中進行測試，然後把測試後的基本演算法發布在Gym的平台上，讓社區中的其他人看到。該平台現在已經與一些開放資源人工智慧工具，例如谷歌的TensorFlow展開合作。

OpenAI的開源繼續進行，2016年12月發布 OpenAI Universe。根據其官方博客的介紹，這是一個能在幾乎所有環境中衡量和訓練 AI 通用智能水平的開源平台，當下的目標是讓 AI 智能體能像人一樣使用計算機。目前，Universe 已經有1000種訓練環境，由微軟、英偉達等公司參與建設。

Universe 通過一個通用的介面適用於各種場景：智能體通過捕捉屏幕的像素生成對鍵盤和滑鼠的命令來操作遠程桌面。場景需要 VNC 伺服器，universe 庫將智能體轉換為 VNC 客戶端。

Universe 的設計目標是支持單個的 Python 進程，以每秒60幀的速度並行驅動20個場景。每個屏幕的緩衝區是 1024×768，因此用外部進程直接讀取每一幀需要3GB/s的內存帶寬。他們用 Go 寫了一個面向批處理的VNC伺服器，它可以作為Python共享庫載入，並且逐步更新每個場景的一對緩衝區。在嘗試了許多 VNC 伺服器、編碼器和無證書協議選項的組合之後，現在的組合能以60幀/秒的速度驅動幾十個場景，延遲是100毫秒——這些延遲幾乎都是伺服器端編碼引起的。

Gym 和 Universe的開源是OpenAI 迄今為止較為代表性的兩個作品。不過也有人提出疑問，沒有數據開源，OpenAI所謂的開放大業能否完整？

OpenAI 同行者 DeepMind

這個世界上，如果要找一家與OpenAI類似的機構，那肯定是DeepMind了。

DeepMind被普遍認為是人工智慧研究前沿的代表企業，他們研發的圍棋程序AlphaGo也被認為是具有劃時代意義的。

值得一提的是，馬斯克正是這家公司的天使投資人之一。此前在有記者問馬斯克，為什麼在投資了DeepMind之後又創建OpenAI, 他的回答是：「我得強調，我並不是通常意義的投資者。我不尋求投資和財務上的回報。我給自己參與創立的公司投資，有時候是出於幫助朋友，有時候是因為我的信仰，也有的時候是因為我關心的事情。我並不是出於分散風險或者物質意義上的考慮。我對 DeepMind 所謂的投資，不過是為了更好的理解人工智慧，並且能夠時刻看到它的進展」。

來看看DeepMind在遊戲上的開源，2016年12月，DeepMind在官方網站上宣布開源智能體研究平台DeepMind Lab ：

DeepMind 的 DeepMind Lab 是一個專為基於智能體的 AI 研究設計的，完全像 3D 遊戲般的平台。它從自己的視角，通過模擬智能體的眼睛進行觀察。場景呈現的視覺效果是科幻風格。可用的操作能讓智能體環顧四周，並且以3D的形式移動。智能體的「身體」是一個懸浮的球體，通過激活與期望運動方向相反的推動器實現懸浮和移動，並且具有圍繞其主體運動的，能夠觀察其旋轉時動作的攝像頭。示例任務包括收集水果、走迷宮、穿越危險的通道且要避免從懸崖上墜落、使用發射台在平台間穿越、玩激光筆、以及快速學習並記住隨機生成的環境。

下面是智能體在 DeepMind Lab 中如何感知並與世界交互的圖示：

2017年8月10日，DeepMind在官方博客上宣布開源星際爭霸2 研究訓練平台SC2LE。這套工具組件將加速即時策略遊戲星際爭霸 2 中的 AI 研究。

OpenAI聯手DeepMind，創建可控制的人工智慧

OpenAI 在做什麼？一句話，他們在努力創建安全的通用人工智慧。

這裡有兩個關鍵詞：安全，通用。

通用人工智慧又稱強人工智慧，簡單來說，就是讓機器自己學習像人一樣地去行動。而安全，則是 OpenAI，這個由特斯拉 CEO 伊隆·馬斯克成立的人工智慧實驗室著重強調的一點。

比如 OpenAI 的研究人員 Dario Amodei 正在開發一個能夠自己玩「賽船冠軍賽」（Coast Runners）遊戲的系統，這是一個挺老的賽船電子遊戲。哪艘船得分最高且能划過終點，就是冠軍。

然而結果卻讓人大吃一驚：賽船對屏幕上的綠色小物件（「吃」掉這些小物件就可以得分）太執著了。比起到達終點，AI 控制的賽船會瘋狂地去撈分。這造成了無盡的循環，和其他船相撞，滑進石牆，不停地起火。Amodei 先生燃燒的賽船正是 AI 技術危險性的完美縮影。研究者開發出了自己進行任務學習的機器，其中最有名的就是橫掃人類圍棋世界的 AlphaGo。然而隨著這些機器經過長時間的數據分析來進行訓練，它們可能也發展出了意料之外的、人類不希望見到的、很可能有害的行為。

OpenAI 的一個重要使命，正是在發展通用 AI 的過程中，最大程度上避免這種情況的發生。

在 OpenAI，Amodei 和同事 Paul Christiano 一道，正在開發不僅能通過數小時的試錯進行任務學習的演算法，同時在這一過程中還能接受人類的引導。他們相信，這類演算法——人類和機器的混合——能夠保證 AI 系統是安全的。

多年以來，Elon Musk 和其他一些專家、思想家，也包括一些技術專家，一直在警告 AI 可能脫離人類的控制，產生違背他們設計者初衷的行為。而像 Amodei 這樣的研究者則在努力走在風險的前面，從某種意義上說，他們將 AI 系統看作是需要父母引導的孩子。

在 AI 領域，許多專家相信強化學習是讓機器通過不斷的試錯學習特定任務，從而實現人工智慧的途徑。研究者為機器設定獎賞，機器隨機開始執行任務，不斷地去獲得最大化獎賞。比如在賽船遊戲中，獎賞就是更多的分數。

如果 AI 能夠學會在遊戲《橫行霸道》中開一輛車，研究者們相信，AI 在真實世界中也能學會去開一輛車。如果它能夠用網頁瀏覽器和其他 app，它也能學會理解自然語言，甚至展開對話。在谷歌，在 UC 伯克利，機器人已經開始使用此類技術學習執行簡單任務，比如開門、撿東西了。

這就是為什麼 Amodei 和 Christiano 正在努力開發能夠接受人類指導的強化學習演算法。這能夠保證 AI 不失控。

最近，他們和 DeepMind 的研究者一起，發布了一些相關的研究報。這兩家頂級實驗室此前從未開展過合作，他們如今合作開發的演算法被當作是 AI 安全性研究的重要一步。

UC 伯克利的研究人員 Dylan Hadfield-Menell 表示，這些聯合研究驗證了以前的一些想法，在未來 5 到 10 年都是非常有前景的研究。

和 OpenAI 、DeepMind 的開發團隊致力於 AI 安全的研究一樣，谷歌大腦也在做類似的事情，還有 UC 伯克利、斯坦福大學也在這些大企業的實驗室合作，致力於此類問題的研究。

今年6月，OpenAI 還曾與DeepMind 聯手發布了合作計劃的第一項研究，讓沒有技術經驗的人類給強化學習系統提供反饋，從而避免事先為系統指定目標的步驟。在某些情況下，這種方法只需要30分鐘的反饋就足以訓練系統，包括教會系統一個全新的、複雜的行為，例如使模擬機器人做後空翻。

GIF/1.4M

大約用了900條來自人類的反饋來教這個演算法做後空翻

質疑聲：Open AI 成為馬斯克的AI人才後花園？

今年6月，Open AI 著名研究員 Andrej Kapathy 加盟特斯拉，但是這一消息卻讓馬斯克飽受質疑。

Hacker News上，有人開玩笑地評論，Andrej Kapathy 是從馬斯克的一家非盈利組織（Non-profit）組織，跳槽到了馬斯克的一家盈利公司（own for profit ）。

Andrej Kapathy 畢業於斯坦福人工智慧實驗室，博士師從李飛飛教授，在谷歌大腦、DeepMind 實過習，也曾與吳恩達一起共事，業界幾大深度學習實驗室都待過，更重要的是，他樂於而且善於分享自己的經驗和見解，在推特和Medium上非常活躍，有AI 「網紅」之稱。

今年6月，特斯拉發布官方消息，稱Andrej Kapathy加入特斯拉，作為新任命的 AI 及 Autopilot Vision 總監的 Karpathy 將直接向 Musk 彙報，但也會與特斯拉的 Jim Keller 緊密協作，後者曾負責特斯拉的 Autopilot 硬體部門，如今統管自動駕駛汽車司機輔助功能的軟體及硬體部分。

針對此事，有網友在網上評論說，Open AI 已經成為馬斯克招攬AI 人才的「後花園」。或許是因為一貫宣揚「人工智慧威脅論」，媒體對馬斯克創建Open AI 的初衷一直抱有懷疑。有媒體此前報道，在Open AI成立的會議上，馬斯克之所以現身，主要是因為他和 Altman 私交甚篤，還因為他自己的企業經營多項業務，AI對於這些業務來說至關重要，對於未來的世界也至關重要。自動駕駛汽車必然會到來，汽車需要AI。SpaceX要將人類送入太空。

一些人警告說一旦系統足夠強大，可以自行學習，人類可能會失去對系統的控制權。在警告者中，馬斯克的噪門算是最高的了。

在HackNews上，網友unityByFreedom說：「OpenAI 一直都是Musk的一個人才渠道：他使用其他人的投資來吸引人才，然後再把這些人才放到自己的公司里去。我認為，這對員工和Musk 來說都是一件好事。我不確定Open AI 還有多少投資者，我很想知道他們在投資的時候都在想什麼。」

對Musk的質疑也蔓延到了對OpenAI的質疑身上：

用戶 randcraw 表示，OpenAI 的研究計劃實際上並沒有大多數人想的那麼詩情畫意，因為a）他們從未明確承諾過「改變世界」，而且b）他們的項目最終必須為既得利益者服務。

他不喜歡 OpenAI 的長期任務計劃。「保持 AI 開放」（Keeping AI open）看起來相當平淡，難以在如今這樣有目的性和動態的文化氣質中長存。或許這樣漫無目的的蜿蜒前行的結果沒有達到 AK（指 Andrej Karpathy）最初的希望。

或者，也許特斯拉能比 KITT 拿出更多的東西？馬斯克的野心那麼大。我懷疑 Karpathy 被各種甜蜜的前景給迷昏了頭。

還有人說，Open AI 很奇怪，他們的研究一般比其他頂級實驗室的影響力更小——不是指在媒體上的影響力，雖然團隊中確實有很多人才。OpenAI 迄今最重要的研究成果就是 InfoGAN，其他都沒有那麼驚艷。另一方面，開源的宗旨保持得很好，OpenAI Gym/Universe 以及現有的測試模型十分出色。

此外，還有傳言說，OpenAI 有工程師裁員的情況出現。不過，這與前面說的又是兩碼事了。

參考資料：

Wojciech Zaremba YC 專訪：http://blog.ycombinator.com/an-ai-primer-with-wojciech-zaremba/

https://electrek.co/2017/06/20/tesla-autopilot-chris-lattner-software-vision/

http://www.cs.toronto.edu/~ilya/

https://news.ycombinator.com/item?id=14599668&p=2

https://www.nytimes.com/2017/08/13/technology/artificial-intelligence-safety-training.html

【號外】新智元正在進行新一輪招聘，飛往智能宇宙的最美飛船，還有N個座位

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！