OpenAI——用80年代AI碾壓DeepMind

科技 04-18

作者：Matthew Griffin

人們越來越注意到，幾十年前發明的AI演算法通過微調也能匹敵當下最頂級的AI系統。

人工智慧（AI）研發者常喜歡追溯一些歷史悠久的科學方法，比如最近OpenAI的研發員就再次溫習了上世紀80年代的研究領域「Neuroevolution」，成績斐然。

在OpenAI的研發總監Ilya Sutskever帶領下，該團隊就探索了一組「進化策略」演算法的可用之處。該演算法旨在解決「優化」問題。顧名思義，優化演算法的核心就是處理需要優化的對象，如上班線路，航班計劃甚至是保健治療方案等。

抽象地說，這一技術的工作原理是：將優秀演算法的特徵傳遞給之後的演算法——即接下來的每一代演算法不論負責什麼任務，都能取得更好的性能。這些研究員重啟並改善了這類演算法，使之更適應現代的深度神經網路和大規模分布式計算系統。

為驗證新系統的有效性，研究者用演算法處理了一系列增強學習基準的挑戰。（增強學習是Google DeepMind很多傑作的核心，比如賦予AI人一樣的學習速度、記憶力，或創建新型通用人工智慧（AGI）架構，教機器做夢，橫掃在線圍棋界等）。

演算法經過訓練後會處理兩類挑戰，一類是玩各種Atari電腦遊戲，一組是學習控制在實際環境下行走的虛擬人形。

該演算法首先使用的是一個隨機策略，即為提高分數而控制系統行為的一套規則。然後，演算法複製幾百份這一策略，並在遊戲中進行隨機變化進行測試。而後，這些策略再次混合到一起，遊戲中取得最高分的策略獲得最高權重。研究者重複這一過程，直到出現能夠玩好遊戲的策略。

僅僅在1個小時Atari 遊戲挑戰後，該演算法就達到了精通水平，DeepMind則需要一天。同樣地，走路問題上，前者需10分鐘，後者需10小時。

為什麼會有如此突飛猛進？其中一個關鍵因素就在於該新系統能極高效地並行處理工作負荷。比如該系統處理步行模擬問題時，將計算任務分散給了1440多個CPU內核，而處理Atari 時這一數字是720。

這種高效來源於該系統測試候選策略時不同「worker」系統之間需進行的通信較少，而比對DeepMind一類的強化演算法需要的通信大大增多。另外，新系統不用「反向傳播」（常見的神經網路學習技術）——這樣，系統就可高效比較網路的輸入和期望輸出，並將產生的信息反饋到網路中幫助網路優化。

因此，新系統編碼縮短了，演算法速度也提高了2倍到3倍。但這種方法也有局限性。人們常比較這類演算法的數據效率，即遊戲中達到某一特定分數所需的迭代次數。以此為標準，傳統增強學習方法更勝一籌，但事實上OpenAI 的方法迭代完成得更快。

處理圖像分類和語音識別等監督學習問題時，OpenAI 的方法比使用反向傳播的方法最多要慢1000倍，這一點是個問題。

但OpenAI 的研究仍然表明，那些我們以為早已過時的進化方法，未來或也可大展身手。

作者：Matthew Griffin

2017未來科技論壇暨」未來科技資助計劃」發布

人工智慧學家/未來科技學院與中科創星，中國科學院虛擬經濟與數據科學研究中心，金融發展局等機構聯合舉辦未來科技論壇和發起「未來科技資助計劃」，聯合科技企業家、風險投資家，講解當前人工智慧，互聯網，腦科學，機器人最新進展，對科學家的前沿科學研究和科技創業進行支持。為誕生中國的重大原始科學創新和科技獨角獸提供燃料和催化劑。

主辦單位：中國科學院虛擬經濟與數據科學研究中心

承辦單位：人工智慧學家/未來科技學院

支持單位：中科創星，泰智會，常州經開區金融發展局

會議時間：2017年4月26日

會議地點：北京市海淀區中關村丹棱街1號互聯網金融中心1樓泰智會大廳

參會嘉賓：青年科學家代表，科技企業家代表，投資界代表、政府代表

未來科技論壇議題：

1.邀請人工智慧，互聯網，腦科學，機器人等方面的著名科學家進行最新科技前沿進展的報告

2.邀請著名投資人，科學家，科技企業家從不同角度闡述如何支持科學家的前沿科學研究和科技創業。

3.人工智慧學家/未來科技學院發布科學資助平台「Funding Future」，並與合作夥伴聯合啟動「未來科技資助計劃」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！