袁泉創辦國內首家決策智能公司，ACM全球總決賽發布星際爭霸II賽題

最新 04-17

作者：張乾

【新智元導讀】近日，智能決策公司啟元世界在ACM挑戰賽期間亮相，並舉辦了基於《星際爭霸II》的AI人機協作挑戰賽。挑戰中，AI能與人相互協作、理解、感知，勝率達到48.8%。啟元世界是由前阿里認知計算實驗室資深總監、淘寶推薦演算法創始人袁泉創辦，目前已獲數千萬天使輪融資。

去年烏鎮圍棋峰會上，AlphaGo作為隊友加入古力對陣連笑之後，國內就很少再有人機協作的新聞了。但人機協作能力的提升，對人類和AI的相互學習、互相借力，使得人類自身潛能不斷釋放都有著重要意義。柯潔雖敗於AlphaGo但棋力大漲就是最好的說明。

本周，國內領先的智能決策公司啟元世界在ACM挑戰賽期間亮相，並舉辦了基於《星際爭霸II》的AI人機協作挑戰賽。在比賽中，展示了人和AI之間實現實時的互相感知、互相理解、互相協作完成複雜任務的能力。

啟元世界是由前阿里認知計算實驗室資深總監、淘寶推薦演算法創始人袁泉，前阿里搜索廣告架構負責人龍海濤共同發起成立，以認知決策智能技術為核心，這次發布的人機協作挑戰賽，也是今年國內公司在決策智能上的第一次嘗試。

本次舉辦的人機協作挑戰賽規則為，A隊為1人1智能體協作；B隊為機器和機器兩智能體協作；在規定時間內採集水晶礦多的一方獲得比賽勝利，水晶總數40個。全天比賽下來共收集209局的有效數據，經統計，A隊獲勝102局，勝率48.8%，B隊獲勝83局，勝率39.7%；平局24局，平手率11.5%。 A隊人機隊相對於B隊機機隊展現了一定的優勢；更重要的是AI與人在比賽中表現出的若干協作行為，如走位配合、東西分頭並進，對對手的干擾和阻擋等，是協作智能的集中體現。

人機協作比賽排行榜前五名

人機隊前五名排行榜如下：「Human」為人類選手的得分，「AI」為隊友的得分。北京大學一位同學（PKU2）經過不懈努力終於力壓第二名（S），摘取首日比賽的桂冠。S同學單局採礦23枚創造了人類選手的紀錄；與S同學在第二名局次中配合的AI，以單局採礦17枚，創造了AI的紀錄。

過去幾年，AI在視覺認知、語音識別等領域取得了巨大進展，並在包括Atari視頻遊戲、圍棋和德州撲克等比賽中擊敗人類，但在像星際爭霸這種即時策略遊戲中，由於充滿了大量不確定因素以及需要在關鍵時機決策等情況，AI面臨較大挑戰。在去年11月人與AI的一次。遭遇戰中，韓國的專業玩家在星際爭霸遊戲中以4：0的比分戰勝了AI。

星際爭霸是訓練和驗證決策智能技術的絕佳平台，蘊含了當下人工智慧在認知決策層面還沒有很好解決的問題：在不完全信息下如何做推理與規劃、多智能體協作完成複雜任務、短中長期收益平衡等。相比人工智慧下圍棋這樣的完全信息博弈，星際爭霸的決策空間要更大，決策時機更複雜。

在啟元世界AI人機協作挑戰賽中有兩項賽題：

1. 人機協作 vs 機機協作水晶採集賽

在規定時間內，分為A、B兩隊，每隊兩個單位分別收集地圖上的藍色水晶。A隊為1人加1個具備協作能力的AI智能體；B隊為兩個具備協作能力的AI智能體。比賽的關鍵在於A隊中的人和AI能否實時觀察、理解對方的意圖與行動，並能採取有效的行為進行合理分工，採集到更多的水晶。

2. 人機對抗賽：Reaper爭霸

玩家與AI分布操控5個星際爭霸II中獨具特色一類角色——收割者Reaper，在廣袤的場地上進行對抗博弈。Reaper可發射一般子彈，也可以扔出手雷。選手需要審時度勢，根據不同的遊戲場景，採取靈活的協作博弈策略，操控己方的單位對AI一方進行攻擊，取得比賽的勝利

「人機協作和機機協作各有千秋，機機協作的通訊速度和模型共享更具優勢，人機間的溝通和協作成本高了不少，但能引入人的創造力想像力。啟元世界的這次人機協作賽往此方向的探索邁出了重要一步」，CMU經濟學教授張凱夫點評道。

在去年的 2017 中國（深圳）IT 領袖峰會上，馬雲評價AlphaGo：So TM What？

馬雲認為，人們應當多花點時間在 Machine Intelligence（即機器智能）上，讓機器人成為人類更好的合作夥伴，而不是人類的對手。

的確，人類之所以智慧，是因為人類理解社會和協作智能，而這種智能也是實現通用人工智慧（AGI）宏偉目標的基礎。讓機器超越人類遠遠不如讓機器為人類賦能帶來的價值更大，影響更深。

袁泉認為，過去幾年中國大量出現計算機圖像、視覺、語音等公司，人工智慧的感知技術有了大幅度提高、部分領域實力已經達到國際先進水平；認知技術也有了長足的發展，這為發展決策智能創造了條件。人工智慧將經歷從感知智能到認知智能再到決策智能的過程，但決策智能目前仍是一個世界級的難題，決策過程也是人腦中最複雜的一種能力。

縱觀AI數十年發展史來看，決策智能實現主要有以下幾方面的問題需要解決：

決策過程是主觀與客觀、理智與情感相融合的過程，目前計算機擅於處理的是理性可計算部分，因此需要更好的建模和逼近路徑；

影響決策的因素非常多，人是在多源信息密布的環境中進行決策，需要有效甄別和提取有效信息，同時對未知信息進行推理和假設。

各個行業運用決策智能的場景往往是要求實時決策，甚至是高並發決策，如互聯網中通常需要在毫秒級返回給用戶的推薦結果，因此對系統架構上挑戰也很大。

目前，DeepMind、Facebook、微軟等公司都在研究如何在星際爭霸中賦予AI更多的決策能力，增強AI智能體的通用能力，讓AI更像人。

馬雲雖然對AlphaGo的並沒有表現出多大興趣，但他忽略了重要的一點：去年烏鎮圍棋峰會上，除了AlphaGo大戰柯潔之外，AlphaGo還與古力組成的PairGo與連笑對陣。

這是一次具有重要意義的人機協作事件。在古力的「Pair Go」中，與古力搭檔的AlphaGo想認輸，但古力仍想繼續比賽。直到棋盤上的優勢越來越小，古力才認輸，最終意識到AlphaGo之前打算認輸的理由。

人機協作過程中不僅要求AI能夠進行判斷與決策，還要學會與人進行配合，這是更高級別的決策智能。

谷歌去年上線「Pair」項目，它代表了「People + AI Research」，目標是「研究並重新設計 AI 系統與人交互的方式」。除了谷歌外，馬斯克創辦的nurolink也在通過腦機介面的方式實現人機協作。

本次啟元世界舉辦的基於星際2的AI人機協作挑戰賽，是繼去年烏鎮之後，今年國內首個人機協作挑戰賽，試圖從演算法層面探索未來AI與人協作的新方式。

而星際2是能夠訓練演算法的最佳場景。

去年8月，DeepMind聯合暴雪遊戲發布專門針對認知決策AI開源星際2的訓練平台SC2LE，相比星際1，其最大的一個優勢是提供了很多端到端的內容操作的介面，發展出來可以通過介面像人一樣打星際進行控制，這種介面是在之前的星際1平台上不提供的。

袁泉在接受新智元採訪時認為，未來有可能大家可以會看到機器人像人一樣坐在電腦前，操作滑鼠打星際和高手對決，對機器人等相關領域也是很好的促進。

啟元世界創始人兼CEO袁泉過去十餘年一直從事互聯網中最重要的輔助決策系統——個性化推薦演算法的研究，並在淘寶和天貓的上億用戶場景中，進行了一系列成功的落地應用。例如2015、2016年雙11中上線的基於在線學習的實時推薦，是輔助決策智能在國內、乃至世界範圍內最大規模的一次應用。

在阿里擔任認知計算實驗室負責人期間，袁泉團隊與UCL汪軍老師團隊合作發表論文，介紹了多智能體雙向協調網路（BiCNet ），它由策略網路（actor）和Q值網路（critic）組成，兩者均基於雙向RNN。策略網路用於獨立智能體做出行動決策。因此，獨立智能體能夠保持自己的內部狀態，同時能夠與其他合作者共享信息。