袁泉創辦國內首家決策智能公司 ACM全球總決賽發布星際爭霸II賽題
作者:張乾
【新智元導讀】近日,智能決策公司啟元世界在ACM挑戰賽期間亮相,並舉辦了基於《星際爭霸II》的AI人機協作挑戰賽。挑戰中,AI能與人相互協作、理解、感知,勝率達到48.8%。啟元世界是由前阿里認知計算實驗室資深總監、淘寶推薦演算法創始人袁泉創辦,目前已獲數千萬天使輪融資。
去年烏鎮圍棋峰會上,AlphaGo作為隊友加入古力對陣連笑之後,國內就很少再有人機協作的新聞了。但人機協作能力的提升,對人類和AI的相互學習、互相借力,使得人類自身潛能不斷釋放都有著重要意義。柯潔雖敗於AlphaGo但棋力大漲就是最好的說明。
本周,國內領先的智能決策公司啟元世界在ACM挑戰賽期間亮相,並舉辦了基於《星際爭霸II》的AI人機協作挑戰賽。在比賽中,展示了人和AI之間實現實時的互相感知、互相理解、互相協作完成複雜任務的能力。
啟元世界是由前阿里認知計算實驗室資深總監、淘寶推薦演算法創始人袁泉,前阿里搜索廣告架構負責人龍海濤共同發起成立,以認知決策智能技術為核心,這次發布的人機協作挑戰賽,也是今年國內公司在決策智能上的第一次嘗試。
AI是人的「神隊友」:走位配合、東西分頭並進,干擾和阻擋對手
本次舉辦的人機協作挑戰賽規則為,A隊為1人1智能體協作;B隊為機器和機器兩智能體協作;在規定時間內採集水晶礦多的一方獲得比賽勝利,水晶總數40個。 全天比賽下來共收集209局的有效數據,經統計,A隊獲勝102局,勝率48.8%,B隊獲勝83局,勝率39.7%;平局24局,平手率11.5%。 A隊人機隊相對於B隊機機隊展現了一定的優勢;更重要的是AI與人在比賽中表現出的若干協作行為,如走位配合、東西分頭並進,對對手的干擾和阻擋等,是協作智能的集中體現。
人機協作比賽排行榜前五名
人機隊前五名排行榜如下:「Human」為人類選手的得分,「AI」為隊友的得分。北京大學一位同學(PKU2)經過不懈努力終於力壓第二名(S),摘取首日比賽的桂冠。S同學單局採礦23枚創造了人類選手的紀錄;與S同學在第二名局次中配合的AI,以單局採礦17枚,創造了AI的紀錄。
過去幾年,AI在視覺認知、語音識別等領域取得了巨大進展,並在包括Atari視頻遊戲、圍棋和德州撲克等比賽中擊敗人類,但在像星際爭霸這種即時策略遊戲中,由於充滿了大量不確定因素以及需要在關鍵時機決策等情況,AI面臨較大挑戰。在去年11月人與AI的一次。遭遇戰中,韓國的專業玩家在星際爭霸遊戲中以4:0的比分戰勝了AI。
星際爭霸是訓練和驗證決策智能技術的絕佳平台,蘊含了當下人工智慧在認知決策層面還沒有很好解決的問題:在不完全信息下如何做推理與規劃、多智能體協作完成複雜任務、短中長期收益平衡等。相比人工智慧下圍棋這樣的完全信息博弈,星際爭霸的決策空間要更大,決策時機更複雜。
在啟元世界AI人機協作挑戰賽中有兩項賽題:
1. 人機協作 vs 機機協作 水晶採集賽
在規定時間內,分為A、B兩隊,每隊兩個單位分別收集地圖上的藍色水晶。A隊為1人加1個具備協作能力的AI智能體;B隊為兩個具備協作能力的AI智能體。 比賽的關鍵在於A隊中的人和AI能否實時觀察、理解對方的意圖與行動,並能採取有效的行為進行合理分工,採集到更多的水晶。
2. 人機對抗賽:Reaper爭霸
玩家與AI分布操控5個星際爭霸II中獨具特色一類角色——收割者Reaper,在廣袤的場地上進行對抗博弈。Reaper可發射一般子彈,也可以扔出手雷。選手需要審時度勢,根據不同的遊戲場景,採取靈活的協作博弈策略,操控己方的單位對AI一方進行攻擊,取得比賽的勝利。
「人機協作和機機協作各有千秋,機機協作的通訊速度和模型共享更具優勢,人機間的溝通和協作成本高了不少,但能引入人的創造力想像力。啟元世界的這次人機協作賽往此方向的探索邁出了重要一步」,CMU經濟學教授張凱夫點評道。
決策智能:既是通往AGI的基礎,也是賦能人類的武器
在去年的 2017 中國(深圳)IT 領袖峰會上,馬雲評價AlphaGo:So TM What?
馬雲認為,人們應當多花點時間在 Machine Intelligence(即機器智能)上,讓機器人成為人類更好的合作夥伴,而不是人類的對手。
的確,人類之所以智慧,是因為人類理解社會和協作智能,而這種智能也是實現通用人工智慧(AGI)宏偉目標的基礎。讓機器超越人類遠遠不如讓機器為人類賦能帶來的價值更大,影響更深。
袁泉認為,過去幾年中國大量出現計算機圖像、視覺、語音等公司,人工智慧的感知技術有了大幅度提高、部分領域實力已經達到國際先進水平;認知技術也有了長足的發展,這為發展決策智能創造了條件。人工智慧將經歷從感知智能到認知智能再到決策智能的過程,但決策智能目前仍是一個世界級的難題,決策過程也是人腦中最複雜的一種能力。
縱觀AI數十年發展史來看,決策智能實現主要有以下幾方面的問題需要解決:
決策過程是主觀與客觀、理智與情感相融合的過程,目前計算機擅於處理的是理性可計算部分,因此需要更好的建模和逼近路徑;
影響決策的因素非常多,人是在多源信息密布的環境中進行決策,需要有效甄別和提取有效信息,同時對未知信息進行推理和假設。
各個行業運用決策智能的場景往往是要求實時決策,甚至是高並發決策,如互聯網中通常需要在毫秒級返回給用戶的推薦結果,因此對系統架構上挑戰也很大。
目前,DeepMind、Facebook、微軟等公司都在研究如何在星際爭霸中賦予AI更多的決策能力,增強AI智能體的通用能力,讓AI更像人。
從演算法層面探索人機協作,未來AI與人一起協作
馬雲雖然對AlphaGo的並沒有表現出多大興趣,但他忽略了重要的一點:去年烏鎮圍棋峰會上,除了AlphaGo大戰柯潔之外,AlphaGo還與古力組成的PairGo與連笑對陣。
這是一次具有重要意義的人機協作事件。在古力的「Pair Go」中,與古力搭檔的AlphaGo想認輸,但古力仍想繼續比賽。直到棋盤上的優勢越來越小,古力才認輸,最終意識到AlphaGo之前打算認輸的理由。
人機協作過程中不僅要求AI能夠進行判斷與決策,還要學會與人進行配合,這是更高級別的決策智能。
谷歌去年上線「Pair」項目,它代表了「People + AI Research」,目標是「研究並重新設計 AI 系統與人交互的方式」。除了谷歌外,馬斯克創辦的nurolink也在通過腦機介面的方式實現人機協作。
本次啟元世界舉辦的基於星際2的AI人機協作挑戰賽,是繼去年烏鎮之後,今年國內首個人機協作挑戰賽,試圖從演算法層面探索未來AI與人協作的新方式。
而星際2是能夠訓練演算法的最佳場景。
去年8月,DeepMind聯合暴雪遊戲發布專門針對認知決策AI開源星際2的訓練平台SC2LE,相比星際1,其最大的一個優勢是提供了很多端到端的內容操作的介面,發展出來可以通過介面像人一樣打星際進行控制,這種介面是在之前的星際1平台上不提供的。
袁泉在接受新智元採訪時認為,未來有可能大家可以會看到機器人像人一樣坐在電腦前,操作滑鼠打星際和高手對決,對機器人等相關領域也是很好的促進。
前阿里認知計算實驗室負責人創業,已完成數千萬人民幣天使輪投資
啟元世界創始人兼CEO袁泉過去十餘年一直從事互聯網中最重要的輔助決策系統——個性化推薦演算法的研究,並在淘寶和天貓的上億用戶場景中,進行了一系列成功的落地應用。例如2015、2016年雙11中上線的基於在線學習的實時推薦,是輔助決策智能在國內、乃至世界範圍內最大規模的一次應用。
在阿里擔任認知計算實驗室負責人期間,袁泉團隊與UCL汪軍老師團隊合作發表論文,介紹了多智能體雙向協調網路(BiCNet ),它由策略網路(actor)和Q值網路(critic)組成,兩者均基於雙向RNN。策略網路用於獨立智能體做出行動決策。因此,獨立智能體能夠保持自己的內部狀態,同時能夠與其他合作者共享信息。
目前,該論文的一作彭鵬也是啟元世界的團隊成員。
聯合創始人兼CTO龍海濤曾任IBM研究院最年輕的科學家,對互聯網廣告、電信、能源等多個行業的系統架構上頗有建樹,尤其是近年來完成對國內價值最大的在線廣告系統——阿里媽媽搜索廣告的重構,是互聯網時代最大的工程挑戰之一,也為架構下一代智能決策系統積累了經驗。
團隊還吸引了多位名牌大學的博士和碩士加入,並擁有伯克利、CMU、UCL等知名機構的特聘顧問。
目前,啟元世界已完成數千萬人民幣天使輪投資,投資方為高榕資本。公司目標是「打造決策智能、構建平行世界、激發人類潛能」,希望通過新一代的認知決策智能技術,更好的理解AI、理解AI和人之間的聯繫,最終能幫助到人類自身。這次發布的人機協作挑戰賽,也是在決策智能上的第一次嘗試。
啟元世界此次舉辦基於《星際爭霸II》的AI人機協作挑戰賽,也是第42屆ACM-ICPC國際大學生程序設計競賽全球總決賽上的贊助環節,希望推動和發展人機之間互相理解、互相協作,完成複雜任務的決策技術,讓機器智能和人類潛能互相碰撞、激發出更廣闊的應用前景。
【加入社群】
新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_1 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。
※谷歌演化AutoML自動發現神經網路新架構
※機器人遛機器狗:波士頓動力對手Agility Robotics獲得800萬美元
TAG:新智元 |