vivo公布AI研究新進展:教會手機打《王者榮耀》
上周五凌晨,一場史詩級人機大戰「悄然開場」,代表機器參賽的是Google旗下AI大公司DeepMind開發的全新AI程序AlphaStar,另外一方是2018 WCS Circuit排名13、神族最強10人之一的人類選手MaNa。
結果也正如2年多前的圍棋AI AlphaGo(同樣由DeepMind開發)一般,AlphaStar以10:1的戰績,「完虐」人類職業高手。
要知道,「星際2」這款遊戲比圍棋又複雜上了許多:例如動作的種類,圍棋只有361個下棋位置,星際2算上各種技能和走位控制,即便一個84x84解析度的小屏幕,也有一億多種可能的操作。同時,在玩「星際2」的過程中,玩家並不能看到整個戰場的信息,你甚至還要猜測、估算對方的行動,來進行你自己的規劃和決策。
這麼難都能打贏人類,AI這幾年來取得的進展「可見一斑」。
事實上,因為人類一直對AI不完全掌握,再加上AI技術和應用探索的過程中往往需要大量的數據,可以隨意試錯、擁有大量人類數據的電子遊戲,一直被視為人工智慧最好的實驗平台之一。因為遊戲本身就是認為創造的,用以幫助人來習得某個技能或者測試技能水平的工具。
在某些特定的人工智慧方向,如自動駕駛,人們甚至還會專門認為創造一個類似於電子遊戲的虛擬世界,用來作為訓練人工智慧的環境。
除了上文所提到的DeepMind之外,很多國內公司實際上也在進行著在遊戲環境中訓練人工智慧的嘗試,其中就包括了vivo,他們所瞄準的正是國內最多人玩的手游之一:《王者榮耀》。
訓練AI打《王者榮耀》這件事
代表vivo向《王者榮耀》發起AI衝擊的,是去年7月成立的「vivo AI Lab」,後者的建立是vivo在2018年年初的vivo戰略發布會上就已經做的決定。
在本次對《王者榮耀》挑戰的背後,「vivo AI Lab」專門提出並使用了一種全新的分層強化學習模型。這種神經網路模型既能夠通過模仿人類來制定宏觀策略,同時還能根據強化學習來保證微觀操作。尤其適應即時戰略遊戲(RTS)對於操作的需求。
就《王者榮耀》而言,關鍵性的大局觀包括單元「去哪兒」、「應該何時去支援隊友」、「隊友應該何時一起參加團戰」等。重要的精細化操作則包括「何時閃現」、「何時交出大招」、「多人團戰中應該如何精細走位」、「團戰中應該如何釋放技能」等。
這兩種操作需求實際上相差很大,大局觀層面其實很難量化和計算,所以主要的是先參考人類的數據,進行模仿學習和專家引導。在精細化操作的時候,「vivo AI Lab」直接使用了一種被叫做「多智能體」的強化學習方法。你可以把它看做成百上千個機器人在虛擬團戰走位、技能釋放等操作,其中只有表現最好的能夠留下來。通過不斷的對壘,機器自然而然就學會了最優的操作方式。
最終訓練出來的結果:觀察到電腦開大,馬上閃現然後反身開大,一氣呵成(圖中方框為圖像識別對象框)。
根據「vivo AI Lab」官方公布的成果,經過這一系列神經網路訓練出來的模型,1V1模式下能以100%的勝率擊敗遊戲中的內置AI,同時能夠在5V5模式下以AI戰隊的形式表現出較好的協同性能。
除了遊戲AI外,vivo還「做」了更多在實驗全新深度學習模型的同時,「vivo AI Lab」還更具挑戰性地選擇了一條更難的路徑——不使用遊戲的API介面,而是選擇直接從圖像監測並獲取遊戲中的各種特徵數據。
之前很多公司和機構都曾在電子遊戲上發起人工智慧挑戰,基本都採用了遊戲的API介面。人工智慧無需經過圖像分析等手段就可以直接獲知遊戲中各個單位、環境的數據。
以遊戲表現上最出色的DeepMind的「AlphaStar」為例,它並沒有直接從圖像中獲取單位的信息,而是從遊戲引擎裡面讀取特徵信息,這些圖像直接標記了哪裡是兵或者工廠。
「vivo AI Lab」則選擇了用另外一套深度學習網路來捕捉《王者榮耀》中5個英雄的特徵,具體的來說,就是把5個英雄對應的大地圖和小地圖數據,通過卷積神經網路提取信息,結合多目標檢測提取的特徵向量,再輸入到上文所提到的分層神經網路當中。然後各個英雄根據自身狀態環境,決策出不同的動作,實現在各自情況下的對應操作。
雖然這個過程不起眼,但實際上卻可能對人工智慧的表現起到很大影響。畢竟實際用戶都是通過手機顯示的圖像來獲取信息的,假如人工智慧都從API介面來獲取信息,你又怎麼能保證這些信息的層級和精準度都是跟人類從圖像中獲取的一致?
之所以vivo這次額外花力氣填補這一流程,正是想讓人工智慧能夠完整模擬人類從看到屏幕上圖像,到實際操作的全過程,讓人工智慧的運轉環境條件更接近普通用戶。
為了實現同時對多個英雄數據進行採集,並且提高整個《王者榮耀》人工智慧模型的採樣效率,樣本多樣性和訓練速度,「vivo AI Lab」還搭建了一整個「分散式強化學習環境」:手機負責遊戲的運行、動作執行和數據採集;電腦負責連接手機和伺服器,進行強化學習演算法選擇、動作決策單元的運轉;雲端的GPU伺服器集群負責整個神經網路的運行和存儲。
而在這個環境中,「vivo AI Lab」還更具普適性地直接使用了全開源的gRPC技術,這種技術是HTTP 2.0時代的基礎底層數據框架。這也讓整個「分散式強化學習環境」具有極大的網路化潛力。
關於這次《王者榮耀》的人工智慧嘗試,「vivo AI Lab」還以論文的形式公開刊發了出來,有興趣可以查看。
超越成績的一次嘗試手機廠商來做遊戲的AI,乍一聽真的會讓人摸不著頭腦,畢竟最終訓練出來的AI也不太可能被應用到遊戲或是真實當中。
但從「vivo AI Lab」此番挑戰的細節來看,你也很難將其簡單地歸為「做遊戲AI」。以選擇不使用遊戲的API介面、轉而從遊戲界面的圖像獲取數據為例,這不僅僅是一個技術上的挑戰,更是vivo著眼於此次AI嘗試未來的適用性。
因為整個深度學習過程中的數據都是從手機終端直接採樣而得,除了其他玩法類似、基礎操作需求相近、圖像識別相近的遊戲外,vivo還能利用與本次嘗試相同的架構(手機圖像識別+特定深度學習神經網路+深度學習網路化環境),對手機中的各種場景進行學習歸納。最終讓vivo手機從方方面更懂你。
其次是採用gRPC技術來構建整個人工智慧學習環境的數據傳輸,要知道在當下的人工智慧發展過程中,「如何採集到足夠的樣本數據」和「如何讓儘可能多的用戶用上花大力氣訓練出來的神經網路」,仍是關鍵性的難點所在。想要解決他們,「網路化」是唯一可行的路徑。
所以整體看下來,與其說是vivo在做一次遊戲AI的嘗試,倒不如說是一次面向未來手機人工智慧發展的嘗試。
這種前瞻且大膽的嘗試,也是vivo一直所堅持的,早在去年3月,vivo就在X21上首次發布了「Jovi」人工智慧助手,能夠在屏幕中直接識別人物、快遞、景點地址、網址等關鍵信息;負一屏的「智慧場景」 ,更能有效地將通勤時間、票務酒店預訂、步數、天氣等信息進行整合展示。去年9月,vivo發布的全新IoT戰略「Jovi物聯」,更讓Jovi能夠方便地適配一系列智能家居產品,讓Jovi成為「把人和數字世界聯繫在一起」的控制核心。
因為在世界不斷數字化的當下和未來,人的認知愈發難以跟上數據膨脹的速度,藉助AI來提升人類的能力將會是一個重要的解決方案。而vivo,顯然想要幫助自己的用戶首先成為這一類人。
※YouTube用戶觀看遊戲內容時長一年超過500億小時
※Google投資超10億美元在紐約建立新辦公園區
TAG:PingWest品玩 |