經歷了社會毒打才能變得更好 Dota2的失敗仍是AI的勝利
據theverge消息,在上周Dota2的三場比賽中,兩支職業玩家隊伍戰勝了由Elon Musk創立的研究實驗室OpenAI組建的一組AI機器人。這讓人們開始懷疑AI的能力達到某種上限了?又或者這證明某些技能對於計算機而言過於複雜?
答案是否定的。這對於機器人來說只是進步中的一個「顛簸」 ,通過機器學習,AI機器人終將征服遊戲。
這次參與比賽的五個機器人由OpenAI創建,它們使用相同的演算法但獨立運行進行訓練。在訓練過程中,工程師並未按照Dota 2的規則對機器人進行編碼,而是在遊戲中設置帶有獎勵的任務,引導機器人進行自主學習。在這種及其低效的學習方式下,每個機器人每天仍然要訓練相當於人類180年的訓練量。如果需要一個12000到20000小時的練習才能掌握某項技能,那麼機器人每天都要經歷「100次的人生」。
運行這些演算法,使機器人以極快的速度播放遊戲是一個巨大的挑戰。這大約需要256個GPU和128000個CPU核心,才能使OpenAI擁有足夠的處理能力。這也就是為什麼專家經常將OpenAI Five作為一個工程項目和研究項目進行討論的原因。
其實這三場比賽的結果是較為平均的,第一場和第三場是人類領先,第二場機器人是獲勝者。但我們在比賽中發現,一旦人類搶先獲得了相當大的優勢,且人工智慧對於勝率的預測不足50%時,機器人就不會冒險爭奪優勢。評論員猜測這可能是因為人工智慧首選「以90%的確定性獲勝1分,勝率為50分,確保率為51%。」不足這一標準人工智慧就容易「消極怠工」,也是人工智慧失去這場比賽的原因之一。
機器人往往在近戰中表現出色,但與人類在長期戰略的比較中還有一定欠缺。比如在於中國職業玩家「老傳說俱樂部」的對決中,玩家選擇了不對稱策略,一名玩家收集資源增強英雄,其他玩家輔助對他進行干擾。儘管這是人類玩Dota的慣用風格,但機器人並未察覺。
這個戰略問題不僅對OpenAI很重要,對於人工智慧研究也尤為重要。因為使用這種方法創建的AI通常強調即時支付而不是長期獎勵,所以缺乏長期規劃通常被視為強化學習的一個主要缺陷。而構建一個長時間工作的獎勵系統是困難的,因為系統習慣於在機器人完成進行某些操作時給予獎勵,而不是引導機器人對未來情況進行預測而預留某些操作。
在這場Dota比賽中,人工智慧是否贏得比賽並不那麼重要,失敗是人工智慧最好的學習方式。它告訴我們AI能做什麼、不能做什麼以及將來會發生什麼,並為研究人員提供新的方向,使研究人員開發出在未來幾十年內為世界提供動力的人工智慧技術成為可能。
編輯:青葙子
※往你的體內植入晶元不再是夢想 小小晶元可能可以救你一命
※Waymo在上海成立Huimo,谷歌進軍中國計劃中的又一步?
TAG:AI銳見 |