UCL 教授汪軍:多智能體強化學習的兩大挑戰 | CCF-GAIR 2017
2017 年 7 月 7 日,為期三天的「CCF - GAIR」大會,在深圳大中華喜來登酒店開幕。在 AI 學術前沿專場的第三場,倫敦大學學院 UCL 的汪軍教授帶來了以《群體智能的社會》為主題的報告。報告內容請看本篇雷鋒網的現場速記。
汪軍, 倫敦大學學院(UCL)計算機系副教授、互聯網科學與大數據分析專業主任。主要研究智能信息系統,主要包括數據挖掘,計算廣告學,推薦系統,機器學習,強化學習,生成模型等等。他發表了100多篇學術論文,多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統傑出華人專家。
汪軍:潘院士今天早上講了人工智慧 2.0。其中的一個方向,是多個智能體之間的協作與競爭。我們還可以從社會學角度,把多智能體看作是一個群體;研究整個群體、動態系統的特性是什麼。對於該話題,我希望給大家做一個介紹。
大家都了解 AlphaoGo,它的一項核心技術就是強化學習。相比模式識別和監督學習,它在缺乏訓練數據集的情況下仍然可以工作。強化學習系統能夠直接和環境交互,得到反饋信息,在此過程中不斷學習,因此更加自然、靈活。強化學習的一項主要特性,是以收益(reward)定義目標方程,生成優化策略。
多智能體的強化學習
今天重點講的,是多智能體的強化學習。它們單獨的和環境進行交互。在一種情況下它們各自優化自己的目標,但這些目標之間有約束;另一種情況下,它們聯合起來優化一個主要的目標方程。根據具體的情況會有不同的變化。
案例 1:互聯網廣告
過去,我們再互聯網廣告領域做了很多工作,比較早得應用了強化學習方法:在環境交互的情況下,根據投放廣告以後用戶的反饋,系統不斷地進行學習。
目前我們可以在 10 毫秒之內做好決策,在每天 100億流量的情況下進行分析,幫助廣告主精準投放。
案例 2:星際爭霸
我們通過對星際爭霸單位的控制,找到多智體的規律。研究它們在遊戲里怎麼合作、競爭與通訊。近幾個月,我們和阿里巴巴合作開發了一套玩星際爭霸的 AI 系統。該項目中,我們最想解決的是 AI 智體之間的通訊問題——當它們想合作起來攻打對方的時候,必須要有效地合作。我們希望在計算的時候,計算量相對較小,同時又達到智體的協同目的;於是採用了一種雙向連通方式,效果非常明星。
目前,多智體強化學習的研究仍處於非常初步的階段。這裡,有兩個方面的關鍵問題:
問題 1:多智體協同研究中,智體數量少目前的研究,主要集中於少量多智體之間的協同。在有上萬個智體的情況下,(應用研究成果的)效果就不是很明顯。而許多現實場景中的多智體數量,可以達到百萬、甚至千萬級。
案例 3:智能打車 APP
一個很明顯的例子是Uber、滴滴等智能打車應用。
這類例子中,每個用戶手上的終端、每個司機手上的終端,你都可以把它們想像成智能體。它們可以做出決定:到底什麼樣的價錢我可以接受。系統層面甚至可以有一套機制合理分配資源。比如,出行高峰計程車比較少,但是需求量又比較大。而在其它的一些時候,可能計程車很多,但是需求量不大。系統怎麼調配,這其實需要一個非常大的人工智慧協作系統來分析。
案例 4:共享單車
共享單車的情況更加明顯。你可以想像,如果給每個自行車裝了晶元或者計算機,它就是一個很智能的東西,可以根據目前的情況,優化車輛的地理位置分布。
問題 2:智能體是否符合自然界規律?
今天,如果要做一個強化學習的模型,這個模型必須要可以處理百萬級的智體。
應該怎麼去做?我們可以從自然界裡面獲得一些啟發。比如生態學的 self-organisation (「自組織」)理論:一些個體行為的簡單規則,能造成種群層面的宏觀規律。但這類模型有一個很顯著的問題:它可以從宏觀的角度解決宏觀的現象,但缺少一種微觀的方法來觀察世界。每個個體有它自己的興趣,有它自己的優化的方程,這個微觀的東西和宏觀的現象之間有什麼關係?目前為止相關研究還是比較少的。
案例 5: Lotka-Volterra 模型
這裡,有一個動物界的著名模型名為 Lotka-Volterra (LV)模型。該模型描述的是:相互競爭的兩個種群,它們種群數量之間的動態關係。我們根據該模型的理論,用深度學習和強化學習做了一個老虎和羊的多智體生態模型。我們發現,如果關掉智體的學習能力(比如老虎),它們無法適應新環境,生態系統很快崩潰。
而給智體學習能力之後,模型出現的現象,與 LV 模型中猞猁抓兔子的動態現象十分相似。模擬出來的多智體生態,和自然世界的生態圈都遵循一種動態的平衡,就好比多個 AI 智體形成了一個動物種群。
這個研究很有意思的一點是,我們發現有這樣的場景:智體之間可以聯合在一起優化某一個目標,或者單獨優化它們自己的目標。當出現這兩種情況的時候,作為一個群體,他們就有了內在的規律。如果把這些規律找到,對於我們去開發一些新的模型、新的計算機人工智慧的方法,是非常有幫助的。
案例 6:宜家
強化學習里有一個環境,要麼假設這個環境是不變的,要麼假設這個環境有一定的概率在不斷變化。這個概率是不變的(not designable),意味著無法設計這個環境,而是更加適應這個環境。但是實際情況下發現,很多場景下,環境本身也需要一個適應的過程。在宜家的熱力圖上,我們可以看出谷歌在商場里的活動是非常平均的,這是一個非常好的現象。我們可以開發一個強化學習演算法,讓環境(商品擺放)根據顧客的變化而變化。
這是一個建築系教授進行的研究,他做了一個地圖模擬人在店鋪裡面走的情況,根據熱力圖反饋到鋪面設計,來優化用戶在這裡面待的時間,或者說最大化用戶可能消費的情況。
案例 7:分揀機器人
單個智體(機器人)要進行優化,以最快的路徑分揀快遞包裹。這個環境未必是最優的,我們根據貨物的統計特性,設計我把發往南京的包裹通道放在北京旁邊還是放在上海旁邊。所以環境也需要很好的考量和設計。
案例 8:迷宮
一個人工智體,需要以最快的效率找到出口。而環境知道其智能水平,根據情況來設計迷宮,使得智體有最困難或者最小的概率可以出去。這是一個競爭的關係。
怎麼優化呢?你會發現,該系統在兩個不同的維度進行。在人工智體的情況下,它會說給定一個環境,我想以最快的效率、最優的策略走出來。當你把這個人工智體學到的東西定住以後,就可以在另外一個維度優化環境:現在這個智體是這樣的屬性,能不能據此使得環境更困難?這兩個維度互相競爭、互相迭代,就可以達到優化的情況。雷鋒網雷鋒網
※驚呆!人類藥丸?今天一大波機器人佔領了深圳喜來登六樓 | CCF-GAIR 2017
※「籌備三年,歷時三個月評選」AI最佳僱主50強榜單重磅出爐(國內AI領域第一份權威求職榜單)
※星河集團創始人徐茂棟:智能商業引爆產業互聯網時代 | CCF-GAIR 2017
TAG:雷鋒網 |
※「ALL IN eSIM」,華為 WATCH2 2018 版智能手錶體驗
※VR/AR、AI、智能手機、5G將成2018 MWC 大會重點
※MWC 2018前瞻:智能手機、VR/AR、AI、5G將成大會重點
※HUAWEI Watch 2 2018 版智能手錶體驗
※HUAWEI P20 Pro榮獲TIPA 2018年度最佳智能拍照手機大獎
※MWC 2018:VUZIX展示兩款AR智能設備
※SAMSUNG 新一代智能助理 BIXBY 2.0 7月現身
※OPPO R15搭載全新AI 智能系統ColorOS 5.0,讓你生活更輕鬆
※NAB SHOW 2018進行時丨迪士尼/ABC推出穩定器DigiBoom,AMBEO智能耳機令人矚目
※智美雙全的ColorOS 5.0,助力OPPO R15更智能交互體驗!
※ILIFE新品W400亮相AWE2018 主打智能洗地
※YI Tunnel攜AI智能貨櫃「入侵」CES Asia 2018
※卡西歐推出限量款Wear OS智能手錶WSD-F20SC-BK特別版
※《到站秀》第174彈:HUAWEI 華為 「徠卡三攝」 P20 Pro 智能手機
※美餐智能餐櫃 SMARTWAITER W1 獲得 2018年iF 設計獎和紅點獎
※意法半導體在2018年TECHNO-FRONTIER展會上展示最新的智能工業解決方案
※AI智能助手更快捷!OPPOR15搭載ColorOS5.0使用體驗
※QLED技術/Bixby智能!三星2018年新品TV發布會
※發現智能變革力量!GTIC AWARDS 2018四大年度獎項公布
※卡西歐推出Wear OS限量版WSD-F20SC智能手錶