UCL 教授汪軍：多智能體強化學習的兩大挑戰 | CCF-GAIR 2017

新聞 07-07

2017 年 7 月 7 日，為期三天的「CCF - GAIR」大會，在深圳大中華喜來登酒店開幕。在 AI 學術前沿專場的第三場，倫敦大學學院 UCL 的汪軍教授帶來了以《群體智能的社會》為主題的報告。報告內容請看本篇雷鋒網的現場速記。

汪軍，倫敦大學學院（UCL）計算機系副教授、互聯網科學與大數據分析專業主任。主要研究智能信息系統，主要包括數據挖掘，計算廣告學，推薦系統，機器學習，強化學習，生成模型等等。他發表了100多篇學術論文，多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統傑出華人專家。

UCL 教授汪軍：多智能體強化學習的兩大挑戰 | CCF-GAIR 2017

汪軍：潘院士今天早上講了人工智慧 2.0。其中的一個方向，是多個智能體之間的協作與競爭。我們還可以從社會學角度，把多智能體看作是一個群體；研究整個群體、動態系統的特性是什麼。對於該話題，我希望給大家做一個介紹。

大家都了解 AlphaoGo，它的一項核心技術就是強化學習。相比模式識別和監督學習，它在缺乏訓練數據集的情況下仍然可以工作。強化學習系統能夠直接和環境交互，得到反饋信息，在此過程中不斷學習，因此更加自然、靈活。強化學習的一項主要特性，是以收益（reward）定義目標方程，生成優化策略。

多智能體的強化學習

今天重點講的，是多智能體的強化學習。它們單獨的和環境進行交互。在一種情況下它們各自優化自己的目標，但這些目標之間有約束；另一種情況下，它們聯合起來優化一個主要的目標方程。根據具體的情況會有不同的變化。

案例 1：互聯網廣告

過去，我們再互聯網廣告領域做了很多工作，比較早得應用了強化學習方法：在環境交互的情況下，根據投放廣告以後用戶的反饋，系統不斷地進行學習。

目前我們可以在 10 毫秒之內做好決策，在每天 100億流量的情況下進行分析，幫助廣告主精準投放。

案例 2：星際爭霸

UCL 教授汪軍：多智能體強化學習的兩大挑戰 | CCF-GAIR 2017

我們通過對星際爭霸單位的控制，找到多智體的規律。研究它們在遊戲里怎麼合作、競爭與通訊。近幾個月，我們和阿里巴巴合作開發了一套玩星際爭霸的 AI 系統。該項目中，我們最想解決的是 AI 智體之間的通訊問題——當它們想合作起來攻打對方的時候，必須要有效地合作。我們希望在計算的時候，計算量相對較小，同時又達到智體的協同目的；於是採用了一種雙向連通方式，效果非常明星。

目前，多智體強化學習的研究仍處於非常初步的階段。這裡，有兩個方面的關鍵問題：

問題 1：多智體協同研究中，智體數量少

目前的研究，主要集中於少量多智體之間的協同。在有上萬個智體的情況下，（應用研究成果的）效果就不是很明顯。而許多現實場景中的多智體數量，可以達到百萬、甚至千萬級。

案例 3：智能打車 APP

一個很明顯的例子是Uber、滴滴等智能打車應用。

這類例子中，每個用戶手上的終端、每個司機手上的終端，你都可以把它們想像成智能體。它們可以做出決定：到底什麼樣的價錢我可以接受。系統層面甚至可以有一套機制合理分配資源。比如，出行高峰計程車比較少，但是需求量又比較大。而在其它的一些時候，可能計程車很多，但是需求量不大。系統怎麼調配，這其實需要一個非常大的人工智慧協作系統來分析。

案例 4：共享單車

共享單車的情況更加明顯。你可以想像，如果給每個自行車裝了晶元或者計算機，它就是一個很智能的東西，可以根據目前的情況，優化車輛的地理位置分布。

問題 2：智能體是否符合自然界規律？

今天，如果要做一個強化學習的模型，這個模型必須要可以處理百萬級的智體。

應該怎麼去做？我們可以從自然界裡面獲得一些啟發。比如生態學的 self-organisation （「自組織」）理論：一些個體行為的簡單規則，能造成種群層面的宏觀規律。但這類模型有一個很顯著的問題：它可以從宏觀的角度解決宏觀的現象，但缺少一種微觀的方法來觀察世界。每個個體有它自己的興趣，有它自己的優化的方程，這個微觀的東西和宏觀的現象之間有什麼關係？目前為止相關研究還是比較少的。

案例 5： Lotka-Volterra 模型

這裡，有一個動物界的著名模型名為 Lotka-Volterra （LV）模型。該模型描述的是：相互競爭的兩個種群，它們種群數量之間的動態關係。我們根據該模型的理論，用深度學習和強化學習做了一個老虎和羊的多智體生態模型。我們發現，如果關掉智體的學習能力（比如老虎），它們無法適應新環境，生態系統很快崩潰。

而給智體學習能力之後，模型出現的現象，與 LV 模型中猞猁抓兔子的動態現象十分相似。模擬出來的多智體生態，和自然世界的生態圈都遵循一種動態的平衡，就好比多個 AI 智體形成了一個動物種群。

這個研究很有意思的一點是，我們發現有這樣的場景：智體之間可以聯合在一起優化某一個目標，或者單獨優化它們自己的目標。當出現這兩種情況的時候，作為一個群體，他們就有了內在的規律。如果把這些規律找到，對於我們去開發一些新的模型、新的計算機人工智慧的方法，是非常有幫助的。

案例 6：宜家

強化學習里有一個環境，要麼假設這個環境是不變的，要麼假設這個環境有一定的概率在不斷變化。這個概率是不變的（not designable），意味著無法設計這個環境，而是更加適應這個環境。但是實際情況下發現，很多場景下，環境本身也需要一個適應的過程。在宜家的熱力圖上，我們可以看出谷歌在商場里的活動是非常平均的，這是一個非常好的現象。我們可以開發一個強化學習演算法，讓環境（商品擺放）根據顧客的變化而變化。

這是一個建築系教授進行的研究，他做了一個地圖模擬人在店鋪裡面走的情況，根據熱力圖反饋到鋪面設計，來優化用戶在這裡面待的時間，或者說最大化用戶可能消費的情況。

案例 7：分揀機器人

單個智體（機器人）要進行優化，以最快的路徑分揀快遞包裹。這個環境未必是最優的，我們根據貨物的統計特性，設計我把發往南京的包裹通道放在北京旁邊還是放在上海旁邊。所以環境也需要很好的考量和設計。

案例 8：迷宮

一個人工智體，需要以最快的效率找到出口。而環境知道其智能水平，根據情況來設計迷宮，使得智體有最困難或者最小的概率可以出去。這是一個競爭的關係。

怎麼優化呢？你會發現，該系統在兩個不同的維度進行。在人工智體的情況下，它會說給定一個環境，我想以最快的效率、最優的策略走出來。當你把這個人工智體學到的東西定住以後，就可以在另外一個維度優化環境：現在這個智體是這樣的屬性，能不能據此使得環境更困難？這兩個維度互相競爭、互相迭代，就可以達到優化的情況。雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※驚呆！人類藥丸？今天一大波機器人佔領了深圳喜來登六樓 | CCF-GAIR 2017
※「籌備三年，歷時三個月評選」AI最佳僱主50強榜單重磅出爐（國內AI領域第一份權威求職榜單）
※星河集團創始人徐茂棟：智能商業引爆產業互聯網時代 | CCF-GAIR 2017

TAG:雷鋒網 |

您可能感興趣

※「ALL IN eSIM」，華為 WATCH2 2018 版智能手錶體驗
※VR/AR、AI、智能手機、5G將成2018 MWC 大會重點
※MWC 2018前瞻：智能手機、VR/AR、AI、5G將成大會重點
※HUAWEI Watch 2 2018 版智能手錶體驗
※HUAWEI P20 Pro榮獲TIPA 2018年度最佳智能拍照手機大獎
※MWC 2018：VUZIX展示兩款AR智能設備
※SAMSUNG 新一代智能助理 BIXBY 2.0 7月現身
※OPPO R15搭載全新AI 智能系統ColorOS 5.0，讓你生活更輕鬆
※NAB SHOW 2018進行時丨迪士尼/ABC推出穩定器DigiBoom，AMBEO智能耳機令人矚目
※智美雙全的ColorOS 5.0，助力OPPO R15更智能交互體驗！
※ILIFE新品W400亮相AWE2018 主打智能洗地
※YI Tunnel攜AI智能貨櫃「入侵」CES Asia 2018
※卡西歐推出限量款Wear OS智能手錶WSD-F20SC-BK特別版
※《到站秀》第174彈：HUAWEI 華為「徠卡三攝」 P20 Pro 智能手機
※美餐智能餐櫃 SMARTWAITER W1 獲得 2018年iF 設計獎和紅點獎
※意法半導體在2018年TECHNO-FRONTIER展會上展示最新的智能工業解決方案
※AI智能助手更快捷！OPPOR15搭載ColorOS5.0使用體驗
※QLED技術/Bixby智能！三星2018年新品TV發布會
※發現智能變革力量！GTIC AWARDS 2018四大年度獎項公布
※卡西歐推出Wear OS限量版WSD-F20SC智能手錶