增強學習是人工智慧的未來

娛樂 08-16

近日，在中國科學技術協會、中國科學院的指導下，由中國人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦，CSDN、中國科學院自動化研究所承辦的 2017 中國人工智慧大會（CCAI 2017）在杭州國際會議中心盛大召開。

在大會的智能金融論壇上，普林斯頓大學運籌與金融工程系助理教授王夢迪女士分享了增強學習在金融研究上的最新進展。

王夢迪表示，增強學習是人工智慧的未來，應當同古老的控制論思想結合起來，用大數據的方法來探索一個複雜系統的動態過程。

以下是王夢迪的演講實錄：

非常感謝組委會的邀請，很高興能在杭州跟大家分享我們在科研上的一些進展。

我自己是做快速機器學習演算法和複雜度出身的。但是現在包括我在內的很多做人工智慧的朋友，最感興趣的是增強學習。增強學習是人工智慧的未來，為什麼會這麼說？我們來簡單回顧一下人工智慧的歷史。

人工智慧的歷史回顧

在「人工智慧」這個詞出現之前，其實從某種程度上來講，它已經存在了，當時我們稱之為Control Theory（控制論）。那個時候還沒有計算機，但是有紙、有筆，當時利用控制論可以對簡單的機械裝置進行控制，比如小車、液壓系統。或者更進一步，在有了電之後，就可以對電氣進行控制，以及後來的流水自動化系統、航空航天技術、導彈制導技術等等。它們之所以能夠成功，都是因為有控制論，這是人工智慧的雛形。

控制論的核心思路在於，對於一個已知的系統，機械系統、或者電氣系統，我們可以用微分方程完整地描述它，這時候我們可以設計一套反饋的機制，用這套機制來實現我們的目的。這就是控制論，是人工智慧的史前時代。

當代人工智慧的發展主要基於最近二三十年機器學習領域的突破。我們現在之所以能坐在這裡談論機器學習，是因為首先有了計算機，然後有互聯網，才能讓互聯網驅動計算機進行學習。

機器學習的核心問題是什麼？我舉幾個例子：

我們看一張圖片、一段視頻，我們希望知道這張圖片或者這段視頻說明了什麼，能夠表達出它的意思。

我們看大腦的掃描圖，希望通過這個圖片識別出來哪兩個腦區有非常強的聯繫，這樣可以幫助生物學家和科學家研究大腦工作的機理。

看人的眼睛，可以通過一個人的虹膜判斷一個人的身份，通過虹膜識別這個人。

這些都是非常有趣的前沿應用，它們的特點是基於大數據和大規模樣本，去尋找事物之間靜態的映射關係。

增強學習

再接下來是什麼？是增強學習，或者說是深度增強學習。我們希望將史前時代和當代的最核心的技術以及最先進的思想結合起來，探索一個複雜的動態系統，用大數據的方法探索一個動態的過程，而不僅僅是靜態的關係。

什麼是增強學習？抽象來講，德州撲克機器人就在做增強學習。機器人是一段演算法，或者一段代碼，它需要與複雜的環境進行交互，這個複雜的環境可能就是網上的牌局，這個複雜的環境里就會涉及到其他機器人玩家和其他真人玩家。

機器人剛開始經驗有限，所以它需要不斷地嘗試來總結歸納出遊戲的規則。隨著機器人不斷地嘗試和試探，它也能夠從牌局的真實發展中得到很多信息，並根據反饋來更新自己內在的一些記錄，這個就是增強學習。

簡單來說，就是我們用智能演算法在線學習複雜的系統，並且實現對它的最優控制。這個問題非常難，比如說著名的AlphaGo。圍棋非常難，因為它涉及的可能性非常多。機器人非常難，一是它的系統非常複雜，複雜到不能用微分方程描述。自動駕駛也是很難的問題，難在它涉及到多種不同技術的融合，還涉及到很多外在環境的變化等等。所以這就是增強學習要解決的問題。

增強學習的核心技術

這裡面的主要技術是什麼？

它涉及到方方面面的技術，從系統到演算法到機器學習裡面的一些核心思想，這裡面最重要的是怎樣對一個複雜的系統進行降維和歸納。在這一塊，機器學習的技術可以在增強學習裡面發揮巨大的作用，可以認為機器學習的成功是增強學習未來的成功的重要一步。

我們還需要神經網路，需要深度學習，需要用深度學習的方法對策略和價值函數進行建模，同時讓價值網路和策略網路進行對抗式地共同學習，最終目的是希望利用神經網路模擬人腦的總結歸納的能力。此外在演算法層面，甚至在硬體層面，我們需要大規模的分層的並列計算，在硬體層面，我們需要GPU等等。

增強學習的應用

遊戲人工智慧

有了這些技術我們能幹什麼？

首先必須強調的是增強學習或者說人工智慧現在還處於嬰幼兒時期。現在世界上最前沿的做增強學習的公司可能是Google的Deep Mind，他們希望把每一種電腦遊戲都用增強學習求解。我們為什麼要關心遊戲？人在發展自己的智能的過程中，是通過遊戲的方法來學習的，人工智慧也是，這也是為什麼人工智慧在學習打一些簡單的遊戲，一直到越來越難的遊戲，最終要解決更難的問題。

高頻量化交易和錢化策略

另外一個和金融相關應用的是高頻量化交易。如果在股票市場上進行高頻量化交易，比如毫秒級、微秒級的交易，這時傳統交易中的方法可能就不太好用了。為什麼？也許我可以精算預測在接下來的5毫秒價格會往上走，但是市場上其他微觀結構讓我不能馬上去交易，一旦我交易，就會產生未知的擾動，反而不能獲利。這說明未知的人的操作會對微觀市場造成影響，而且這種影響不能歷史數據回測，必須用在線的方法去學，交易員跟德州撲克的牌手一樣，需要在線去尋找更好的策略。

在金融以外，人工智慧還有很多的應用，比如說醫療領域，我們可以從病人的病例中總結出一個病人的病理的發展規律，幫助醫生更好地做決策。

智能金融，未來大有作為

最後，這是一個非常非常新，而且也非常有前景的領域，所有事情都發生很快。比如說在演算法層面，半年前要解一個遊戲，可能需要32核的GPU跑兩三天，今天同樣一個遊戲，可能一個CPU幾個小時就搞定了。

在系統層面，伯克利大學剛剛開發出的並行GPU的計算系統，可以讓本來不能夠並行、非同步進行的運算可以非常快地大規模同步。

在更底層的硬體層面，還有很多的公司，包括英特爾在做專門加速深度學習的元件。

無論是硬體系統還是演算法層面，這個領域都發展飛速，我們有理由相信它在未來可以完成很多意想不到的事情，謝謝大家！

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！