當前位置:
首頁 > 新聞 > 深度強化學習這塊,有人說我們已經觸頂了……

深度強化學習這塊,有人說我們已經觸頂了……

雷鋒網 AI 科技評論:Open AI Five 討論熱潮正在持續。近日,有人在 reddit 網站上指出,Open AI Five 正式對外開放後的遊戲表現不如預期,這說明深度強化學習已經觸頂,由此引髮網友們的激烈討論,雷鋒網 AI 科技評論將當中較有代表性的論點編譯如下。

我們都知道,Open AI Five 與 AlphaStar 是現有規模最大、操作最複雜的深度強化學習落地實踐,但依然與人類智能存在較大差距。而且我敢打賭,如果將 AlphaStar 進行公開發布,任意人可以與之遊戲,它也將迎來同樣命運。

我知道有很多研究正在進行中,試圖讓深度強化學習變得更具有數據效率性,且在分布不均與對抗性例子問題上更具有魯棒性。但目前看來,它與人類之間的差距是如此之大,以至於我懷疑,除了範式轉變外,任何事情都不能有效地彌合這種差距。

對此,你的想法是什麼?這是深度強化學習所能達到的極限,還是說我們仍然有希望推動該範式的發展?

網友回答:

@hobbesfanclub

我覺得一切才剛剛開始。每天都有大量的研究成果被發布,我甚至都有點跟不上了。我認為最先進的那些技術,經常過幾天便不再是了,說明該領域依然有大量的工作需要我們去做。

對於在該領域工作的人來說,這些成就如今看來仍然叫人難以置信,真正令人印象深刻的,還是這些技術在宏偉的計劃里顯得非常年輕......

@adventuringraw

這個討論本身就很搞笑...... 過去針對深度學習也有過類似探討。大概是說我們是否已經達到神經網路的發展極限?要是沒有基本的範式轉變,是否更不可能取得突破?但是你看,後來出現過各種各樣基於神經網路的新方法,這些方法曾在 2012 讓人如此興奮。GAN 就不用說了,還有 VAE、神經風格轉移,包括深度強化學習本身同樣基於神經網路理論,與其說深度學習被取代了,倒不如說它被積壓在一堆新知識下面。它是一個組件、一個問題解決策略、一種思維方式。就連 NN 自身也是建立在各種過往的進步和見解上。

這只是我個人的想法...... 這看起來似乎是無模型方法的根本問題。你需要對特徵空間進行密集覆蓋,或者換句話說……你也許知道需要在一個充分探索過的區域做些什麼,卻不一定能夠據此進行新的推理。那可以怎麼做呢?你需要一個具備世界觀的模型來進行推理。我之前看過一篇基於谷歌大腦 SimPLe 模型的強化學習論文,嚴格來說,轉換至基於強化學習的模型並不是一個新想法... 在我們獲得能夠進行抽象推理的代理以前,尚有一些重要問題有待我們去解決。比如要怎麼在空間中習得相關的獨立實體、行動等?是否能夠以無人監督的方式完成?在給出早期證據的情況下,如何通過策劃實驗來幫助消除可能世界的差異?如何將當前對世界的理解壓縮成為低維度的表示,以便能夠完美解析出問題解決的關鍵維度?就像……它可以習得身處環境的地圖嗎?創建有層次的長期計劃的最佳方法是什麼(先做什麼,後做什麼?)即便是圖像分類,我們依然在基於形狀的提取功能而非基於紋理的提取功能實現上面臨困難……... 總的來說,局部模式比起全局模式更容易有瑕疵,因此我並不十分驚訝,我認為是 OpenAI 5 發現自身所做的策略更好被利用,從而使其更容易受到具有正確洞察力的玩家擊破。

我最近一直在讀 Judea Pearl 的因果關係論……從中發現了一些很有意思的東西。我不認為原始的 Pearl 因果模型表明我們需要的是明確向世界學習的智能體,而是能夠適應新環境、進行宏觀規劃的智能體,這種 智能體能夠進行反事實推理,對自身世界具有強而有力的理解。鑒於我們還沒完全了解即便只是創建一個魯棒性的圖像分類器究竟需要些什麼(即使是在監督的環境中,無人監督模式更不用說了),我認為在深度強化學習能夠實現自主進化以前,我們還有部分理論需要進行補充。

最瘋狂的是...... 這些障礙似乎正在消失。這意味著什麼?一個會玩 Dota2 、懂得合作、懂得推理的無人監督系統...... 現在就開始感覺這個系統即將在不久後出現。如果這都可能發生,還有什麼是可能的嗎?我並不驚訝 OpenAI 5 還沒達到那種水平,但我們可以期待接下來會發生些什麼。

@StrictOrder

在我看來,我們是在要求我們的函數逼近器去嘗試近似錯誤的函數,或者更確切地說,我們給它們提供過於龐大的搜索空間,以致於它們無法將所接收到的信息點連接起來,因此它們只是利用這些經驗來充實自己,而非泛化。

例如,我看到基於模型的智能體收斂於一個數量級更小的樣本。這似乎是該領域非常有前途的一個研究方向。它讓我想起在殘差連接、RNN 、forget gates 模型出現以前訓練深度圖像分類器是多麼的困難。我們需要修剪我們要求模型搜索的空間,或者至少給它一些好的先驗,並以某種方式保存已經在一般表示中學習的信息。我們需要對模型的搜索空間進行剪枝,或者起碼提供一些好的先驗信息,並以某種方式保存在一般表示中已經學會的信息里。

最後我想說,放輕鬆。他們大部分時間都在從零開始學習。新生嬰兒需要多長的時間才能實現某種連貫性? 得益於數十億年來進化演算法形式的計算,它們被賦予一種能夠最好表示可能遇到的各種函數與模式的神經結構。

@Nater5000

Open AI Five 並未基於任何複雜的東西,至少就深度強化學習目前所能達到的狀態而言。事實上,各種關於 OpenAI 的文章全面描述了它是如何運作的,從某種意義上說,這些演算法並不依賴於近期開發出的許多複雜「擴展」來幫助推動強化學習研究。(AlphaStar 也是如此)

反之,OpenAI Five 最令人印象深刻的地方就在於他們成功地使用「簡單」的方法對之進行訓練。當然,花了 10 個月時間進行訓練這個事實清楚表明這並非一個可以持續向前推進的可行方法。然而 Five 的這些 智能體相對簡單,僅僅通過對更複雜的方法進行實驗就可以做出改進,這點說明我們實際上離深度強化學習的極限還有多遠。

最重要的是,Five 在正式公開以後以及公開期間就未再受過訓練。換句話說,人類能夠乘機學會如何打敗它,所以這並非什麼了不起的成就,因為 Five 壓根無法保護自己免受人類利用它們的策略弱點進行攻擊。相反的,如果 OpenAI 允許這些智能體從遊戲中自我學習,我們會發現,人類的擊敗策略將會在 Five 從失敗中學習後失效。

聽到有人說五人沒有他們想像那麼好,這讓我覺得很瘋狂,就因為它們輸掉了不到 1%的賽事。該數字更能說明的是遊戲的複雜性,而非智能體模型或訓練演算法的不足。成千上萬的玩家致力於擊敗這一單一的 AI,我們可以將之理解為一個可以從經驗中進行學習的大眾來源對抗智能體。將其與靜態模型相比似乎有點不太公平,因為靜態模型無法抵禦自身的缺點來保護自己 lol。

無論如何,深度強化學習遠未達到極限。自 OpenAI Five 項目啟動以來,在理解深度強化學習方面已經取得了許多進展,因此認為它已經過時也不完全是錯誤的。況且從一開始他們就不準備做一些花哨的事情。在如此複雜、基於策略的環境中訓練相對通用的 RL 模型,它們的性能令人震驚。況且還沒考慮到這是一個多智能體問題,人們似乎沒有意識到這本身就是極其瘋狂的事情 lol。

雷鋒網 AI 科技評論


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

阿里雲亞太份額首超亞馬遜和微軟總和;滴滴順風車開放灰度測試;巨人網路闢謠史玉柱被帶走 | 雷鋒早報
史上最全 OpenCV 活體檢測教程!

TAG:雷鋒網 |