OpenAI最新發現:在參數空間增加雜訊,易於實現,並能輕鬆加快學習速度
雷鋒網 AI科技評論按:OpenAI最新發現表明,通過在網路的參數空間中加入雜訊,可以獲得遠優於在網路的行為空間中增加雜訊的表現。此外,他們發布了一系列基準代碼,覆蓋多個網路。
雷鋒網 AI科技評論編譯如下:
OpenAI實驗室最新發現:頻繁地給增強學習演算法中的參數增加自適應雜訊後,能得到更好的結果。這種方法實現簡單,基本上不會導致結果變差,值得在任何問題上嘗試。
GIF/7.0M
圖1:加入行為空間雜訊訓練的模型
GIF/8.3M
圖2:加入參數空間雜訊訓練的模型
參數雜訊可以幫助演算法高效地探索出合適的動作範圍,在環境中獲得優良表現。如圖1、圖2所示,經過216個episode的訓練之後,沒有加入參數噪音的DDPG會頻繁產生低效的奔跑行為,而加入參數雜訊訓練之後產生的奔跑行為得分更高。
增加參數雜訊後,智能體學習任務的速度變得更快,遠優於其他方法帶來的速度增長。在半獵豹運動環境(圖1、圖2)中經過20個episode的訓練之後,這項策略的得分在3000分左右,而採用傳統動作噪音訓練的策略只能得到1500分左右。
參數雜訊方法是將自適應雜訊加在神經網路策略的參數中,而不是加在行為空間。傳統的增強學習(RL)利用行為空間雜訊來改變智能體每一刻執行的動作的可能性。參數空間雜訊使智能體的參數直接增加了隨機性,改變了智能體做出的決策的類型,使它們總是能完全依賴於對當前環境的感知。這種技術介於進化策略(可以控制智能體的參數,但是當它在每一步中探索環境時,不會再次影響它的行為)和類似TRPO、DQN、DDPG這樣的深度增強學習方法之間 (不能控制參數,但可以在策略的行為空間上增加雜訊)。
圖3:左邊是行為空間雜訊,右邊是參數空間雜訊
參數雜訊可以讓演算法更高效的探索環境,得到更高的分數和更優雅的動作。因為有意的在策略參數中增加雜訊,能使智能體在不同時刻的探索保持一致,而在行為空間中增加雜訊,會讓探索過程更加難以預測,這種探索過程也就與智能體的參數沒有特定的關聯性。
人們之前曾嘗試過將參數雜訊應用於策略梯度。在OpenAI的探索之下,這種方法現在可以用在更多地方了,比如用在基於深度神經網路的策略中,或是用在基於策略和策略無關的演算法中。
GIF/1.6M
圖4:加入行為空間雜訊訓練的模型
GIF/981K
圖5:加入參數空間雜訊訓練的模型
如圖4、圖5所示,增加參數空間雜訊後可以在賽車遊戲中獲得更高的分數。經過2個episode的訓練,訓練中在參數空間增加雜訊的DDQN網路學會了加速和轉彎,而訓練中在行為空間增加了雜訊的網路展現出的動作豐富程度就要弱很多。
在進行這項研究時他們遇到了如下三個問題:
不同層數的網路對擾動的敏感性不同。
在訓練過程中,策略權重的敏感性可能會隨著時間改變,這導致預測策略的行動變得很難。
選取合適的雜訊很困難,因為很難直觀地理解訓練過程中參數噪音是怎麼影響策略的。
第一個問題可以用層級歸一化來解決,這可以保證受到了擾動的層的輸出(這個輸出是下一個層級的輸入)與未受擾動時的分布保持相似。
可以引入一種自適應策略來調整參數空間擾動的大小,來處理第二和第三個問題。這一調整是這樣實現的:測量擾動對行為空間的影響和行為空間雜訊與預定目標之間的差異(更大還是更小)。這一技巧把選擇雜訊大小的問題引入行為空間,比參數空間具有更好的解釋性。
選擇基準,進行benchmark
OpenAI發布了一系列基準代碼,為DQN、雙DQN(Double DQN)、決鬥DQN(Dueling DQN)、雙決鬥DQN(Dueling Double DQN)和DDPG整合了這種技術。
此外,也發布了DDQN在有無參數雜訊下玩部分Atari遊戲性能的基準。另外還有DDQN三個變體在Mujoco模擬器中一系列連續控制任務下的性能基準。
研究過程
在第一次進行這項研究時,OpenAI發現應用到DQN的Q函數中的擾動有時候太極端了,導致演算法重複執行相同的動作。為了解決這個問題,他們添加了一個獨立的策略表達流程,能夠像在DDPG中一樣明顯的表示出策略(在普通的DQN網路中,Q函數只能隱含的表示出策略),使設置與其他的實驗更相似。
然而,在為這次發布準備代碼時,他們做了一次實驗,在使用參數空間雜訊時沒有加獨立的策略策略表達流程。
他們發現實驗的結果與增加獨立策略表達流程之後的結果很相似,但實現起來更簡單。進一步的實驗證實獨立的策略頭確實是多餘的,因為演算法很可能在早期的實驗中就得到了改進(他們改變了調節雜訊的方式)。這種方法更簡單、更具有可行性,降低了訓練演算法的成本,並且能得到相似的結果。
重要的是要記住,AI演算法(特別是在增強學習中)可能會出現一些細微的失敗,這種失敗會導致人們尋找解決方案的時候很難對症下藥。
雷鋒網 AI科技評論編譯。
※愛爾眼科與英特爾合力打造AI眼科診斷系統;平安科技布局AI創新 | AI掘金晚報
※中國正在研製新一代原子鐘,或用於下一代北斗導航衛星
※好未來用「AI 教育」改變原有的學習模式
※CVPR 2017精彩論文解讀:顯著降低模型訓練成本的主動增量學習
TAG:雷鋒網 |
※實測BOSE睡眠耳塞Sleepbuds是否真能阻隔雜訊?
※IBM推出「零雜訊外推」的技術,以減輕量子計算的雜訊
※S4:增加訊息量衍生的雜訊問題
※環境雜訊被發現能增強能量在離子間的傳輸!
※新品 | 星狀接地,雜訊退散:Cardas Nautilus Power Strip排插
※雜訊對比估計加速詞向量訓練
※OpenAI發現打破神經網路黑盒魔咒新思路:梯度雜訊量表
※App Store限免:分貝雜訊測量&喝水啦!&輕鬆摳圖大師
※印度最新潛艇因雜訊過大被延遲入役
※中國核潛艇雜訊比AIP艇大?有了這一利器浮出水面都不怕
※直升機雜訊非常大,為什麼飛到頭上敵人才會發現?因為它飛得太快
※LDO輸出雜訊對VCO相噪的影響
※修復非船舶雜訊,Xbox One絕地求生第9版補丁先睹為快
※雜訊頻譜密度比信噪比更有用,是真的嗎?
※PDN網路雜訊測量
※採樣保持(THA)輸出雜訊的兩個關鍵雜訊分量
※中國科大等實驗實現雜訊適應的糾纏態探測
※無軸泵核潛艇優勢在哪?技術更先進雜訊更小更易潛伏
※F-35不受歡迎?由於雜訊太大,將不允許停靠
※協和之魂重燃!全新超音速客機試飛在望 這次不再有震天雜訊