當前位置:
首頁 > 最新 > OpenAI ICLR 2018論文匯總:主要興趣為強化學習

OpenAI ICLR 2018論文匯總:主要興趣為強化學習

來源:openreview

編譯:weakish

OpenAI在ICLR 2018上共提交了7篇論文,其中,1篇被評為最佳論文,2篇將作口頭報告。另外,值得注意的是,7篇論文有4篇都屬於強化學習領域

Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines

策略梯度方法在深度強化學習領域取得了巨大成功,但飽受梯度估計高方差之苦,特別是在高維大型的行動空間上。這篇論文提出了一種無偏置的、依賴於行動的基線以降低方差。

不同維度下行動依賴基線(綠線)的表現

本文將在ICLR 2018作口頭報告。

5月3日 10-10:15am;Exhibition Hall A

arXiv:1803.07246

Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments

本文將持續適應(continuous adaptation)問題納入learning-to-learn框架,提出了一種簡單的基於梯度的元學習演算法,該演算法適用於動態變化的對抗性情境。另外還設計了一個新的多智能體競爭環境RoboSumo。

RoboSumo

5月3日 10:15-10:30am;Exhibition Hall A

arXiv:1710.03641

Learning Sparse Neural Networks through L0 Regularization

我們都很熟悉L1和L2正則化,而本文提出了一種L0正則化方法:通過鼓勵權重變為零,在訓練階段剪枝網路。

在CIFAR-10和CIFAR-100上的表現

5月2日 11am-1pm;East Meeting level: 1,2,3 #32

arXiv:1712.01312

Emergent Complexity via Multi-Agent Competition

傳統上,強化學習問題的複雜度取決於環境的複雜度。本文展示了,即使在一個簡單的環境下,通過智能體之間的競爭,也能學習到多樣、複雜、有趣的技能(基於模擬物理的3D環境)。

5月3日 11am-1pm;East Meeting level: 1,2,3 #19

Parameter Space Noise for Exploration

深度強化學習方法常常在行動空間中加入雜訊,以鼓勵探索行為。本文嘗試直接在智能體的參數中加入雜訊。

藍線為參數加噪的學習曲線,可以看到,總體而言表現更好

5月3日 11am-1pm;East Meeting level: 1,2,3 #7

arXiv:1706.01905

Improving GANs Using Optimal Transport

本文提出了一個新的GAN變體,OT-GAN,基於最優傳輸距離測量生成數據分布與真實數據分布間的距離。

5月3日 4:30-6:30pm;East Meeting level: 1,2,3 #16

Concept Learning with Energy-Based Models

基於能量的模型可以快速推斷二維數據點的概念。

學習「正方形」這個概念

workshop;5月2日 11am-1pm;East Meeting Level 8 + 15 #3

OpenReview地址:https://openreview.net/pdf?id=H12Y1dJDG


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 論智 的精彩文章:

視覺問答技術完全指南:從數據集到方法再到評估
演算法是新的醫藥:人工智慧醫療的風口

TAG:論智 |