OpenAI ICLR 2018論文匯總:主要興趣為強化學習
來源:openreview
編譯:weakish
OpenAI在ICLR 2018上共提交了7篇論文,其中,1篇被評為最佳論文,2篇將作口頭報告。另外,值得注意的是,7篇論文有4篇都屬於強化學習領域。
Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines
策略梯度方法在深度強化學習領域取得了巨大成功,但飽受梯度估計高方差之苦,特別是在高維大型的行動空間上。這篇論文提出了一種無偏置的、依賴於行動的基線以降低方差。
不同維度下行動依賴基線(綠線)的表現
本文將在ICLR 2018作口頭報告。
5月3日 10-10:15am;Exhibition Hall A
arXiv:1803.07246
Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments
本文將持續適應(continuous adaptation)問題納入learning-to-learn框架,提出了一種簡單的基於梯度的元學習演算法,該演算法適用於動態變化的對抗性情境。另外還設計了一個新的多智能體競爭環境RoboSumo。
RoboSumo
5月3日 10:15-10:30am;Exhibition Hall A
arXiv:1710.03641
Learning Sparse Neural Networks through L0 Regularization
我們都很熟悉L1和L2正則化,而本文提出了一種L0正則化方法:通過鼓勵權重變為零,在訓練階段剪枝網路。
在CIFAR-10和CIFAR-100上的表現
5月2日 11am-1pm;East Meeting level: 1,2,3 #32
arXiv:1712.01312
Emergent Complexity via Multi-Agent Competition
傳統上,強化學習問題的複雜度取決於環境的複雜度。本文展示了,即使在一個簡單的環境下,通過智能體之間的競爭,也能學習到多樣、複雜、有趣的技能(基於模擬物理的3D環境)。
5月3日 11am-1pm;East Meeting level: 1,2,3 #19
Parameter Space Noise for Exploration
深度強化學習方法常常在行動空間中加入雜訊,以鼓勵探索行為。本文嘗試直接在智能體的參數中加入雜訊。
藍線為參數加噪的學習曲線,可以看到,總體而言表現更好
5月3日 11am-1pm;East Meeting level: 1,2,3 #7
arXiv:1706.01905
Improving GANs Using Optimal Transport
本文提出了一個新的GAN變體,OT-GAN,基於最優傳輸距離測量生成數據分布與真實數據分布間的距離。
5月3日 4:30-6:30pm;East Meeting level: 1,2,3 #16
Concept Learning with Energy-Based Models
基於能量的模型可以快速推斷二維數據點的概念。
學習「正方形」這個概念
workshop;5月2日 11am-1pm;East Meeting Level 8 + 15 #3
OpenReview地址:https://openreview.net/pdf?id=H12Y1dJDG
※視覺問答技術完全指南:從數據集到方法再到評估
※演算法是新的醫藥:人工智慧醫療的風口
TAG:論智 |