OpenAI ICLR 2018論文匯總：主要興趣為強化學習

最新 05-02

來源：openreview

編譯：weakish

OpenAI在ICLR 2018上共提交了7篇論文，其中，1篇被評為最佳論文，2篇將作口頭報告。另外，值得注意的是，7篇論文有4篇都屬於強化學習領域。

Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines

策略梯度方法在深度強化學習領域取得了巨大成功，但飽受梯度估計高方差之苦，特別是在高維大型的行動空間上。這篇論文提出了一種無偏置的、依賴於行動的基線以降低方差。

不同維度下行動依賴基線（綠線）的表現

本文將在ICLR 2018作口頭報告。

5月3日 10-10:15am；Exhibition Hall A

arXiv:1803.07246

Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments

本文將持續適應（continuous adaptation）問題納入learning-to-learn框架，提出了一種簡單的基於梯度的元學習演算法，該演算法適用於動態變化的對抗性情境。另外還設計了一個新的多智能體競爭環境RoboSumo。

RoboSumo

5月3日 10:15-10:30am；Exhibition Hall A

arXiv:1710.03641

Learning Sparse Neural Networks through L0 Regularization

我們都很熟悉L1和L2正則化，而本文提出了一種L0正則化方法：通過鼓勵權重變為零，在訓練階段剪枝網路。

在CIFAR-10和CIFAR-100上的表現

5月2日 11am-1pm；East Meeting level: 1,2,3 #32

arXiv:1712.01312

Emergent Complexity via Multi-Agent Competition

傳統上，強化學習問題的複雜度取決於環境的複雜度。本文展示了，即使在一個簡單的環境下，通過智能體之間的競爭，也能學習到多樣、複雜、有趣的技能（基於模擬物理的3D環境）。

5月3日 11am-1pm；East Meeting level: 1,2,3 #19

Parameter Space Noise for Exploration

深度強化學習方法常常在行動空間中加入雜訊，以鼓勵探索行為。本文嘗試直接在智能體的參數中加入雜訊。

藍線為參數加噪的學習曲線，可以看到，總體而言表現更好

5月3日 11am-1pm；East Meeting level: 1,2,3 #7

arXiv:1706.01905

Improving GANs Using Optimal Transport

本文提出了一個新的GAN變體，OT-GAN，基於最優傳輸距離測量生成數據分布與真實數據分布間的距離。

5月3日 4:30-6:30pm；East Meeting level: 1,2,3 #16

Concept Learning with Energy-Based Models

基於能量的模型可以快速推斷二維數據點的概念。

學習「正方形」這個概念

workshop；5月2日 11am-1pm；East Meeting Level 8 + 15 #3

OpenReview地址：https://openreview.net/pdf?id=H12Y1dJDG

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自論智的精彩文章: