一文盡覽 ICLR 2019 Facebook & Google 入選論文

新聞 05-19

雷鋒網 AI 科技評論按，近日，ICLR 2019 論文入選結果公布，各大公司和研究院紛紛在博客上公布了今年入選的論文。

其中，Facebook 戰果滿滿，一共有 23 篇論文入選。值得注意的是，2018 年圖靈獎得主 Yann LeCun 是其中兩篇入選論文的共同作者之一。Facebook 人工智慧研究院研究員、圍棋項目負責人田淵棟博士也參與了其中兩篇論文的寫作。

而一直備受關注的 Google 在今年也有 57 篇論文入選了 ICLR 2019，其中，oral 論文有三篇。

雷鋒網 AI 科技評論整理了今年 ICLR 2019中，Facebook 和 Google 入選論文的全名單。在查看全名單之前，讓我們先來看看 Yann LeCun、田淵棟參與的 4 篇論文和 Google 的3 篇 oral 論文吧~

Facebook Yann LeCun、田淵棟參與的入選論文：

Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic

標題：基於不確定性正則化的密集交通駕駛模型預測策略學習

作者：Mikael Henaff, Alfredo Canziani, Yann LeCun

摘要：學習僅使用觀察數據的策略是具有挑戰性的事情，因為它在執行時產生的狀態分布可能與訓練期間觀察到的分布不同。在這項工作中，我們計劃訓練一個策略，同時明確懲罰這兩個分布之間在固定時間範圍內的不匹配。我們通過使用一個已學習的環境動力學模型來實現這一點，該模型展開了多個時間步驟，並訓練了一個策略網路，以最大限度地降低在這個展開的軌跡上的可區分成本。這一成本包含兩種形式：代表策略尋求優化目標的策略成本，以及代表其與受訓狀態的差異的不確定性成本。我們建議使用有關其自身預測的動力學模型的不確定性，利用深度網路不確定性估計的最新思想來測量第二種成本。我們使用交通攝像頭記錄的駕駛行為的大規模觀測數據集評估我們的方法，結果表明我們能夠從純粹的觀測數據中學習有效的駕駛策略，而無需與環境交互。

The role of over-parametrization in generalization of neural networks

標題：超參數化在神經網路泛化中的作用

作者：Behnam Neyshabur, Zhiyuan Li, Srinadh Bhojanapalli, Yann LeCun, Nathan Srebro

摘要：儘管現有的工作是確保神經網路在尺度敏感的複雜性度量方面的泛化，如規範、邊緣和銳度，但這些複雜性度量並不能解釋為什麼神經網路在過參數化的情況下泛化得更好。在這項工作中，我們提出了一種新的基於單位容量的複雜度度量方法，從而使兩層 ReLU 網路具有更嚴格的泛化邊界。我們與誤差行為相關的的容量邊界與不斷增加的網路規模相關（在實驗報告的範圍內），並且可以部分解釋過度參數化在泛化方面的改進。我們進一步提出了一個匹配的 Rademacher 複雜度下限，相比以前的神經網路容量下限，它是有所改善的。

Mind-aware Multi-agent Management Reinforcement Learning

標題：多智能體管理強化學習

作者：Tianmin Shu, Yuandong Tian

摘要：先前，大多數關於多代理強化學習（MARL）的工作都是通過直接學習每個代理的策略來實現最佳協作，從而最大限度地提高公共獎勵。在本文中，我們的目標是從另一個角度來解決這個問題。特別是，我們考慮的場景是，有一些自我意識的人（工人代理），他們有自己的想法（偏好、意圖、技能等），並且不能聽命去執行他們不想做的任務。為了實現這些代理之間的最佳協調，我們訓練一個超級代理（經理），通過根據當前和過去的觀察推斷他們的想法來管理他們，然後發起契約，將合適的任務分配給工人，並承諾給他們相應的獎金，以便讓他們同意一起工作。管理者的目標是最大限度地提高整體生產力，同時最大限度地減少向臨時團隊支付的費用。為了對管理者進行訓練，我們提出了由智能體建模和策略學習組成的多智能體管理強化學習。我們已經在兩個環境中評估了我們的方法：資源收集和製作，以通過各種任務設置和工人代理的多種設計來模擬多代理管理問題。實驗結果驗證了我們的方法在在線模擬工人——代理人的思維以及實現具有良好通用性和快速適應性的最佳臨時團隊中的有效性。

Algorithmic Framework for Model-based Deep Reinforcement Learning with TheoreticalGuarantees

標題：基於模型的深層強化學習理論保證演算法框架

作者：Yuping Luo, Huazhe Xu, Yuanzhi Li, Yuandong Tian, Trevor Darrell, Tengyu Ma

摘要：基於模型的強化學習（RL）被認為是減少阻礙無模型 RL 的樣本複雜性的一種有前途的方法。然而，對這些方法的思想的理論理解卻相當有限。本文介紹了一種新的演算法框架，用於設計和分析具有理論保證的基於模型的 RL 演算法。我們設計了一個元演算法，在理論上保證局部改進到期望反饋的局部最大值，該元演算法根據估計的動力學模型和樣本軌跡迭代地建立期望反饋的下界，然後在策略和模型上共同最大化下界。該框架將面對不確定性行為的優先探索擴展到非線性動力學模型，不需要顯式地量化不確定性。通過對我們的框架進行簡化，我們給出了一種基於模型的隨機下界優化（SLBO） RL 演算法的變體。實驗證明，當一系列連續控制基準任務中允許至少一百萬個樣本時，SLBO 達到了世界領先水平的性能。

Google 的 3 篇 oral 入選論文：

ENABLING FACTORIZED PIANO MUSIC MODELINGAND GENERATION WITH THE MAESTRO DATASET

標題：使用 Maestro 數據集實現鋼琴音樂分解的建模和生成

作者：Curtis Hawthorne，Andriy Stasyuk，Adam Roberts，Ian Simon，Cheng-Zhi Anna Huang，Sander Dieleman， Erich Elsen，Jesse Engel & Douglas Eck

摘要：眾所周知，用神經網路直接生成音樂音頻是非常困難的，因為它有時需要在許多不同的時間尺度上連貫地建模。幸運的是，大多數音樂也是高度結構化的，可以表示為樂器上演奏的離散音符事件。在本文中，我們證明了通過使用 Notes 作為中間表示，可以訓練一組能夠在六個數量級（0.1 ms～_10 s）的時間尺度上轉錄、構建和合成具有連貫音樂結構的音頻波形，我們稱之為 Wave2Midi2Wave。我們發布了新的 MAESTRO （為同步音軌和組織編輯的 MIDI 和音頻）數據集，實現了這一大進步。該數據集由超過 172 小時的虛擬鋼琴表演組成，在音符標籤和音頻波形之間進行了精確校準（誤差不超過 3 ms）。網路和數據集一起為創造新的音樂表達和可解釋的神經模型提供了一種有前景的方法。

GENERATING HIGH FIDELITY IMAGESWITH SUBSCALE PIXEL NETWORKSAND MULTIDIMENSIONAL UPSCALING

標題：利用子尺度像素網路和多維上尺度生成高保真圖像

作者：Jacob Menick，Nal Kalchbrenner

摘要：無條件生成高保真圖像是測試圖像解碼器性能的一個長期的基準。用於測試圖像解碼器的性能。自回歸圖像模型能夠無條件地生成小圖像，但將這些方法推廣到更容易評估逼真度的大圖像，仍然是一個開放性問題。其中的主要挑戰是對大量的上下文進行編碼的能力，並且，學習保持全局語義一致性和細節精確性的分布也很困難。為了解決前一個挑戰，我們提出了一種條件解碼器——子尺度像素網路（SPN），它生成的圖像是一系列大小相等的子圖像。該方法可以捕獲圖像的空間相關性，並要求對內存進行細分。為了解決後一個挑戰，我們建議使用多維上向縮放，通過使用不同的 SPNs，擴大圖像的大小和深度。我們評估了無條件生成尺寸為 256 的 CelebAHQ 和尺寸為 32 到 256 的 ImageNet 的 SPN。我們在多個設置中實現了最先進的可能的結果，在以前未探索的設置中建立了新的基準結果，並且能夠在兩個數據集的基礎上生成非常高保真的大規模樣本。

META-LEARNING UPDATE RULES FOR UNSUPER[1]VISED REPRESENTATION LEARNING

標題：無監督表示學習的元學習更新規則

作者：Luke Metz，Niru Maheswaranathan，Brian Cheung，Jascha Sohl-Dickstein

摘要：無監督學習的一個主要目標是發現對後續任務有用的數據表示，從而不需要在訓練期間訪問受監督的標籤。通常，這涉及到最小化替代目標，例如生成模型的負對數概率，以期對後續任務有用的表示將會產生影響。在這項工作中，我們建議通過元學習（meta-learning）直接把以後需要的任務當做目標。這是一個無監督的學習規則，它會導致對這些任務有用的表示。具體來說，我們以半監督分類性能為目標，元學習了一個演算法，一個無監督的權重更新規則——它生成了對這項任務有用的表示。此外，我們將無監督更新規則約束為生物動機的神經元局部函數，使其能夠推廣到不同的神經網路體系結構、數據集和數據模式。我們展示了元學習更新規則產生有用的功能，它有時優於現有的無監督學習技術。進一步證明了元學習無監督更新規則推廣到具有不同寬度、深度和非線性的訓練網路。它還推廣到隨機置換輸入維度的數據的訓練，甚至將圖像數據集類推到文本任務。

Facebook & Google ICLR 2019 入選論文全名單

Facebook 今年入選的全部論文如下：

A Universal Music Translation Network
A Variational Inequality Perspective on GANs
Adaptive Input Representations for Neural Language Modeling
Algorithmic Framework for Model-based Deep Reinforcement Learning with Theoretical Guarantees
Code2seq: Generating Sequences from Structured Representations of Code
Efficient Lifelong Learning with A-GEM
Environment Probing Interaction Policies
Equi-normalization of Neural Networks
Fluctuation-Dissipation Relations for Stochastic Gradient Descent
Generative Question Answering: Learning to Answer the Whole Question
Hierarchical Proprioceptive Controllers for Locomotion in Mazes
Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future
Learning Exploration Policies for Navigation
Learning When to Communicate at Scale in Multi-agent Cooperative and Competitive Tasks
M3RL: Mind-aware Multi-agent Management Reinforcement Learning
Multiple-Attribute Text Rewriting
No Training Required: Exploring Random Encoders for Sentence Classification
Pay Less Attention with Lightweight and Dynamic Convolutions
Quasi-Hyperbolic Momentum and Adam for Deep Learning
Selfless Sequential Learning
Spreading Vectors for Similarity Search
Unsupervised Hyper-Alignment for Multilingual Word Embeddings
Value Propagation Networks

Google 今年入選的全部論文如下：

oral：

Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling
Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset
Meta-Learning Update Rules for Unsupervised Representation Learning

posters：

A Data-Driven and Distributed Approach to Sparse Signal Representation and Recovery
Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes
Diversity-Sensitive Conditional Generative Adversarial Networks
Diversity and Depth in Per-Example Routing Models
Eidetic 3D LSTM: A Model for Video Prediction and Beyond
GANSynth: Adversarial Neural Audio Synthesis
K for the Price of 1: Parameter-efficient Multi-task and Transfer Learning
Learning to Describe Scenes with Programs
Learning to Infer and Execute 3D Shape Programs
The Singular Values of Convolutional Layers
Unsupervised Discovery of Parts, Structure, and Dynamics
Adversarial Reprogramming of Neural Networks
Discriminator Rejection Sampling
On Self Modulation for Generative Adversarial Networks
Towards GAN Benchmarks Which Require Generalization
Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer
A new dog learns old tricks: RL finds classic optimization algorithms
Contingency-Aware Exploration in Reinforcement Learning
Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning
Diversity is All You Need: Learning Skills without a Reward Function
Episodic Curiosity through Reachability
Learning to Navigate the Web
Meta-Learning Probabilistic Inference for Prediction
Multi-step Retriever-Reader Interaction for Scalable Open-domain Question Answering
Near-Optimal Representation Learning for Hierarchical Reinforcement Learning
Neural Logic Machines
Neural Program Repair by Jointly Learning to Localize and Repair
Optimal Completion Distillation for Sequence Learning
Recall Traces: Backtracking Models for Efficient Reinforcement Learning
Sample Efficient Adaptive Text-to-Speech
Synthetic Datasets for Neural Program Synthesis
The Laplacian in RL: Learning Representations with Efficient Approximations
A Mean Field Theory of Batch Normalization
Efficient Training on Very Large Corpora via Gramian Estimation
Predicting the Generalization Gap in Deep Networks with Margin Distributions
InfoBot: Transfer and Exploration via the Information Bottleneck
AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networks
Complement Objective Training
DOM-Q-NET: Grounded RL on Structured Language
From Language to Goals: Inverse Reinforcement Learning for Vision-Based Instruction Following
Harmonic Unpaired Image-to-image Translation
Hierarchical Generative Modeling for Controllable Speech Synthesis
Learning Finite State Representations of Recurrent Policy Networks
Learning to Screen for Fast Softmax Inference on Large Vocabulary Neural Networks
Music Transformer: Generating Music with Long-Term Structure
Universal Transformers
What do you learn from context? Probing for sentence structure in contextualized word representations
Doubly Reparameterized Gradient Estimators for Monte Carlo Objectives
How Important Is a Neuron?
Integer Networks for Data Compression with Latent-Variable Models
Modeling Uncertainty with Hedged Instance Embeddings
Preventing Posterior Collapse with delta-VAEs
Spectral Inference Networks: Unifying Deep and Spectral Learning
Stochastic Prediction of Multi-Agent Interactions from Partial Observations

Via：https://ai.facebook.com/blog/facebook-research-at-iclr-2019/

https://ai.googleblog.com/2019/05/google-at-iclr-2019.html

雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※中國團隊完成醫療 AI 多中心臨床驗證，成果入選《柳葉刀》子刊封面

TAG:雷鋒網 |