當前位置:
首頁 > 科技 > 乾貨警告!國外有個小姐姐給29篇經典機器學習論文寫了總結

乾貨警告!國外有個小姐姐給29篇經典機器學習論文寫了總結

乾明 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如果你想在人工智慧領域深耕,閱讀經典論文是一個必須要做的事情。

但是,怎麼讀?讀哪些?論文中哪些是關鍵?都是需要讓人去琢磨的地方。

最近,有一份資源悄然流傳出來,裡面彙集了29篇經典的機器學習論文的總結,這些論文都是作者近半年來讀到的。

每篇論文,作者都給出了論文的主要思路,與其他相關的研究有什麼區別,這篇論文有哪些亮點與創新點等等。而且,基本上每篇論文都附上了鏈接。

有哪些論文?

這些論文,一共分為六個部分。


語言/序列模型(Language/Sequence Models)

這部分,一共6篇。分別是:

BERT: Language Model Pretraining

來自谷歌AI,提出了一種強大的新的語言表徵模型。

You May Not Need Attention

來自艾倫人工智慧研究所,提出了一種循環神經翻譯模型,不需要注意力機制,也沒有單獨的編碼器和解碼器。

Trellis Networks for Sequence Modeling

論文提出了用於序列建模的新架構Trellis Networks,是時間卷積網路和RNN之間的理論橋樑,但適用範圍比前者更小,比後者更廣泛。來自CMU和英特爾。

On the Evaluation of Common Sense Reasoning in Natural Language Processing

來自麥吉爾大學,目標是深入到用於評估模型性能的測試集中,並試圖理解它在多大程度上對模型行為進行了嚴格測試。這篇論文主要討論的是Winograd Schema Challenge (WSC),圖靈測試的一個變種,旨在判定AI系統的常識推理能力。並提出了一個新的評估標準,彌補WSC等基準測試中的局限性。

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

這篇論文來自上海交通大學等。作者提出了一個序列生成框架SeqGAN,來解決GAN在生成離散數據時的局限性。

Evaluating Language GANs and Neural Text Generation

這篇論文研究了當前用於比較文本生成的度量標準為什麼無法全面描述模型的運行情況,並在與傳統的最大似然估計方法相比的情況下,評估了用於生成文本的GAN的性能。


元學習/多任務(Meta Learning / Multi Task)

這部分,一共4篇。分別是:

One-Shot Imitation Learning

來自OpenAI,提出了一個元學習框架,能夠從極少數演示中學習,去完成任何給定的任務。

Importance Weighted Actor Learner Architectures

來自DeepMind,開發了一個新的分散式智能體IMPALA,不僅在單機訓練中能更有效地使用資源,而且在不犧牲數據效率和資源利用率的情況下,可以擴展到數以千計的機器上。

Multi-Task RL Using Pop Art Normalization

強化學習領域,演算法大部分都是一次訓練一個任務,每個新任務都需要重新訓練智能體。學習演算法通用,但每個解決方案都不通用。這篇論文提出了一種方法,優化了同時掌握多個順序決策任務時的資源分配和注意力分散問題,在57款不同的Atari遊戲中的表現超過了中等水平的人類,這也是第一次單個智能體在這一多任務領域超過人類。

Proximal Meta Policy Search

來自加州大學伯克利分校等,開發了一個新的元學習演算法,克服了不良信用分配的問題和先前評估元策略梯度方面的困難。


內在獎勵/基於模型的強化學習(Intrinsic Rewards/Model-Based RL)

這部分,一共9篇。分別是:

Curiosity Driven Learning

論文作者來自OpenAI和加州大學伯克利分校,目標是弄清楚在沒有外部獎勵信號的情況下,僅僅由好奇心驅動的學習能夠使強化學習系統走多遠。這也是第一次大規模研究純粹由好奇驅動的強化學習。

Episodic Curiosity Through Reachability

論文提出了一種新的好奇方法,利用情景記憶形成獎勵,作者來自谷歌大腦、DeepMind等。

Model-Based Active Exploration

提出了一種主動探索環境的演算法。 通過計劃觀察新事件,而不是僅僅對偶然遇到的新事物做出反應,最大限度地減少了全面模擬環境所需的數據。作者來自「遞歸神經網路之父」Jürgen Schmidhuber的創業公司NNAISENSE。

Combined Reinforcement Learning via Abstract Representations

來自麥吉爾大學等,對比了基於模型和無模型的強化學習,然後討論了他們提出的CRAR方法如何將這兩種結構結合起來。

Agent Empowerment

這是一篇經典論文,來自赫特福德大學,論文討論了「授權」的概念,提出了一種關於智能體的效用函數,適用於沒有提供任何明確短期回報的情況。

Recurrent World Models Facilitate Policy Evolution

論文作者David Ha(谷歌AI)和Jürgen Schmidhuber,以無監督的方式快速訓練生成型循環神經網路,通過壓縮的時空表徵 (Spatio-Temporal Representations) ,來為那些常見的強化學習環境建模。作者曾對這篇論文做過一個總結:「世界模型」可以讓人工智慧在「夢境」中對外部環境的未來狀態進行預測。

Learning Plannable Representations with Causal InfoGAN

來自加州大學伯克利分校等,要解決的問題是:給定初始狀態和期望目標的情況下,如何讓系統通過學習,得到一系列可以達成目標的動作。

Counterfactually Guided Policy Search

無模型的強化學習,需要大量的數據訓練。研究者可以建立學習環境模型,生成合成軌跡,並在這些軌跡上進行訓練。但這些模型簡化了真實環境,而且可能不準確。這篇論文提出了一個明確的因果/反事實模型,來生成具有更高保真度的軌跡。來自DeepMind。

The Impact of Entropy on Policy Regularization

這篇論文通過定性研究表明,在某些環境中,引入熵正則化可以使優化曲面更加平滑、連接局部最優值,從而使用更大的學習速率。並提出了一個理解底層優化場景的新工具。來自谷歌大腦。


Multi-Agent強化學習

這部分,一共3篇。分別是:

Emergence of Grounded Compositional Language in Multi-Agent RL

來自OpenAI和加州大學伯克利分校,這篇論文做了一個有趣的實驗,看一群智能體在受到激勵的情況下,能否有效地發展出某種類似語言的東西。基於這個實驗,論文的作者提出了一種多智能體的學習方法。

Intrinsic Social Motivation via Causal Influence

在這篇谷歌等機構的論文中,在多智能體強化學習中,賦予一種新的內在社會動機,試圖解決有更明確目標的多智能體協調問題。

Relational Forward Models for Multi Agent Learning

介紹了一種用於多智能體學習的模型,可以在學習環境中準確預測智能體未來的行為,來自DeepMind等。


對抗樣本(Adversarial Examples)

這部分,一共2篇。分別是:

Adversarial Reprogramming of Neural Networks

對六種ImageNet分類模型的對抗性重新編程,並調整了這些模型的用途,以執行相應任務。來自谷歌大腦。

On the Intriguing Connections of Regularization, Input Gradients and Transferability of Evasion and Poisoning Attacks

這篇論文來自卡利亞里大學等,作者對不同的模型進行了實證分析,研究不同模型之間的對抗樣本遷移情況有何不同。


其他

這部分,一共5篇。分別是:

Test to Image Generation With AttnGAN

一篇來自微軟研究院等機構的論文,提出了一個注意力生成對抗網路,用於文本到圖像的生成。

An intriguing failing of convolutional neural networks and the CoordConv solution

這篇來自Uber的論文,針對卷積神經網路在空間坐標轉換問題上的缺陷,提出了一種名為CoordConv的解決方案。工作原理是使用額外的坐標通道使卷積訪問輸入坐標。

Visualizing the Loss Landscape of Neural Networks

這篇論文提出了一種可視化損失函數的新方法,解決了理解損失函數的特徵如何影響模型性能的問題。來自馬里蘭大學學院市分校等。

Embedding Grammars

這篇論文來自楊百翰大學。將單詞嵌入的語義泛化能力和語境無關的語法結構(比如正則表達式)結合起來,創造混合語義語法。

Deep Image Reconstruction from fMRI Data

來自日本ATR計算神經科學實驗室,提出了一種新的圖像重建方法,藉助fMRI技術和深度學習演算法,根據人類的大腦活動重建人類看到的圖像。

誰寫的這些總結?

這份總結的作者,是一位名為Cody Wild的小姐姐,在一家名為Sophos的安全技術公司擔任數據科學家,喜歡貓。

每半年,她會花一個月的時間,給自己讀到的經典機器學習論文寫總結,這已經是第三次了

大家可以再Twitter上面關注她。ID:@decodyng。

最後,這份總結筆記傳送門:

https://docs.google.com/document/d/15o6m0I8g6O607mk5YPTh33Lu_aQYo7SpHhNSbLPQpWQ/edit#

活動報名

年度評選申請

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

谷歌開源TF-Ranking可擴展庫,支持多種排序學習
創新工場DeeCamp冬令營熱招中!

TAG:量子位 |