ICLR 2019最佳論文揭曉！NLP深度學習、神經網路壓縮成焦點

科技 05-06

新智元原創

來源：ICLR 2019

編輯：肖琴

【新智元導讀】ICLR 2019今天在官網公布了最佳論文獎！兩篇最佳論文分別來自Mila/加拿大蒙特利爾大學、微軟蒙特利爾研究院和MIT CSAIL，主題分別集中在NLP深度學習模型和神經網路壓縮。

今天，ICLR 2019在官網公布了最佳論文獎！

兩篇最佳論文分別來自Mila/加拿大蒙特利爾大學、微軟蒙特利爾研究院和MIT CSAIL，主題分別集中在NLP深度學習模型和神經網路壓縮。

ICLR 是深度學習領域的頂級會議，素有深度學習頂會「無冕之王」之稱。今年的 ICLR 大會從5月6日到5月9日在美國新奧爾良市舉行。

今年 ICLR 共接收 1578 篇投稿，相較去年 981 篇有了很大的增加，錄用結果如下：1.5% 錄用為 oral 論文（24 篇）、30.2% 錄用為 poster 論文（476 篇)，58% 論文被拒（918 篇）、610% 撤回（160 篇）。

與往年一樣，ICLR 2019採用公開評審制度，所有論文會匿名公開在 open review 網站上，接受同行們的匿名評分和提問。

今年論文平均打分是 5.15

關鍵詞排序前 50

接下來，新智元帶來兩篇最佳論文的解讀：

最佳論文1：有序神經元：將樹結構集成到循環神經網路

標題：Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

《有序神經元：將樹結構集成到循環神經網路》

作者：Yikang Shen, Shawn Tan, Alessandro Sordoni, Aaron Courville

作者機構：Mila/ 加拿大蒙特利爾大學、微軟蒙特利爾研究院

論文地址：https://openreview.net/forum?id=B1l6qiR5F7

摘要：

自然語言是一種分層結構：較小的單元 (例如短語) 嵌套在較大的單元 (例如子句) 中。當較大的成分結束時，嵌套在其中的所有較小單元也必須結束。雖然標準的 LSTM 架構允許不同的神經元在不同的時間尺度上跟蹤信息，但它並沒有明確地偏向於對成分層次結構建模。

本文提出通過對神經元進行排序來增加這種歸納偏差; 一個主輸入和遺忘門的向量確保當一個給定的神經元被更新時，按照順序跟隨它的所有神經元也被更新。所提出的新循環結構稱為有序神經元 LSTM (ordered neurons LSTM, ON-LSTM)，在語言建模、無監督句法分析、目標語法評估和邏輯推理四個不同的任務上都取得了良好的性能。

關鍵詞:深度學習，自然語言處理，遞歸神經網路，語言建模

一句話概括：本文提出一種新的歸納偏置，將樹結構集成到循環神經網路中。

從實用的角度看，將樹結構集成到神經網路語言模型中有以下幾個重要原因：

深度神經網路的一個關鍵特徵是獲得抽象層次不斷增加的分層表示；

建模語言的組成效應，並為梯度反向傳播提供快捷方式，以幫助解決長期依賴問題 ;

通過更好的歸納偏置改進泛化，同時能夠減少對大量訓練數據的需求。

圖 1：由模型推斷的二進位解析樹 (左) 及其對應的 round-truth(右)。

問題是：具有對學習這種潛在樹結構的歸納偏置的架構能否獲得更好的語言模型 ?

在這篇論文中，我們提出有序神經元 (ordered neurons)，這是一種面向循環神經網路的新型歸納偏置。這種歸納偏置增強了存儲在每個神經元中的信息的生命周期的分化：高級神經元存儲長期信息，這些信息通過大量步驟保存，而低級神經元存儲短期信息，這些信息可以很快被遺忘。

為了避免高級和低級神經元之間的固定劃分，我們提出一種新的激活函數——cumulative softmax，或稱為 cumax()，用於主動分配神經元來存儲長 / 短期信息。

基於 cumax() 和 LSTM 架構，我們設計了一個新的模型ON-LSTM，該模型偏向於執行類似樹的組合操作。

ON-LSTM 模型在語言建模、無監督成分句法分析、目標句法評估和邏輯推理四項任務上都取得了良好的性能。對無監督成分句法分析的結果表明，所提出的歸納偏置比以前模型更符合人類專家提出的語法原則。實驗還表明，在需要捕獲長期依賴關係的任務中，ON-LSTM 模型的性能優於標準 LSTM 模型。

有序神經元

圖 2：一個成分解析樹和 ON-LSTM 的隱藏狀態之間的對應關係

ON-LSTM

ON-LSTM 模型與標準 LSTM 的架構類似：

與 LSTM 的不同之處在於，這裡用了一個新函數替換 cell state的 update 函數。

實驗

語言建模

表 1：Penn Treebank 語言建模任務驗證集和測試集上的單模型困惑度。

如表 1 所示，ON-LSTM 模型在共享相同的層數、嵌入維數和隱藏狀態單元的情況下，比標準的 LSTM 性能更好。值得注意的是，我們可以在不添加 skip connection 或顯著增加參數數量的情況下提高 LSTM 模型的性能。

無監督成分句法分析 (Constituency Parsing)

表 2：在 full WSJ10 和 WSJ test 兩個數據集上評估的成分句法分析結果

目標句法評估

表 3：ON-LSTM 和 LSTM 在每個測試用例中的總體精度

表 3 顯示，ON-LSTM 在長期依賴情況下表現更好，而基線 LSTM 在短期依賴情況下表現更好。不過，ON-LSTM 在驗證集上實現了更好的困惑度。

邏輯推理

圖 3：模型的測試準確性，在邏輯數據的短序列 (≤6) 上訓練。

圖 3 顯示了 ON-LSTM 和標準 LSTM 在邏輯推理任務上的性能。

最佳論文2：彩票假設

標題：The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

《彩票假設：尋找稀疏的、可訓練的神經網路》

作者：Jonathan Frankle, Michael Carbin

作者機構：MIT CSAIL

論文地址：https://openreview.net/forum?id=rJl-b3RcF7

摘要：

神經網路剪枝技術可以在不影響精度的前提下，將訓練網路的參數數量減少 90% 以上，降低存儲需求並提高推理的計算性能。然而，當前的經驗是，剪枝產生的稀疏架構從一開始就很難訓練，這同樣可以提高訓練性能。

我們發現，一種標準的剪枝技術可以自然地揭示子網路，這些子網路的初始化使它們能夠有效地進行訓練。基於這些結果，我們提出了「彩票假設」(lottery ticket hypothesis)：包含子網路 (「中獎彩票」，winning tickets)的密集、隨機初始化的前饋網路，這些子網路在單獨訓練時，經過類似次數的迭代達到與原始網路相當的測試精度。我們找到的「中獎彩票」中了初始化彩票：它們的連接具有初始權重，這使得訓練特別有效。

我們提出一個演算法來確定中獎彩票，並激進型了一系列實驗來支持彩票假說以及這些偶然初始化的重要性。我們發現，MNIST 和 CIFAR10 的中獎彩票的規模始終比幾個全連接架構和卷積前饋架構小 10-20%。超過這個規模的話，我們發現中獎彩票比原來的網路學習速度更快，達到了更高的測試精度。

關鍵詞：神經網路，稀疏性，剪枝，壓縮，性能，架構搜索

一句話概括：可以在訓練後剪枝權重的前饋神經網路，也可以在訓練前剪枝相同的權重。

本文證明了，始終存在較小的子網路，它們從一開始就進行訓練，學習速度至少與較大的子網路一樣快，同時能達到類似的測試精度。