7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

新聞 07-29

機器之心整理

參與：一鳴、思源

本周 Hinton、李飛飛都有新論文面世。Hinton 等提出了新的優化演算法，而李飛飛等在視頻預測任務上實現了新的 SOTA 模型。此外還有自然語言理解評價方法、文本+圖像數據融合任務的綜述，以及對深度學習的硬體進行評價的文章等。

目錄：

Lookahead Optimizer: k steps forward, 1 step back
Eidetic 3D LSTM: A Model for Video Prediction and Beyond
Discourse-Based Evaluation of Language Understanding
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods
Neural Point-Based Graphics
Benchmarking TPU, GPU, and CPU Platforms for Deep Learning
Unifying Logical and Statistical AI with Markov Logic

1.標題：Lookahead Optimizer: k steps forward, 1 step back

作者：Michael R. Zhang、James Lucas、Geoffrey Hinton、Jimmy Ba
論文鏈接：https://arxiv.org/pdf/1907.08610v1
Keras 實現：https://github.com/bojone/keras_lookahead
PyTorch 實現：https://github.com/alphadl/lookahead.pytorch

摘要：這篇論文提出 Lookahead 演算法與已有的方法完全不同，它迭代地更新兩組權重。直觀來說，Lookahead 演算法通過提前觀察另一個優化器生成的「fast weights」序列，來選擇搜索方向。該研究發現，Lookahead 演算法能夠提升學習穩定性，不僅降低了調參需要的功夫，同時還能提升收斂速度與效果。研究表示，Lookahead 在殘差網路（ImageNet）、Transformer（WMT 2014）等模型上，演算法的性能顯著優於 SGD 和 Adam。

推薦：首先這篇論文表示 Lookahead 可以大幅度提升 Adam 等優化器的效果，且作者包括圖靈獎得主 Geoffrey Hinton 和 Adam 原論文作者 Jimmy Ba，所以非常值得我們一讀。此外，因為演算法實現起來並不困難，而且在各種任務上都能有很穩定的表現，因此也非常值得我們一試。

7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

如上左圖展示了 Lookahead 的兩種參數更新方法：Fast 和 Slow。相比藍色線的標準 SGD，紅色線的 Slow weights 在接近收斂時能探索到更好的最優解。右圖展示了 Lookahead 的偽代碼，我們可以看到，快更新相當於做了一系列實驗，然後慢更新再根據實驗結果選一個好方向。

2.標題：Eidetic 3D LSTM: A Model for Video Prediction and Beyond

作者：Yunbo Wang 、Lu Jiang 、Ming-Hsuan Yang 、Li-Jia Li 、Mingsheng Long 、Li Fei-Fei
論文地址：https://openreview.net/pdf?id=B1lKS2AqtX
實現鏈接：https://github.com/metrofun/E3D-LSTM

摘要：時空預測儘管被認為是一種有效的自監督特徵學習策略，但目前仍很少體現出在視頻預測之外的效果。這是因為，學習短期幀的依賴和長期的高級關係的表示非常困難。研究人員在這篇論文中提出了一個新的模型，名為「Eidetic 3D LSTM (E3D-LSTM)」。模型可以將三維的卷積信息融合在 RNN 中。這種內嵌的三維卷積層使得 RNN 具有局部的動作敏感性，並可以使機器單元儲存更好的短期特徵。

對於長期關係，研究人員使用門控制自注意力單元，使得現在的記憶狀態和歷史記錄進行交互。研究人員稱這種記憶轉移機製為「eidetic」，因為它能夠使模型「回憶」起多個時間步前記憶的信息。研究人員首先在廣泛使用的視頻預測數據集上進行了測試，結果達到了 SOTA。然後，他們展示了模型在早期活動檢測（early activity recognition）任務上的表現。模型能夠在觀察少量幀數的視頻後推斷出發生了什麼，以及將要發生什麼。這個任務和視頻預測中的建模動作意圖和趨勢的任務很好地配合。

推薦：視頻預測任務新 SOTA，作者包括李飛飛等，團隊包括清華大學、斯坦福大學、谷歌大腦等的研究人員。

7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

如上展示了三種將三維卷積融合到循環神經網路的方式，藍色箭頭表示使用三維卷積的數據轉換路徑。a 和 b 分別在時空 LSTM 的前後加上三維卷積運算，它們本質上沒有什麼區別，而且將三維卷積放在 LSTM 單元外效果並不好。c 則展示了 E3D-LSTM 的編碼器解碼器結構，它將三維卷積嵌入到 LSTM 單元內，從而將卷積特徵用於循環網路的隱狀態。

3.標題：Discourse-Based Evaluation of Language Understanding

作者：Damien Sileo、Tim Van-de-Cruys、Camille Pradel、Philippe Muller
論文鏈接：https://arxiv.org/pdf/1907.08672.pdf
實現地址：https://github.com/synapse-developpement/DiscEval

摘要：在本文中，研究者介紹了 DiscEval，它包含 11 個評估數據集，並以語篇為重點，可用於英語自然語言理解的評估。他們證明，語篇評估任務被忽視了，並且自然語言推理（NLI）預訓練可能無法學習到真正的通用型表徵。DiscEval 還可以用作多任務學習系統的補充訓練數據，它是公開可用的，同時提供收集和預訓練數據集的代碼。

推薦：本文總結了自然語言理解的評估方法，可作為評價語言模型性能的重要參考。

7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

表 1：DiscEval 的文本分類數據集。

4.標題：Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods

作者：Aditya Mogadala、Marimuthu Kalimuthu、Dietrich Klakow
論文鏈接：https://arxiv.org/pdf/1907.09358v1.pdf

摘要：近年來，由於機器學習、計算機視覺和神經語言處理等多學科社區日益高漲的興趣，視覺與語言任務的整合已經取得了顯著的進展。在這篇綜述文章中，研究者重點講述了十項不同的視覺與語言整合任務，並就這些任務的問題界定、方法、現有數據集、評估度量以及以相應 SOTA 方法所實現結果的對比進行詳解。本次調研較以往更為深入，先前的研究要麼針對特定任務，要麼僅集中於圖像或視頻等單一類型的內容。最後，研究者探討了未來視覺與語言研究整合可能的發展方向。

推薦：目前，文本和圖像數據融合模型的論文綜述依然不多，本文不失為系統理解這一新興機器學習分支領域的優秀論文。

7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

圖 1：論文中展示的十種需要融合文本和圖像數據的機器學習任務。

5.標題：Neural Point-Based Graphics

作者：Kara-Ali Aliev、Dmitry Ulyanov、Victor Lempitsky
論文鏈接：https://arxiv.org/pdf/1906.08240.pdf
實現地址：https://github.com/WangYueFt/dgcnn

摘要：在本文中，研究者提出了一種新的基於點的複雜場景建模方法。該方法使用原始點雲作為場景的幾何表徵，並且利用能夠編碼局部幾何結構和外觀的可學習神經描述符來增大每個點。深度渲染網路與描述符同時進行學習，這樣從新視點將點雲的光柵部分穿過這個網路，從而獲得場景的新視圖。研究表明，這種新方法可用於建模複雜場景、得到這些場景的逼真視圖，同時能夠避免顯式表面估計和網格化。具體來講，使用手持商用 RGB-D 感測器和標準 RGB 攝像頭可以在場景掃描任務中獲得令人信服的結果。

推薦：僅用點雲和視頻結合就完成了實時動態的視頻渲染，還不需要特別昂貴的景深相機，這樣新奇的論文值得讀者閱讀。

7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

論文對圖像的渲染效果和其他方法及 Ground Truth 的對比。第二行中間為論文的方法，最右側為 Ground Truth。肉眼可見，論文的方法效果更好。

6.標題：Benchmarking TPU, GPU, and CPU Platforms for Deep Learning

作者：Yu (Emma) Wang、Gu-Yeon Wei、David Brooks
論文鏈接：https://arxiv.org/pdf/1907.10701.pdf

摘要：為了系統地對深度學習平台進行基準測試，研究者提出了 ParaDnn，這是一個用於深度學習的參數化基準測試套件，它能夠為全連接（FC）、卷積（CNN）和循環（RNN）神經網路生成端到端的模型。研究者使用 6 個實際模型對 Google 的雲 TPU v2/v3、NVIDIA 的 V100 GPU，以及 Intel 的 Skylake CPU 平台進行了基準測試。他們深入研究了 TPU 的架構，揭示了它的瓶頸，並重點介紹了能夠用於未來專業系統設計的寶貴經驗。研究者還提供了平台的全面對比，發現每個平台對某些類型的模型都有自己獨特的優勢。最後，他們量化了專用的軟體堆棧對 TPU 和 GPU 平台提供的快速性能改進。

有關深度學習演算法的基準測試論文已是汗牛充棟，但對硬體平台進行測試的論文很少見。通過本論文，讀者可系統了解各種機器學習訓練的平台特性，並針對自身的需求選擇。

7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

上表展示了所有基準測試得出來的結果與見解，它測試了不同神經網路結構在不同硬體平台上的效果。每一條觀察結果或結論都有具體的實驗圖標支持，讀者可詳細查閱原論文。

7.標題：Unifying Logical and Statistical AI with Markov Logic

作者：Pedro Domingos、Daniel Lowd
論文鏈接：https://homes.cs.washington.edu/~pedrod/papers/cacm19.pdf

摘要：多年來，人工智慧的主要兩大分支為：邏輯人工智慧和統計人工智慧。邏輯人工智慧使用一等邏輯和相關表示捕捉複雜關係和知識。然而，在許多應用中，邏輯人工智慧在處理不確定性和雜訊時較為脆弱。統計人工智慧則使用概率表示，如概率圖模型，來捕捉不確定性。然而，圖模型只能表示顯式的全局信息，無法處理關係領域。本文提出一種名為馬爾科夫邏輯的方法，結合兩種模型。

推薦：Keras 之父日前表示，目前機器學習沒能解決人工智慧的基本問題。本論文值得想要了解邏輯人工智慧的讀者閱讀。

7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

雖然從屬於 AI 這個大領域，但如上所示邏輯方法與統計方法在不同的子領域上都有自己的一套方法。本文嘗試通過馬爾可夫邏輯統一這兩種方法，並利用它們各自的優勢，感興趣的讀者可詳細閱讀論文。

7 Papers | Hinton、李飛飛各有新作；深度學習硬體性能評價

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※還在腦補畫面？這款GAN能把故事畫出來
※擁有解耦表徵的無監督學習是不可能的！硬核ICML 2019最佳論文出爐

TAG:機器之心 |