當前位置:
首頁 > 科技 > Google提出新型生成分散式記憶模型,實現以壓縮形式高效存儲信息

Google提出新型生成分散式記憶模型,實現以壓縮形式高效存儲信息

圖源:pixabay

原文來源:arXiv

作者:Yan Wu、Greg Wayne、Alex Graves、Timothy Lillicrap

「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA

導語:長期以來,在機器學習方面已經嘗試了各種各樣的新方法以增強具有快速記憶存儲能力的神經網路,但有關該「如何最有效地使用記憶」這一基本問題仍懸而未決。最近,谷歌提出了一個受Kanerva稀疏分散式記憶啟發的條件生成記憶模型——Kanerva 機器,可以提供有效的壓縮和存儲複雜數據。

我們提出了一個以端到端方式進行訓練的記憶系統,它可以快速適應新數據並生成類似的樣本。受Kanerva稀疏分散式記憶(sparse distributed memory)的啟發,這個記憶系統擁有具有魯棒性的分散式閱讀和書寫機制。這種記憶是可解析的,它通過貝葉斯(Bayesian)更新規則實現最佳的在線壓縮。我們將其定義為一個分層的條件生成模型,其中記憶提供了一個豐富的數據相關先驗分布。因此,自頂向下的記憶和自底向上的感知被結合起來,生成了表示觀察的代碼。根據經驗,我們證明了,自適應記憶顯著地改善了在Omniglot和CIFAR數據集上訓練的生成模型。與可微神經計算機(Differentiable Neural Computer,DNC)及其變體相比,我們的記憶模型具有更大的容量,而且更容易進行訓練。

圖1:Kanerva機器的概率圖模型,左:生成模型;中間:閱讀推理模型;右:寫入推理模型;電線表示近似推理,虛線表示精確推斷

在機器學習方面的近期研究已經考核了各種各樣的新方法以增強具有快速記憶存儲的神經網路。然而,「如何最有效地使用記憶」這一基本問題仍未解決。例如,在諸如可微神經計算機(Graves等人於2016年提出)等模型中,基於槽的外部記憶常常會將閱讀和書寫分解成單個的槽,儘管神經網路控制器在原則上可以學習更多的分散式策略。因此,信息不會在記憶槽中共享,並且必須為新的輸入而補充額外的槽,即使它們對現有的記憶來說是冗餘的。同樣,匹配網路(Matching Networks,Vinyals等人於2016年提出;Bartunov和Vetrov於2016年提出)和神經情景控制器(Neural Episodic Controller。Pritzel等人於2017年提出)可以直接存儲數據的嵌入。因此,它們要求內存容量隨著被存儲的樣本數量而增加。與此相反,神經統計學家(Neural Statistician、Edwards和Storkey於2016年提出)通過對它們的嵌入求平均值而總結出一個數據集。其結果的「統計信息」是非常小的,但是大量的信息可能會被平均的過程拋棄,這與擁有大量記憶的需求相衝突,這些記憶本可以捕捉到過去經驗的細節。

可以這樣說,以往科學家們所開發的關聯記憶體系結構提供了有關該如何設計在重疊表示中存儲數據的高效記憶結構的深入見解。例如,Hopfield Net(於1982年)開創了在動態系統中以低能態存儲模式的想法。這種類型的模型是具有魯棒性的,但其容量受限於循環連接的數量,而循環連接又受輸入模式的維度約束。玻爾茲曼機(Boltzmann Machine,Ackley等人於1985年提出)通過引入潛變數來提升這個約束,但代價是需要較慢的讀寫機制,即通過吉布斯採樣(Gibbs sampling)。Kanerva的稀疏分散式記憶模型(Kanerva於1988年提出)解決了這個問題,該模型通過將定址引入分散式記憶存儲區,從而提供快速讀取和寫入功能,並將容量從輸入維度中解離出來,而分散式記憶存儲區的大小與數據維度無關。

圖2:在學習期間,負變分的下界(左),重建損失(中心)和KL散度(右)。KL散度的下降表明我們的模型學會了使用記憶

在本文中,我們提出了一個受Kanerva稀疏分散式記憶啟發的條件生成記憶模型。我們通過可學習的地址和重新計算的潛在變數對Kanerva的原始模型(Rezende等人於2014年、Kingma和Welling於2013年、Bornschein等人於2017年提出)進行了泛化。通過利用我們的記憶模型的分析易處理性,我們解決了學習有效記憶書寫操作這一具有挑戰性的問題。我們推導出貝葉斯記憶更新規則,該規則最佳地折衷保存舊內容和存儲新內容。由此產生的分層生成模型具有一個記憶相關的先驗,能夠快速適應新數據,除了來自編碼器自底而上感知之外,還提供自頂向下的知識,以形成表示數據的潛在代碼。作為一種生成模型,我們所提出的模型提供了一種全新的方式,通過自適應記憶豐富VAE模型中常常過度簡化的先驗(Rezende等人於2016年提出)。作為一種記憶系統,我們的模型提供了一種有效的方式來學習在線分散式寫入,它可以提供有效的壓縮和存儲複雜數據。

圖3:左:重建輸入和重建中使用的權重,其中每個容器表示一個記憶槽上的權重。權重廣泛分布在記憶槽中。右:通過迭代閱讀去噪。在每個面板中:第一列顯示原始圖案,第二列(盒子內)顯示損壞的圖案,下面的列顯示1,2和3次迭代後的重建

本文提出了一種將慢學習神經網路與快速自適應線性高斯模型相結合的新型記憶模型——Kanerva 機器(Kanerva Machine)。雖然我們的體系結構受到了Kanerva的開創性模型的啟發,但我們通過訓練一個生成式模型來靈活地學習觀察到的數據分布,消除了統一數據分布的假設。通過將記憶實現為生成式模型,我們可以通過採樣從記憶中檢索出看不見的模式。這種現象與建構記憶性神經科學實驗的觀察結果相符(Hassabis等人於2007年提出)。

Kanerva模型的概率解釋已經在前人的研究中得到了發展。Anderson(於1989年)研究了Kanerva稀疏分散式記憶的條件概率解釋,並將二進位數據推廣到具有兩個以上值的離散數據。Abbott等人於2013年提出了一種基於重要性採樣的近似貝葉斯解釋。據我們所知,我們的模型是第一次將Kanerva的記憶模型泛化到連續的、非均勻的數據中,同時保持了貝葉斯推理的解析形式。此外,我們還通過與深度神經網路的集成,證明了它在現代機器學習中的潛力。

圖4:來自CIFAR中樣本的比較

其他模型在生成環境中將記憶機制與神經網路相結合。例如,Li等人於2016年提出,使用注意力從記憶矩陣中的一組可訓練參數中檢索信息。需要注意的是,這個模型中的記憶不會在學習之後更新。因此,記憶不會像我們的模型那樣快速地適應新的數據,因此不適用於本文所探討的基於場景的學習。Bornschein等人於2017年提出,使用離散(分類)隨機變數定址外部記憶,並與生成模型的其餘部分一起訓練定址機制,儘管目標是可變的。然而,模型中的記憶是通過以原始像素的形式存儲圖像來填充的。儘管這為快速自適應提供了一種機制,但對於大型數據集而言,存儲原始像素的成本可能是無法承受的。我們的模型利用圖像中的統計規律,通過感知層的編碼器、學習地址和貝葉斯記憶更新規則,學習以壓縮的形式存儲信息。

有效記憶模型的核心是記憶有效更新。雖然近期研究了學習這種更新機制的各種方法(Graves等人於2016年,Edwards和Storkey於2016年,Santoro等人於2016年提出),但我們設計了一個模型,在不損害神經網路的靈活性和表達能力的前提下,使用了一個精確的貝葉斯更新規則。我們的模型及其可擴展結構的引人注目的性能表現,表明了將經典統計模型和神經網路相結合,可能是機器學習中新型記憶模型一個有潛力的發展方向。

原文鏈接:https://arxiv.org/pdf/1804.01756.pdf


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

不用地圖如何導航?DeepMind提出新型雙路徑強化學習「智能體」架構
用可組合的構建塊豐富用戶界面?谷歌提出「可解釋性」的最新詮釋

TAG:雷克世界 |