當前位置:
首頁 > 最新 > 谷歌一個模型解決所有問題《One Model to Learn Them All》 論文深度解讀

谷歌一個模型解決所有問題《One Model to Learn Them All》 論文深度解讀

【導讀】Google於2017發布論文《One Model to Learn Them All》(一個模型解決所有),文章一問世立刻引發各方關注。除了標題勁爆之外,谷歌研究人員提出了一個多模式適用的架構 MultiModel,用單一的一個深度學習模型,學會文本、圖像和翻譯這些不同領域的 8 種不同任務,「一個模型解決所有問題」的野心和氣魄令人驚嘆。本博文對該模型做了詳細解釋。專知內容組編輯整理。

One model to learn them all

幾乎可以肯定地說,每個人的腦海中都有一個關於香蕉的抽象概念。

假設你問我是否想要吃點什麼。我可以說「香蕉」這個詞(比如你聽到這個詞的發音),或者給你發一條簡訊,讓你看到(並閱讀)「香蕉」這個詞,或者給你看一張香蕉的照片,等等。所有這些不同的數據模式(聲波,文字,視覺圖像)都與相同的概念相聯繫 - 它們是「輸入」香蕉概念的不同方式。你對香蕉的理解與你大腦中的想法是獨立的。同樣,作為一個「輸出」,我可以要求你說出香蕉這個詞,寫下香蕉這個詞,或者畫一個香蕉的圖片,等等。我們能夠獨立於輸入和輸出的形式來推理這些抽象概念。而且我們似乎能夠在許多不同的環境下(即跨越許多不同的任務)重複使用我們對香蕉的概念性知識。

深度神經網路通常是針對手頭具體的問題而設計和調整的。而泛化操作有助於這樣的網路在以前沒有見過的具有相同問題的新的實例上有比較好的表現,並且遷移學習有時候通過重用例如來自同一個域內的學習特徵表示來給我們提供支持。確實存在多任務模型,「但是所有這些模型都是在同一領域的不同任務上進行訓練的:比如翻譯任務與類似的其他語言翻譯任務一起訓練,視覺任務與其他視覺任務一起,語音任務和其他語音任務一起訓練。」 雖然我們有一個關於「香蕉」這個單詞的文本概念,另一個關於香蕉的圖像概念,還有一個關於「香蕉」的發音概念 - 但是這些概念並沒有任何聯繫。在今天選擇的這篇論文中的核心問題是:

「我們能否創建一個統一的深度學習模型來解決跨多個領域(文本,圖像,語音)的任務?」

為了做到這一點,我們需要什麼?我們需要能夠支持不同的輸入和輸出模式(根據手頭具體任務的需要),我們需要一個在所有模式之間共享的所學知識的通用數據表示,並且我們需要足夠的"設備",使得需要特定功能(例如注意力)的任務能夠利用它。 「一個統一模型(One model to rule them all)」引入了一個完全具有這些特徵的多模型架構,並且它的表現非常出色。

多模型體系結構的一個實例基於以下數據集同時在八個不同的任務上進行訓練:

1. WSJ語音語料庫

2. ImageNet數據集

3. COCO圖說生成數據集

4. WSJ語義解析數據集

5. WMT英-德翻譯語料庫

6. 與5相反:德-英翻譯語料庫

7. WMT英-法翻譯語料庫

8. 與7相反:德-法翻譯語料庫(這篇文章這裡說的「德-法」並不是與「英-法」相反的,看起來這像一個粘貼錯誤?)

以下是執行各種不同任務的單一訓練模型的一些示例:

圖1:一個單一的多模型在8個任務上的聯合訓練的例子(從模型直接解碼)。紅色描繪了語言模態(與語言相關的任務),而藍色描繪了分類模態(與分類相關的任務)

從上圖很明顯得看出,MultiModel可以生成圖像說明,為圖像分類,實現法語德語的翻譯,並構建解析樹。

遮罩下的多模態(MultiModel under the hood)

在高層次上,多模態架構如下所示:

圖2:多模態,包含模態網,一個編碼器和一個自回歸的解碼器

有一些小型的,特定模態的子網路可以轉換為一個統一的表示並能轉換回來。

我們把這些子網路稱為模態網路因為他們對於每個模態是特定的(圖像,語音,文本)並定義這些外部區域和統一表示之間的轉換。我們設計的模態網路在計算上是最小的,大幅提升了特徵提取並確保大部分的計算在模型中的不可知域中進行。

相同領域的不同任務(例如,不同的語音任務)共享相同的模態網路。我們沒有為每個任務都設計一個模態網,僅僅一個模態對應一個模態網。另外一個重要的設計決策是允許統一的表示在尺寸上是可變的(而不是可能造成瓶頸和限制性能的固定尺寸的表示)。

模態網路的輸出稱為共享編碼器的輸入,其創建一個統一的表示。一個I/O混合器將編碼過的輸入和先前的輸出結合起來(多模態是自回歸的,它使用先前的輸出值來幫助預測下一個輸出),一個解碼器處理輸入和這種混合來生成新的輸出。

為了讓解碼器即使在相同模態下的不同的任務也能產生輸出,我們使用一個命令標記來開始解碼,例如"To-English"或者"To-Parse-Tree"。我們在訓練時學習一個對應於每個標記的表示向量。

正如我們前面所發現的,為了確保各種任務的良好性能,多模態需要需要使用正確的設備來處理。多模態整合了來自多個領域的構建模塊包括可分離的卷積(在圖像問題的背景下首先引入)和注意力機制,以及稀疏門控的混合專家層(在自然語言處理中首先引入)。

我們發現,這些機制中的每一個對於引入它的領域都是至關重要的。例如,注意力機制在語言相關任務中的重要性遠大於在圖像相關的任務。然而,有趣的是,添加這些計算模塊並不會損害性能,即使在沒有特定機制設計的任務上也是如此。事實上,我們發現注意力機制和混合專家層都略微提高了ImageNet在多模態上的性能,即使這個任務不怎麼需要他們。

把所有這些東西放在一起,我們最終會看到這樣的架構:

圖3:MultiModel的結構:閱讀文本來了解細節

編碼器,混合器和解碼器在結構上類似於以前的全卷積序列模型,但是使用了不同的計算單元。編碼器含有6個重複的卷積塊,中間是混合專家層。混合器含有一個注意力模塊和4個卷積模塊。解碼器有4個卷積和注意力模塊,中間是混合專家層。

在運行中的MultiModal (MultiModel in action)

在同時完成8個訓練任務的訓練之後,作者開始確定:

1、MultiModal與每個任務的最新結果有多接近

2、如何對同時訓練8個任務和每個任務分別訓練進行比較

3、不同的計算模塊怎樣影響不同的任務

MultiModal取得的結果與和沒有進行大量調整的特定任務模型相似(例如,我們去年報道的在擴展的神經GPU改進的英法翻譯)。由於在MultiModal上沒有太多的調整,所以期望差距進一步接近是合理的。

表1:將MultiModal和[28]和[21]中最新的方法進行比較

聯合訓練的模型和單獨訓練的模型在含有大規模數據的任務上的表現相似。但是更有趣的是,對於可用數據比較少的任務上(例如語法分析),它的表現會更好,甚至好得多。

表2:將在8個任務上聯合訓練好的Multimodal和在每個任務上分別訓練的模型進行比較

進一步的調研顯示:

似乎計算基元在不同的任務之間共享允許一些遷移學習甚至在ImageNet和語法分析等一些看起來無關的任務中。

這種可以從大規模可用數據中進行學習和提高少量數據可用任務的表現的能力似乎有著很大的潛力。

關於第三個問題,通過包含或排除不同的模塊類型來理解他們的影響是可能的。注意力機制和混合專家機制都是為機器翻譯而設計的,從理論上來說,ImageNet是從這些模塊中收益最少的問題。但是結果表明,即使在ImageNet任務中,這種模塊的存在也不會影響性能,甚至可能略微改善。

這導致我們得出結論:混合不同的計算模塊實際上是一個提升許多不同任務性能的好方法。

表4:從MultiModal中去除混合專家層和注意力機制

最後的結語

我們首次證明,單一的深度學習模型可以共同學習多個領域的大規模任務。成功的關鍵在於設計一個多模態結構,其中儘可能多的參數是共享的,以及使用不同領域的計算模塊。我們相信,這將走向一個關於有趣的關於未來更加普遍的深度學習架構的工作,特別是由於我們的模型展示了從大規模可用數據的任務到數據有限的任務進行遷移學習。

https://blog.acolyer.org/2018/01/12/one-model-to-learn-them-all/

相關論文

論文題目:One Model To Learn Them All

論文鏈接:Kaiser et al., arXiv 2017(https://arxiv.org/abs/1706.05137)

摘要:深度學習在許多領域都獲得了很好的成果,從語音識別、圖像識別到機器翻譯。但在每個問題上,深度學習模型都需要進行長時間的架構研究和調整。我們提出了一個單一模型,它在多個不同領域的任務中都產生了良好結果。這種單一模型同時在 ImageNet、多個翻譯任務、圖像抓取(COCO 數據集)、一個語音識別語料庫和一個英文解析任務中獲得訓練。該模型架構整合了多個領域的組件。它包含卷基層、注意力機制和 sparsely-gated 層,其中的每個組件對於特定任務都是非常重要的,我們觀察到添加這些組件並不會影響模型性能——在大多數情況下,它反而會改善任務中的表現。我們還展示了多個任務聯合訓練會讓僅含少量數據的任務收益頗豐,而大型任務的表現僅有少量性能衰減。

-END-

專 · 知

人工智慧領域主題知識資料查看獲取【專知薈萃】人工智慧領域26個主題知識資料全集(入門/進階/論文/綜述/視頻/專家等)

同時歡迎各位用戶進行專知投稿,詳情請點擊

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 專知 的精彩文章:

結合單階段和兩階段目標檢測的優勢:基於單次精化神經網路的目標檢測方法

TAG:專知 |