當前位置:
首頁 > 新聞 > DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

新智元編譯

來源:DeepMind

編譯:肖琴

【新智元導讀】DeepMind的最新研究提出一種新的表示學習方法——對比預測編碼。研究人員在多個領域進行實驗:音頻、圖像、自然語言和強化學習,證明了相同的機制能夠在所有這些領域中學習到有意義的高級信息,並且優於其他方法。

論文地址:

https://arxiv.org/pdf/1807.03748.pdf

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

2013年,Bengio等人發表了關於表示學習( representation learning)的綜述,將表示學習定義為「學習數據的表徵,以便在構建分類器或其他預測器時更容易提取有用的信息」,並將無監督特徵學習和深度學習的諸多進展納入表示學習的範疇。

今天,DeepMind在最新論文Representation Learning with Contrastive Predictive Coding中,提出一種新的表示學習方法——對比預測編碼(Contrastive Predictive Coding, CPC),將其應用於各種不同的數據模態、圖像、語音、自然語言和強化學習,證明了相同的機制能夠在所有這些領域中學習到有意義的高級信息,並且優於其他方法。

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

預測編碼思想

使用分層的可微模型以端到端的方式從標記數據中學習高級表示,這是人工智慧迄今為止最大的成功之一。這些技術使得人工指定的特性在很大程度上變得多餘,並且在一些真實世界的應用中極大地改進了當前最優的技術。但是,這些技術仍存在許多挑戰,例如數據效率、穩健性或泛化能力。

改進表示學習需要一些不是專門解決單一監督任務的特徵。例如,當預訓練一個模型以進行圖像分類時,特徵可以相當好地轉移到其他圖像分類域,但也缺少某些信息,例如顏色或計數的能力,因為這些信息與分類無關,但可能與其他任務相關,例如圖像描述生成(image captioning)。類似地,用於轉錄人類語音的特徵可能不太適合於說話者識別或音樂類型預測。因此,無監督學習是實現強健的、通用的表示學習的重要基石。

儘管無監督學習很重要,但無監督學習尚未得到類似監督學習的突破:從原始觀察中建模高級表示仍然難以實現。此外,並不總是很清楚理想的表示是什麼,以及是否可以在沒有對特定的數據模態進行額外的監督學習或專門化的情況下學習這樣的表示。

無監督學習最常見的策略之一是預測未來、缺失信息或上下文信息。這種預測編碼(predictive coding)的思想是數據壓縮信號處理中最古老的技術之一。在神經科學中,預測編碼理論表明,大腦可以預測不同抽象層次的觀察。

最近在無監督學習方面的一些工作已經成功地利用這些概念,通過預測鄰近的單詞來學習單詞表示。對於圖像來說,從灰度或image patches的相對位置來預測顏色,也被證明是有用的。我們假設這些方法卓有成效,部分原因是我們預測相關值的上下文通常是有條件地依賴於相同的共享高級潛在信息之上。通過將其作為一個預測問題,我們可以自動推斷出這些特徵與表示學習相關。

本文有以下貢獻:

  • 首先,我們將高維數據壓縮成一個更緊湊的潛在嵌入空間,在這個空間中,條件預測更容易建模。

  • 其次,我們在這個潛在空間中使用強大的自回歸模型來預測未來。

  • 最後,我們依賴雜訊對比估計(Noise-Contrastive Estimation)損失函數,與在自然語言模型中學習詞嵌入的方法類似,允許對整個模型進行端到端的訓練。

對比預測編碼

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

圖1:對比預測編碼的概覽,即我們提出的表示學習方法。雖然圖中將音頻作為輸入,但是我們對圖像、文本和強化學習使用的是相同的設置。

圖1顯示了對比預測編碼模型的架構。首先,非線性編碼器DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!將輸入的觀察序列DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!映射到潛在表示序列DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!,可能具有較低的時間解析度。接下來,自回歸模型DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!概括潛在空間中所有DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!,並生成一個上下文潛在表示DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

我們不是直接用生成模型DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!來預測未來的觀察DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!。 相反,我們對密度比建模,保留了和DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!之間的交互信息,公式如下:

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

其中DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!代表「成正比」。

在我們的實驗中,我們使用線性變換DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!對每個步驟k進行不同DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!的預測,也可以使用非線性網路或遞歸神經網路。

4個不同領域的實驗:語音、圖像、NLP和強化學習

我們提出四個不同應用領域的benchmark:語音、圖像、自然語言和強化學習。對於每個領域,我們訓練CPC模型,並通過線性分類任務或定性評估來探討「表示」(representations)所包含的內容;在強化學習中,我們測量了輔助的CPC loss如何加速agent的學習。

語音(Audio)

對於語音,我們使用了公開的LibriSpeech數據集中100小時的子數據集。雖然數據集不提供原始文本以外的標籤,但我們使用Kaldi工具包獲得了強制對齊的通話序列,並在Librispeech上預訓練模型。該數據集包含來自251個不同說話者的語音。

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

圖2:10個說話者子集的音頻表示的t-SNE可視化。每種顏色代表不同的說話者。

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

圖3:在語音波形中預測未來1到20個潛在步驟的對比損失,正樣本預測的平均精度。該模型最多預測未來200 ms,因為每一步包含10ms的音頻。

圖像(Vision)

在視覺表示實驗中,我們使用ImageNet數據集。我們使用ResNet v2 101架構作為圖像編碼器DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!來提取CPC表示(該編碼器沒有經過預訓練)。在無監督訓練後,訓練一個線性層以測量ImageNet標籤的分類精度。

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

圖4:圖像實驗中對比預測編碼的可視化

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

圖5:每一行都顯示了激活CPC架構的某個神經元的image patches

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

表3:ImageNet top-1無監督分類結果。

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

表4:ImageNet top-5無監督分類結果。

表3和表4顯示了與state-of-the-art相比,CPC模型在ImageNet top-1和top-5的分類精度。儘管相對領域不可知,但CPC模型在top-1相比當前最優模型的精度提高了9%,在top-5的精度提高了4%。

自然語言

在自然語言實驗中,我們首先在BookCorpus 數據集上學習我們的無監督模型,並通過對一組分類任務使用CPC表示來評估模型作為通用特徵提取器的能力。

對於分類任務,我們使用了以下數據集:我們使用以下數據集:電影評論情緒(MR),客戶產品評論(CR),主觀性/客觀性,意見極性(MPQA)和問題類型分類 (TREC)。

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

表5:五種常見NLP基準的分類精度。

評估任務的結果如表5所示。

強化學習

最後,我們評估了DeepMind Lab 在3D環境下的五種強化學習的無監督學習方法:rooms_watermaze,explore_goal_locations_small,seekavoid_arena_01,lasertag_three_opponents_small和rooms_keys_doors_puzzle。

在這裡,我們採用標準的batched A2C agent作為基本模型,並添加CPC作為輔助損失。 學習的表示對其未來觀察的分布進行編碼。

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!

圖6:五個DeepMind Lab任務的強化學習結果。黑色:batched A2C基線,紅色:添加輔助對比損失

如圖6所示,在10億幀的訓練後,對於5個遊戲中的4個,agent的表現有明顯提高。

結論

在本文中,我們提出了對比預測編碼(CPC),這是一種用於提取緊湊潛在表示以對未來觀測進行編碼的框架。CPC將自回歸建模和雜訊對比估計與預測編碼的直覺相結合,以一種無監督的方式學習抽象表示。

我們在多個領域測試了這些表現形式:音頻、圖像、自然語言和強化學習,並在用作獨立特徵時實現了強大的或最優的性能。訓練模型的簡單性和低計算要求,以及在強化學習領域與主要損失一起使用時令人鼓舞的結果,都展現了無監督學習令人興奮的發展,並且這種學習普遍適用於更多數據模態。

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_3入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「AI又對肺癌下手」依圖倪浩拆解全球首個肺癌智能診斷系統
OpenAI戰勝DOTA2人類玩家是「里程碑式成就」?有專家評含金量不高

TAG:新智元 |