學界|讓機器耳濡目染:MIT提出跨模態機器學習模型
選自arXiv
機器之心編譯
參與:李澤南
不變性表示(invariant representation)是視覺、聽覺和語言模型的核心,它們是數據的抽象結果。人們一直希望在視覺、有噪音的音頻、有同義詞的自然語言中獲取觀點和大量不變性表示。具有識別能力的不變性表示可以讓機器從大量數據中學習特徵,從而獲得近似於人類的識別效果。但在機器學習領域,目前這一方面的研究進展有限。
對此,麻省理工學院(MIT)的 Yusuf Aytar 等人最近在一項研究中提出了全新的方法:研究人員通過多種關聯信息的輸入讓機器學習了跨模態數據的通用表達方式。在文字語句「她跳入了泳池」中,同樣的概念不僅出現在視覺上,也出現在了聽覺上,如泳池的圖像和水花飛濺的聲音。如果這些跨模態的表示存在關聯,那麼它們的共同表示就具有魯棒性。上文中的句子、泳池的圖像和水聲應當具有相同的內在表示。
論文:See, Hear, and Read: Deep Aligned Representations
鏈接:https://arxiv.org/abs/1706.00932
摘要
我們利用大量易於獲得的同步數據,讓機器學習系統學會了三種主要感官(視覺、聲音和語言)之間共有的深度描述。通過利用時長超過一年的視頻配音和百萬條配和圖片匹配的句子,我們成功訓練了一個深度卷積神經網路對不同信息生成共同的表示。我們的實驗證明,這種表示對於一些任務是有效的,如跨模式檢索或在形態之間的傳遞分類。此外,儘管我們的神經網路只經過了圖片+文字和圖片+聲音的配對訓練,但它也在文本和聲音之間建立了聯繫——這在訓練中未曾接觸。我們的模型的可視化效果揭示了大量自動生成,用於識別概念,並獨立於模態的隱藏單元。
圖 1. 共同表示:研究人員提出了深度跨模態卷積神經網路,它可以學習三種表徵方式:視覺、聽覺和文字閱讀。在此之上,研究人員展示了輸入信息可以激活網路中的隱藏單元,其中被激發的概念位置獨立於模態。
圖 2. 數據集:研究人員使用了大量未加工、無約束的數據對概念表達進行訓練。
圖 3. 學習通用表示方法:研究人員設計了一種能夠同時接收圖像、聲音和文字輸入的神經網路。該模型從模態專屬表示(灰色)中產生一種通用表示,同時適用於不同模態(藍色)。研究人員同時使用模型轉換損失和配比排名損失來訓練這個模型。模態專有層是卷積的,不同模態的共享層則是全連接的。
圖 4. 跨模式反演示例:MIT 的研究人員展示了使用深度表示,跨聲音、圖像和文字三種模態的頂層反演
圖 5. 隱藏單元的可視化:研究人員通過模型的可視化發現了一些隱藏單元。注意:頻譜圖(紅/黃色的熱區顯示)之外,還有原始視頻和與之對應的描述聲音,後者僅用於可視化目的。
不變性表示可以讓計算機視覺系統可以在不受約束的、現實世界環境中高效運行。在實驗中,研究人員發現了一些聯結表達方式具有更高的分類和檢索性能,可以應對未遇到過的新情況。麻省理工學院的學者們相信,對於下一代機器感知而言,跨模態的表示具有重要意義。
※OpenAI提出強化學習新方法:讓智能體學習合作、競爭與交流
※FB「1小時訓練ImageNet」論文惹爭議,類似研究回顧
※從Yoav與LeCun爭論,看當今的深度學習與NLP風氣
TAG:機器之心 |
※CMU與谷歌大腦提出新型機器閱讀QANET模型,可提高機器理解精確度
※FAIR機器翻譯最新研究:提出不使用平行本文的無監督機器翻譯模型
※學界|北京大學提出注意力通信模型ATOC,助力多智能體協作
※學界 | 北京大學研究者提出注意力通信模型ATOC,助力多智能體協作
※斯坦福大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略
※科學家提出超越傳統機器學習的量子演算法
※物理學家提出暗物質新模型
※北京大學研究者提出注意力通信模型ATOC,助力多智能體協作
※學界 | 伯克利、OpenAI等提出基於模型的元策略優化強化學習
※從零開始自學設計新型藥物,UNC提出結構進化強化學習
※學界 | 韓松、李佳等人提出AMC:用於移動端模型自動壓縮與加速的AutoML
※無需數學就能寫AI,MIT提出AI專用編程語言Gen
※DeepMind提出新型SACX學習範式,從零開始訓練機器人解決複雜任務
※斯坦福聯合DeepMind提出將強化學習和模仿學習相結合
※讓AI掌握星際爭霸微操:中科院提出強化學習+課程遷移學習方法
※讓機器像人類一樣學習?伯克利 AI 研究院提出新的元強化學習演算法
※將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC
※學界 | 密歇根州立大學提出NestDNN:動態分配多任務資源的移動端深度學習框架
※學界 | 觀察運動推斷物體材料,MIT提出「視覺+運動」物理基元分解
※牛津大學提出全新生成式模型「SQAIR」,用於移動目標的視頻理解