DeepMind提出空間語言集成模型SLIM,有效編碼自然語言的空間關係
選自arXiv
作者:Tiago Ramalho , Tomá? Kocisky等
機器之心編譯
參與:陳韻竹、路
前不久,DeepMind 提出生成查詢網路 GQN,具備從 2D 畫面到 3D 空間的轉換能力。近日,DeepMind 基於 GQN 提出一種新模型,可以捕捉空間關係的語義(如 behind、left of 等),其中包含一個基於從場景文本描述來生成場景圖像的新型多模態目標函數。結果表明,內部表徵對意義不變的描述變換(釋義不變)具備穩健性,而視角不變性是該系統的新興屬性。
論文:Encoding Spatial Relations from Natural Language
論文鏈接:https://arxiv.org/pdf/1807.01670.pdf
摘要:自然語言處理通過分散式方法在學習辭彙語義方面有了重要進展,但是通過這些方法學習到的表徵無法捕捉真實世界中隱藏的特定種類的信息。具體來說,空間關係的編碼方式與人類的空間推理不一致且缺乏視角變換不變性。我們展示了這樣一個系統,它能夠捕捉空間關係的語義,如 behind、left of 等。我們的關鍵貢獻是一個基於從場景文本描述來生成場景圖像的新型多模態目標,以及一個用於訓練的新型數據集。我們證明,內部表徵對意義不變的描述變換(釋義不變)具備穩健性,而視角不變性是該系統的新興屬性。
1 引言
人類能夠通過自然語言喚起彼此腦海里的表徵。當人們描述對一個場景的看法時,對話者能夠形成該場景的心理模型,並想像所描述的對象從不同的角度看起來是怎樣的。在最簡單的層面上,如果有人站在你面前並描述一個物體位於他們左邊,你就知道它在你的右邊。嵌入自然語言意義的現有模型無法實現這樣的視點集成(viewpoint integration)。事實上,如 Gershman 和 Tenenbaum(2015)所言,從單語語料庫中提取的自然語言分散式表徵無法理解語義對等,例如「A 在 B 前面」等同於「B 在 A 後面」。
我們認為,朝人類水平的理解場景描述能力發展的重要一步是建立能夠捕捉這些不變性的表徵。在本文中,我們介紹了一個能學習此類表徵的多模態架構。為了訓練和驗證該模型,我們創建了一個 3D 場景的大型數據集,包括場景和不同角度的語言描述。我們對學到的表徵進行評估,通過從訓練數據中未看到的角度生成圖像並檢查它們是否符合這種新角度下對場景的自然語言描述,來確保它們確實能夠泛化。我們還發現,我們學習的表徵很符合人類關於場景描述的相似性判斷。
眾所周知,空間自然語言模糊不清,難以計算處理(Kranjec et al. 2014; Haun et al. 2011)。即使是「behind」這樣看似簡單的介詞也無法明確描述,而需要分級處理(graded treatment)。此外,空間概念的辭彙化在不同語言和文化之間可能存在很大差異(Haun et al. 2011)。另外,人類在描述空間體驗(Landau and Jackendoff 1993)時以及方位詞層次中(Kracht 2002)表達幾何屬性的方法更加複雜。研究者雖然對人類類別空間關係的處理、感知和語言理解之間的關係進行了大量研究,但對於如何在計算上遍碼這種關係幾乎沒有明確的結論(Kosslyn 1987; Johnson 1990; Kosslyn et al. 1998; Haun et al. 2011)。
圖 1:具有對應真值圖像的示例描述。如圖所示是自然語言(NL)描述和合成語言(SYN)描述。其中保留了標註語言錯誤。
在自然語言處理領域,空間關係的研究主要集中在從文本中提取空間描述並將其映射到形式符號語言(Kordjamshidi et al. 2012a,b),在這一方面研究者提出了很多標註體系和方法(Shen et al. 2009; Bateman et al. 2010; Rouhizadeh et al. 2011)。與此同時,可視化空間描述方面的研究大量依賴手動創建的表徵,不具備分散式表徵的通用跨任務優勢(Chang et al. 2014; Hassani and Lee 2016)。
2 基於視覺的場景描述數據集
表 1:數據集統計結果。
B.1 數據集示例
B.1.1 合成語言,兩個對象
B.1.2 合成語言,三個對象
B.1.3 自然語言,兩個對象
B.1.4 自然語言,三個對象
3 模型描述
我們提出了一種模型,該模型學習將單個底層輸入的多種描述集成到單個表徵中,隨後在多模態設置中利用該表徵生成新數據。
我們將該模型稱為空間語言集成模型(Spatial Language Integrating Model,SLIM)。其靈感來自於生成查詢網路(Generative Query Network,Eslami et al. 2018),該網路集成了多個視覺輸入,可用於生成相同環境的新視圖。為了讓表徵能編碼視點無關的場景描述,設置該模型使之在構建表徵之前不知道哪個視點會被解碼。在我們的例子里,向模型輸入從 n 個不同視點所看到的場景的文本描述,以編碼成場景表徵向量。然後,利用該向量重建從新視點看到的場景圖像。
如圖 2 所示,我們提出的模型由兩部分組成:一個表徵網路,它從多視點場景的文本描述中生成聚合表徵(aggregated representation);一個以場景表徵為條件的生成網路,它將場景渲染為新視點下的圖像。我們對這兩個網路進行了如下描述(詳見附錄 A)。
圖 2:模型圖示。表徵網路解析多個攝像機坐標拍攝的多視點場景的多個描述和文本描述。所有視點的表徵被聚合成一個場景表徵向量 r,然後生成網路使用該向量 r 來重建從新的相機坐標看到的場景的圖像。
圖 3:從合成語言(頂部)和自然語言(底部)模型生成的樣本。相應的描述是:「There is a pink cone to the left of a red torus. There is a pink cone close to a purple cone. The cone is to the left of the cone. There is a red torus to the right of a purple cone.」;「There are two objects in the image. In the back left corner is a light green cone, about half the height of the wall. On the right side of the image is a bright red capsule. It is about the same height as the cone, but it is more forward in the plane of the image.」
4 場景編碼實驗
圖 4:訓練中用於訓練/驗證/測試分割的模型變體的 ELBO 值。人類對視覺場景樣本和相應描述之間一致性的排名。對於 SLIM?(NL + SYN),僅根據自然語言輸入計算。
5 表徵分析
圖 5:上面的圖是用於測試表徵相似性的場景變換可視圖。左下角是基本表徵和將四種變換方法中的一種應用於上下文輸入而產生的表徵之間的餘弦距離。右下角採取相同的分析方法,但其對象是單個編碼器步驟生成的表徵。黑條代表 95%CI。為了對比,人類的平均排名是 M> P> A> N(Gershman and Tenenbaum 2015)。
表 2: Gershman and Tenenbaum (2015) 變換。
圖 6:a) 單個描述編碼的 t-SNE,根據不同攝像機角度著色。b) 同一場景單個描述表徵之間的距離,是視點之間角度的函數。c) 從相對弧繪製的聚合表徵之間的距離,是這些弧的大小的函數。藍色對比相同場景表徵,紅色對比不同場景表徵。d) 在不同的輸入條件下,恆定場景和坐標的輸出樣本。頂部:單個描述(黑色箭頭方向),底部:來自越來越大的弧的聚合描述。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽
※入門Python神經機器翻譯,這是一篇非常精簡的實戰指南
TAG:機器之心 |