牛津大學提出全新生成式模型「SQAIR」，用於移動目標的視頻理解

知識 06-25

作者：Adam R. Kosiorek、Hyunjik Kim、Ingmar Posner、Yee Whye Teh

來源：arxiv、雷克世界

導語：可以這樣說，對移動目標的視頻分析和理解是很複雜的，最近，牛津大學（University of Oxford）的科學家們提出了一種全新的具有可解釋性的深度生成式模型——SQAIR，它是一種通過為每一個目標進行參與、推理、重複等操作進行視頻理解和目標檢測的模型。它能夠在整個幀序列中可靠地發現和追蹤目標，且能夠基於當前幀生成未來的幀。

在本文中，我們提出了序列參與、推理、重複（Sequential Attend, Infer, Repeat，SQAIR），這是一種用於可移動目標視頻的具有可解釋性的深度生成式模型。它可以在整個幀序列中可靠地發現和追蹤目標，還能夠基於當前幀生成未來的幀，從而模擬目標的預期運動。這是通過在模型的潛在變數中顯示地對目標的存在、位置和外觀進行編碼實現的。SQAIR保留了其前任的所有優點，參與、推理、重複（AIR，Eslami等人於2016年提出），包括以無監督的方式進行學習，並解決其缺點。我們使用移動的多MNIST數據集來顯示AIR在檢測重疊或部分遮擋目標時所存在的局限性，並展示SQAIR是如何通過利用目標的時間一致性來克服這些缺點的。最後，我們還將SQAIR應用於現實世界的行人閉路電視（Closed-Circuit Television，CCTV）數據，在那裡，它學習以一種無監督的方式可靠地檢測、追蹤和生成步行的行人。

圖1：左：在AIR中的生成；右：在SQAIR中的生成。

可以這樣說，在他們的環境中識別目標並理解他們之間關係的能力是人類智力的基石（Kemp和Tenenbaum於2008年提出）。可以說，在這樣做的過程中，我們依賴於空間和時間一致性的概念，這個概念引發了一個期望，即目標不會憑空出現，也不會自發地消失，並且它們可以通過諸如位置、外觀以及一些解釋它們隨著時間的演變的動態行為進行描述。我們認為這種一致性的概念可以被看作是一種歸納偏差（inductive biases），可以提高我們學習的效率。同樣，我們認為將這種對時空一致性的偏差引入到我們的模型中應該會大大減少學習所需的監督量。

圖2：左：AIR中的推理；右：SQAIR中從傳播（PROP）階段開始的推理。

實現這種歸納偏差的一種方式是通過模型結構。儘管最近在深度學習方面所取得的成功表明，即使沒有明確地為模型賦予那種具有可解釋性的結構，這種進步也是可以取得的（LeCun和Bengio等人於2015年提出），但最近的研究表明，將這種結構引入深度模型確實可以導致有利的歸納偏差從而提高性能表現，如卷積神經網路（LeCun和Boser等人於1989年提出），或那些需要關係推理的任務（Santoro等人於2017年提出）。除此之外，結構還可以通過顯著提高泛化能力、數據效率（Jacobsen等人於2016年提出），或將其能力擴展到非結構化輸入（Graves等人於2016年提出），從而使神經網路能夠在新的環境中有用。

圖3：左：SQAIR中PROP和DISC之間的交互；右：單一傳播塊（頂部）和發現塊（底部）中的信息流。

由Eslami等人於2016年所引進的參與、推理、重複（AIR）是這種結構化概率模型（structured probabilistic model）的一個顯著示例，它依賴於深度學習並承認有效的攤銷推理（amortized inference）。在沒有任何監督的情況下進行訓練，AIR能夠將一個可視化的場景分解為其構成組件，並生成大量（已學習）的潛變數，而這些變數能夠明確地對每個目標的位置和外觀進行編碼。雖然這種方法令人鼓舞，但它對單一（以及固有的靜態）場景建模的聚焦導致出現了許多局限性。例如，它通常將兩個靠的很近的目標合併為一個目標，因為沒有時間上下文可用於對它們進行區分。

圖4：輸入圖像（頂部）和帶有明顯閃光位置的SQAIR重構（底部）。

同樣，我們研究證明，AIR也很難識別部分遮擋的目標，例如當它們超出場景框架的邊界時（參見圖5）。

圖5：輸入，具有明顯閃光位置的重構以及閃光重構AIR（左）和SQAIR（右）。SQAIR可以通過聚合時間信息來對部分可視化和重疊的目標進行建模。

在此研究中，我們的貢獻是通過引入一個序列版本來減輕AIR的缺點，即對幀序列進行建模，使其能夠隨著時間的推移發現和追蹤目標，並在未來產生令人信服的幀外推（extrapolations of frames）。我們通過利用時間信息來學習一個更豐富、更有能力的生成式模型來實現這一目標。具體而言，我們將AIR擴展到時空狀態空間模型（spatio-temporal state-space model）中，並在動態目標的未標記的圖像序列上對其進行訓練。我們將對結果模型進行展示，並且我們將其命名為序列 AIR（Sequential Attend，Infer，Repeat，SQAIR），它在綜合和現實世界的場景中性能表現優於原始AIR的同時，還保留了原始AIR構想的優勢。

總而言之，在本文中，我們將AIR擴展到圖像序列，從而實現時間一致的重建和樣本。我們指定了一個概率模型和一個相應的實現，它們可以利用由AIR引入的結構。在這樣做的過程中，我們提高了解決重疊目標問題的能力。

就我們所知，這是第一個使用可學習似然的方法呈現無監督目標檢測和追蹤的研究，它藉助於目標的生成式建模方法，特別是通過時間對其外觀和位置進行明確建模。作為一個生成式模型，它可以用於條件式生成，其中，它可以將序列推斷到未來。因此，在一個強化學習環境中，將它與Weber等人（於2017年提出）的想像力增強智能體（Imagination-Augmented Agents）一起使用，或更為普遍地作為一種世界模型（Ha和Schmidhuber於2018年提出），尤其是對於那些具有簡單背景的環境，例如，像《蒙特祖瑪的復仇》（Montezuma』s Revenge）或《吃豆人》（Pacman）這樣的遊戲。

該框架為進行進一步的研究提供了各種途徑。SQAIR能夠導致具有可解釋性的表徵，但是通過使用可解決目標中變化因素的可替代性目標，就可以進一步提高變數的可解釋性（Kim和Mnih於2018年提出）。此外，在目前的狀態下，SQAIR的運行只能使用簡單的背景和靜態攝像頭。而在未來的研究中，我們將會想辦法解決這個缺點，並加快序列推理過程，其複雜性與目標數量呈線性關係。生成式模型——目前假設為附加的圖像合成，性能可以進一步得以改進，例如，自回歸建模（autoregressive modelling，Oord等人於2016年提出）。它可以導致模型具有更高的保真度，且也改善被遮擋目標的處理。最後，SQAIR模型是非常複雜的，而且執行一系列消融研究以更密切地研究不同組分的重要性將是非常有用的。

- 加入AI學院學習 -

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI講堂 的精彩文章:

※20億cocos幣免費領——註冊就送1000幣！
※深度學習的幾何理解（3）-概率變換的幾何觀點

TAG:AI講堂 |