當前位置:
首頁 > 知識 > 智能體張量融合,一種保持空間結構信息的軌跡預測方法

智能體張量融合,一種保持空間結構信息的軌跡預測方法

機器之心轉載

來源: 北京大學前沿計算研究中心

本文是計算機視覺領域國際頂級會議 CVPR 2019 入選論文《Multi Agent Tensor Fusion for Contextual Trajectory Prediction》的解讀。該論文由 MIT 支持的自動駕駛初創公司 ISEE Inc,北京大學王亦洲老師課題組,UCLA,以及 MIT CSAIL 合作共同完成。該論文主要提出了一種基於深度學習的車輛和行人軌跡預測方法,提出了一個可以保持空間結構信息的多智能體張量融合網路,在機動車駕駛和行人軌跡數據集中對模型的性能進行了驗證。

鏈接:https://arxiv.org/abs/1904.04776

簡介

軌跡預測問題之所以具有挑戰性,是因為智能體的動作是隨機的,並且取決於他們的目的地、與其他智能體的社會交互、以及其所在場景的物理約束。預測還必須對不同場景中不斷變動的智能體數量和類型具有泛化性。基於神經網路的預測演算法往往很難編碼類似的信息,因為標準的神經網路架構只接受固定的輸入、輸出和參數維度;而對於這類預測任務,這些參數維度會因場景而異。之前的論文或利用面向智能體(agent-centric)的方法進行軌跡預測,例如 SocialLSTM[1],Social GAN [2];或利用面向空間結構(spatial-centric)的編碼方式解決這個問題,例如 Chauffeur Net [3]。面向智能體的編碼在多個智能體的特徵向量上運行聚合函數,而面向空間結構的方法則直接在鳥瞰視角的場景表示圖上進行運算。

而多智能體張量融合(Multi-Agent Tensor Fusion, MATF)則提出了一種創新的多智能體張量融合編碼器-解碼器(Encoder-Decoder)網路架構。該架構結合了面向智能體和面向空間結構的軌跡預測方法的長處,通過端到端訓練學習表示和推理有關社會互動和場景物理約束的所有相關信息。圖 1 展示了 MATF 的核心張量 MAT 的構造,該張量在空間上將場景的特徵編碼與場景中每個智能體的過去軌跡的特徵編碼向量對齊,保持了靜態場景以及多智能體的空間位置關係。接下來,通過全卷積網路(Fully Convolutional Layers)構造出融合的多智能體張量編碼(見下一個小節)。這種編碼方式一方面可以像面向空間結構的方法那樣很自然地保持多智能體張量中的所有智能體和靜態場景的空間結構以捕捉空間信息,另一方面也可以像面向智能體的方法那樣敏感捕捉多智能體間的微妙社會互動。

MAT 編碼是一個鳥瞰視角的靜態場景和動態多智能體的特徵圖(Feature Map),包括多智能體編碼通道(Multi-Agent Encoding Channels)(上)和靜態場景編碼通道(Scene Context Encoding Channels)(下)。單智能體長短時記憶網路(Single Agent LSTM)編碼器輸出的多智能個體特徵向量(紅色)在空間上根據這些智能體的坐標對齊,構造出多智能體編碼通道。多智能體編碼通道與靜態場景編碼通道(場景編碼全卷積網路的輸出特徵圖)對齊,以保持智能體與場景間的空間結構。

MAT 緊接著將融合了社會互動和場景物理制約的 MAT 編碼結果解碼,以同時預測場景中所有智能體的未來軌跡。現實世界中人的行為不是確定性的,智能體可以在同一個場景中做出不同的行為,MATF 使用條件生成對抗訓練(Conditional GAN)來捕獲預測軌跡的這種不確定性。

MATF 對新提出的模型在駕駛數據集和行人人群數據集上進行了實驗驗證。該論文報告了來自以下數據集的結果:公開的 NGSIM 駕駛數據集,斯坦福無人機行人數據集(Stanford Drone dataset),ETH-UCY 人群數據集,以及最近收集的暫未公開的馬薩諸塞州駕駛數據集。文章彙報了定量和定性實驗結果,顯示了模型每個部分的貢獻。與領域最先進論文的定量比較表明所提出的方法在高速公路駕駛和行人軌跡預測方面都有著最好的表現。

網路架構

多智能體張量融合(MATF)的網路架構簡圖如下所示:

該網路的輸入是在過去時間段內的所有智能體的軌跡,以及鳥瞰視角下的靜態場景圖像。每個智能體的過去軌跡和靜態場景圖像分別通過循環(Single-Agent LSTM Encoders)和卷積編碼流獨立編碼。編碼後的多智能體向量和靜態場景特徵圖在空間上對齊以構造出多智能體張量。例如,圖中 3-D 黑框(下方)顯示的是橙色智能體周圍的多智能體張量切片。

接下來,結構類似 U-Net 的全卷積網路(Convolutional Operator: Multi-Agent Tensor Fusion)作用在構造出的多智能體張量上,用以推斷社會交互和空間物理約束,同時始終保持空間結構和空間局部性特徵,該全卷積網路最終輸出融合的多智能體張量(上方)。每個融合的智能體向量從該張量切片得出,包含了推理加工過的相應智能體的社會互動信息、自身歷史軌跡信息、以及其周圍的場景物理約束信息。值得指出的是,因為 MATF 架構運行共享卷積運算,所以在同一次正向傳播中可以計算得出的所有智能體的相應融合向量。例如,實心藍框(上方)所表示的智能體融合向量融合了來自卷積層感受野內的該智能體附近的所有智能體和場景特徵的綜合推斷信息。

MATF 在此之後將這些融合的特徵向量作為殘差(Residual)加到相應智能體的原始編碼向量上,以獲得最終智能體編碼向量。這些向量最終將被循環神經網路解碼器(Single-Agent LSTM Decoders)獨立地解碼為網路對這些智能體的未來的軌跡的預測結果。MATF 整個架構是完全可微的,並且支持端到端的訓練。

駕駛數據集實驗結果樣例

馬薩諸塞州駕駛數據集的定性實驗結果樣例如上所示。每輛車的過去軌跡以不同的顏色顯示,其後連接的是網路對這些車未來軌跡的預測的採樣。正確結果(Ground Truth)的軌跡以黑色顯示,車道中心以灰色顯示。

(a)一個涉及五輛車的複雜情景;MATF 準確地預測了所有車的軌跡和速度分布;

(b)MATF 正確地預測了紅色車輛將完成換道;

(c)MATF 捕捉到紅色車輛是否將駛入高速公路出口的不確定性。

(d)當紫色車輛通過高速公路出口後,MATF 預測它將不會退出。

(e)在這裡,MATF 無法預測精確的真實未來軌跡;然而,一小部分採樣軌跡成功預測到了紅色車輛將持續變道。

行人數據集實驗結果樣例

斯坦福無人機數據集的定性實驗結果樣例如上所示。從左到右分別是 MATF 多智能體-場景推斷模型,MATF 多智能體-無場景推斷模型,和 LSTM 基準模型的預測結果,所有用來預測的模型都是確定性模型。藍線顯示的是過去的軌跡,紅色是真實的未來軌跡,綠色的是三個模型分別預測的未來軌跡。MATF 可以通過一個正向傳播同時預測該圖所示的所有的智能體的未來的軌跡。綠色的預測軌跡越接近紅色的真實未來軌跡,預測就越準確。MATF 多智能體-場景推斷模型成功預測了:

(1)兩個人或自行車從頂部進入環形交叉口,並將向左駛出;

(2)環形交叉路口左上方路徑的一位行人正在轉彎向左移動到圖像的頂部;

(3)一個人在環形交叉路口的右上方建築物門口減速;

(4)在一個有趣的失敗案例中,環形交叉路口右上方的人向右轉,向圖像頂部移動;該模型成功預測了此次轉彎,但失敗在無法預測轉彎的急緩程度。

MATF 多智能體-場景推斷模型正確預測了這些和其他各種場景的軌跡情形,其中一些情形也被 MATF 多智能體-無場景推斷模型近似地預測了出來,但大多數情形都沒有被基準的 LSTM 模型預測出來。

參考文獻:

[1] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016.

[2] A. Gupta, J. Johnson, L. Fei Fei, S. Savarese, and A. Alahi. Social gan: Socially acceptable trajectories with generative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018.

[3] M. Bansal, A. Krizhevsky, and A. S. Ogale. Chauffeurnet: Learning to drive by imitating the best and synthesizing the worst. CoRR, abs/1812.03079, 2018.

本文為機器之心經授權轉載,轉載請聯繫原公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

每類13張標註圖就可從頭學分類器,DeepMind新半監督模型超越AlexNet

TAG:機器之心 |