深度學習如何感知跟蹤位置變化

新聞 02-01

位置感知能力是基於位置的服務（LBS）的核心。但是，準確估計目標的位置有時候並不是一件容易的事。全球定位系統（GPS）是戶外最好的位置感知計算使能者，能夠直接輸出地理空間坐標，但其誤差可能會超出某些應用的容忍極限。在 GPS 無法使用的地方，位置可以通過來自慣性測量單元（IMU）和攝像頭等感測器提供的原始數據間接推斷出來。傳統上，不管是直接測量地理空間坐標還是推理得到位置，數據都必須經過一個相當繁瑣的人工設計的數據處理流程，之後才能被更高階的 LBS 使用。本文將介紹兩項近期的將深度學習模型引入位置感知計算的嘗試，這兩項研究能有效減少專家的參與。

通過部分可觀測隨機過程實現目標跟蹤（Object Tracking via Partially-observable Stochastic Processes）

論文地址：https://arxiv.org/abs/1602.00991

演示視頻：https://youtu.be/cdeWCpfUGWc

研究背景

這篇 AAAI16 論文提出了一種端到端的目標跟蹤方法，其中一端是從模擬的 2D 激光掃描器收集到的原始數據，另一端是整個環境狀態（甚至包含被遮擋的物體），如下圖所示：

深度學習如何感知跟蹤位置變化

打開今日頭條，查看更多圖片

這個跟蹤問題背後有一個值得提及的關鍵問題，即由於遮擋情況，原始數據只是來自環境的一部分。傳統上一般是用貝葉斯濾波（類似於卡爾曼濾波器）來解決這樣的部分可觀測隨機過程問題，而這又涉及到大量人工設計的狀態表徵，並且還隱含了對模型分布的特定假設或採樣。這篇論文稱：該論文提出了首個端到端的可訓練解決方案，讓機器人智能體可以無監督的方式學習信念狀態表徵以及相應的預測和更新操作；相比於傳統方法，這種方法更有效且更省力。

模型

這個跟蹤問題被放入了一個生成模型框架中，其有一個詳細描述環境動態的隱馬爾可夫過程 h。與此同時，其外觀層 y 會獲取各個目標的位置，並且可被另外一層（感測器測量層 x）部分觀測，如下圖所示：

深度學習如何感知跟蹤位置變化

該任務的目標就變成了：給定 x 的歷史輸入序列，估計 y 在時刻 t 的條件分布。注意 y 實際上並不是一個馬爾可夫過程，因此隱馬爾可夫模型等方法不能在這裡應用。作為替代，這可以通過遞歸貝葉斯估計來處理，即給定 x 的歷史輸入序列（信念），遞歸式地計算 h 在時刻 t 的條件分布。這種方法不直接估計目標，而是給定信念，將目標作為 y 的條件分布來估計。該論文通過加權了 W_F 和 W_P 的兩個神經網路來表示最終目標，其中第一個網路是指從歷史輸入序列到信念的模型，第二個網路是指從信念到位置（在 t 時的 y）的模型。兩個網路鏈接在一起，從而整體上有效地使它們成為了一個前饋循環神經網路。信念的隱藏狀態表徵是從原始數據中學習的，並且可用作從一個時間步驟傳遞到下一個時間步驟的網路記憶。這個過濾過程如下圖所示：

深度學習如何感知跟蹤位置變化

更具體而言，該論文使用了一個 4 層的前饋循環網路，其中使用了卷積運算，每一層之後都有 sigmoid 激活。該網路的架構如下所示：

深度學習如何感知跟蹤位置變化

無監督訓練

上述模型可以通過最小化目標分布的負對數似然這種常用方式來訓練。但是，由於遮擋，y 的基本真值（ground-truth）數據可能是無法獲取的。該論文提出的網路訓練方法是不僅要預測下一個時間步驟，還要預測未來更多幾步（比如 n 步），具體做法是丟棄當前時間步驟與當前之後 n 步之間的所有觀察結果（將它們設為 0）。為了避免過擬合，這種觀察丟棄（observation dropout）必須在空間和時間上並且對所有數據集都執行。這讓網路可以不使用基本真值數據進行訓練，這是一種相對無監督的方式。

結果

訓練集總共包含 10000 個長度為 2000 時間步驟的序列。進行了 50000 次迭代的隨機梯度下降訓練。得到了兩個重要發現。第一，這種無監督訓練得到了幾乎和監督學習一樣的結果，這說明觀察丟棄是有效的。第二，信念層的激活表現出了對不同目標移動模式的適應性表徵。訓練過程參閱下圖，或參看原論文附帶的視頻。

深度學習如何感知跟蹤位置變化

但是，也許由於這是該方向的首個研究，所以該論文沒有提供任何性能表現的量化指標或與已有研究的比較。該論文最後提到，研究者正在將該研究成果延展到更接近現實的數據以及更有難度的機器人任務上。

基於地理空間軌跡的位置預測（Location Prediction based on Geospatial Trajectories）

研究介紹：https://launchpad.ai/blog/tracking

研究背景

Launchpad.AI 最近有篇文章介紹了將長短期記憶（LSTM）用在運輸工作中的方法。對於很多工業和室外應用，GPS 和射頻識別（RFID）跟蹤技術現在已經得到了普遍應用，因為它們能以米級的精度獲取實時的位置信息。但是，解譯地理空間數據以改善操作流程的方法還是一個人們不太了解的主題。該論文提出了一種自動化地理空間異常檢測系統，可通過評估被跟蹤目標是否偏離了預期軌跡來檢測異常。該研究使用了 LSTM 網路來學習歷史數據以預測未來位置。他們還將該系統應用到了一個真實數據集上，其中包含北京市 28000 輛計程車一個月的軌跡數據。

模型

除了時間戳和計程車對應的位置（經度和緯度），速度、方向和是否載客的狀態也在規範化之後被納入了序列數據之中。然後使用 LSTM 網路處理這個序列數據。該研究還考慮了目標的身份信息。身份信息（這裡是每位駕駛員獨有的 ID）首先通過嵌入（embedding）進行預處理，然後與 LSTM 輸出融合。在某種程度上講，駕駛員 ID 的語義含義中有兩輛計程車是否具有相似的移動模式的信息。在經過一個密集的全連接層之後，整個網路會以緯度和經度的形式輸出一分鐘的未來預測。該網路是用 Keras 實現的，下圖給出了其網路架構：

深度學習如何感知跟蹤位置變化

結果

訓練完成後的模型在留存的測試數據集上進行了評估。根據該論文的結果，計程車在一分鐘後離起始位置平均 391 米遠，這意味著如果該系統使用當前位置作為預期位置，那麼就會造成 391 米的誤差。使用 5 輛計程車作為訓練集的 LSTM+embedding 的最終結果得到了 2076 米的誤差。但是，隨著計程車數量增長至 8000，誤差顯著下降到了 152 米，低於計程車的一分鐘平均移動距離。

簡評

這兩個案例都表明位置感知計算可受益於深度學習：一個是根據原始感測器數據推斷位置，另一個是直接使用位置數據檢測運營異常。顯然，處理序列數據的深度學習已經非常成熟了，但是其在位置感知計算上的應用還不普遍，可能的原因有：

評估困難。事實上，上述案例更像是概念驗證研究，因為研究者都沒能提出可比較和公平的評估指標來評估他們的研究。
缺乏可靠標註的數據集。位置感知計算的基本真值數據（通常是位置）一般難以獲取。比如在第一篇論文中，可能沒辦法記錄真實環境中所有目標的基本真值位置，這使得大規模學習難以實現。
時間複雜性。非常類似於語音識別，時間數據序列的最小長度讓地理空間感知具有任意性，而且高度依賴當前狀況。在語音識別和光學字元識別（OCR）領域，目前是通過連接主義時間分類器（CTC）來解決這個問題。這種方法能否延展到位置感知計算領域？還有待探索和研究。

總體而言，目前的位置感知計算的機器學習水平還非常有限；當涉及到數據挖掘和解釋時，還需要大量領域專業知識。這兩個研究案例表明自動學習數據能有效提升當前的位置感知計算，這是一個很有前景的研究方向。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※如何在TensorFlow 2.0中構建強化學習智能體
※技巧只能源碼找？李沐帶你縱覽卷積網路實戰中的驚艷技藝

TAG:機器之心 |