重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

新聞 04-23

選自arXiv

機器之心編譯

參與：李亞洲、微胖、黃小天、蔣思源

近日，德國馬克斯普朗克智能系統研究所（Max Planck Institute for Intelligent Systems）的自動駕駛視覺組聯合蘇黎世聯邦理工學院（ETH-Zurich）計算機視覺與幾何組發表了一篇 67 頁的論文，介紹用於自動駕駛的計算機視覺方面的研究，從自動駕駛的歷史開始，談到了數據集與基準、攝像頭模型與校準、目標識別、追蹤等問題中的難題與頂尖研究成果。此篇文章對該論文進行了簡介，因為篇幅過長，機器之心只對文章結構與引導閱讀的內容進行了介紹，想要深入了解的讀者可點擊閱讀原文下載此論文。此外，為了方便閱讀，作者們還給出了一個互動式在線工具，用圖的方式可視化了相關研究的分類，提供了額外的信息與論文鏈接，項目地址如下。

項目地址：http://www.cvlibs.net/projects/autonomous_vision_survey/

文章基本結構

前言
自動駕駛歷史
數據集&基準
攝像頭模型&校準
表徵
目標識別
語義分隔
再建構
動作&姿勢估測
追蹤
場景理解
感測器運動控制的端到端學習
結論

摘要

近年來計算機視覺、機器學習和自動駕駛等人工智慧相關領域發生了驚人的進展。然而，和每一個快速發展的領域一樣，人工智慧領域也出現了業內人員難以跟上行業節奏或者業外人員難入行的問題。雖然已編寫過幾篇專題調查論文，但是到目前為止，還沒有關於自動駕駛計算機視覺（computer vision for autonomous vehicle）的難題、數據集和方法的綜合性調查。本文通過提供有關自動駕駛計算機視覺這一主題的最新調查以填補這一空白。我們的調查既包括最為相關的歷史資料，也包括識別、重建、運動估測、追蹤、場景理解以及端到端學習等當前最先進的專業主題。為了完成這一目標，我們首先通過分類學對每個方法進行分類，接著在 KITTI、ISPRS、MOT 和 Cityscapes 等若干個挑戰性的基準數據集上分析每個方法的最佳性能。此外，我們還討論了一些開放問題和當前的研究挑戰。考慮到訪問的輕鬆性和缺失的引用，我們還提供了一個具有主題和方法導航功能的互動平台，提供額外信息和每篇論文的項目鏈接。

導語

從 20 世紀 80 年代首次成功演示以來（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自動駕駛汽車領域已經取得了巨大進展。儘管有了這些進展，但在任意複雜環境中實現完全自動駕駛導航仍被認為還需要數十年的發展。原因有兩個：首先，在複雜的動態環境中運行的自動駕駛系統需要人工智慧歸納不可預測的情境，從而進行實時推論。第二，信息性決策需要準確的感知，目前大部分已有的計算機視覺系統有一定的錯誤率，這是自動駕駛導航所無法接受的。

在此論文中，我們聚焦於第二個問題，也就是自動駕駛視覺（autonomous vision)，並調查了目前自動駕駛汽車中感知系統的表現。面向此目標，我們首先給出了問題分類，歸類了已有的數據集，以及在這些類別中可使用的技術（論文成果），描述了每種方法的優缺點。第二，我們在數個流行數據集上分析了一些頂尖成果的表現。特別是我們給出了 KITTI 基準的全新深度質量分析，基於提交到平谷伺服器上的方法展現了最容易與最困難的例子。基於這些分析，我們討論了開放的研究問題和挑戰。為了更輕鬆的閱讀，我們還給出了一個互動式在線工具，使用圖像可視化了我們的分類，並用簡單可用的方式提供了額外的信息與鏈接。通過提供詳盡的綜述，我們希望該成果能夠成為自動駕駛視覺領域研究員進行研究的有用工具，也能降低新人進入該領域的門檻。

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

作者們給出的自動駕駛視覺領域中問題的分類。在此互動式工具中，點擊這些主題就能搜索相關論文。

目前也有其他相關的研究。Winner et al. (2015) 詳細解釋了主動安全性與駕駛輔助系統，考慮到了它們的結構與功能。他們的研究注重覆蓋到輔助駕駛系統的所有方面，但關於機器視覺的章節只覆蓋到了自動駕駛視覺問題中最基礎的概念。Klette (2015) 給出了基於視覺的駕駛輔助系統的概述。他們描述了高層次的感知問題的大部分方面，但並不像我們一樣提供了在各種任務上頂級成果的深度評測。

Zhu et al. (2017) 提供了智能汽車環境感知的概述，聚焦於車道檢測、交通信號／燈識別以及汽車追蹤問題，該論文可與我們的研究互補。但相較之下，我們的目標是通過提供廣泛的綜述和對比（包括所有領域的成果），在機器人、智能汽車、攝影測繪學和計算機視覺社區之間架起一座橋樑。

1. 自動駕駛歷史

1.1 自動駕駛項目
1.2 自動駕駛競賽

2. 數據集和基準

數據集通過提供專門的真值（ground truth）問題實例，從而在許多研究領域之中發揮了關鍵作用。通過提供有關其能力與局限的核心信息，數據集還可以對方法進行量化評估。

2.1 真實數據集

立體與 3D 重建類數據集
光流類數據集
對象識別與分割類數據集
追蹤類數據集
航空圖像數據集
自動駕駛數據集
長期自控（Long-Term Autonomy）類數據集

2.2 合成類數據集

MPI Sintel
飛行椅和飛行物
遊戲引擎

3. 攝像頭模型與校準

3.1 校準
3.2 全向攝像頭
3.3 事件攝像頭

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 4（a）一個標準的 CMOS 攝像頭以固定幀頻輸出圖像，運動視覺感測器（DVS）及時輸入波峰事件（spike event）（當他們變紅時）。每個事件對應一個局部、像素級別的亮度變化。（b）DVS 盯著一個旋轉點上的輸出視覺化。用顏色的點用於標記個體事件。不屬於螺旋的部分是由感測器噪音引起的。

4. 表徵

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 5: Pfeiffer & Franke (2011) 的多層 Stixel 世界表徵。這一場景被切割為叫做 Stixels 的平面部分。與 Stixel World of Badino et al. (2009) 相反，它可以將目標定位在一單個圖像列中的多個深度位置。顏色代表的是與障礙物的距離，紅色代表靠近，綠色代表還離得比較遠。

3D 基元（primitives）

5. 目標識別

感測器
標準流程

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 6: Deformable Part Model 進行樣本偵測，模型是 Felzenszwalb et al. (2008) 提出的。DPM 包括一個和多個高解析度模型，還有一個用來限制每部分位置的 spatial constellation 模型。

分類

5.1 2D 目標檢測

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 7：Cai et al. (2016) 提出的提議子網路（proposal sub-network），在多輸出層中進行識別，匹配不同尺度的目標。可以綜合特定尺度偵測器，生成一個強大的多尺度目標偵測器。

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 8：Chen et al. (2016b) 提出的網路綜合了來自鳥類視野的分區（region-wise）特徵，LiDAR 點雲前視圖以及 RGB 作為 deep fusion network 的輸入。

5.2 從 2D 圖像構建 3D 目標偵測
5.3 從 3D 點雲構建 3D 目標偵測
5.4 行人檢測
5.5 行人姿勢估測
5.6 討論

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 9：KITTI 汽車檢測分析。每個部分分別展示了包含大量真正例（TP) 檢測、假正例（FP）檢測和假負例（FN) 檢測的圖像。如果所有的檢測器的 TP、FP 或 FN 一致，目標被標記為紅色。如果只有一部分檢測器一致，目標標記為黃色。通過 KITTI 評測伺服器上公開的 15 種頂級方法，我們已經建立了排名。

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 10：KITTI 行人檢測分析。每個部分分別展示了包含大量真正例（TP) 檢測、假正例（FP）檢測和假負例（FN) 檢測的圖像。如果所有的檢測器的 TP、FP 或 FN 一致，目標被標記為紅色。如果只有一部分檢測器一致，目標標記為黃色。通過 KITTI 評測伺服器上公開的 15 種頂級方法，我們已經建立了排名。

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 11：KITTI 自行車檢測。每個部分分別展示了包含大量真正例（TP) 檢測、假正例（FP）檢測和假負例（FN) 檢測的圖像。如果所有的檢測器的 TP、FP 或 FN 一致，目標被標記為紅色。如果只有一部分檢測器一致，目標標記為黃色。通過 KITTI 評測伺服器上公開的 15 種頂級方法，我們已經建立了排名。

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 12：Cordts 等人做的 Cityscapes 數據集場景語義分割，2016 年記錄於蘇黎世

6. 語義分割

方程（formulation）
結構化 CNN

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 13： Zhao et al. (2016) 提出的方法的概覽。金字塔解析模塊（c）被用於一個 CNN 的特徵圖（b）上，並被輸入一個卷積層用於像素水平的估測（d）。

條件隨機場（conditional random field）

討論

基於建議的樣例分割（Proposal-based Instance Segmentation）
無需建議的樣例分割

6.2 . Label Propagation
6.3 多框架語義分割（Semantic Segmentation with Multiple Frames）
6.4 3D 數據的語義分割

在線方法
3D CNN

6.5 街景的語義分割

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 16：Mathias et al. (2016) 提出用於外表面解析的三層解決方案。他們首先分割外表面，並將概率分布分配給語義類作為提取視覺特徵。下一層他們使用特定目標的檢測器，比如門或窗的檢測器從底層改進分類器的輸出。最後，他們結合弱架構先驗，並使用基於採樣的方法搜索最優表面標記。

6.6. Semantic Segmentation of Aerial Images

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 17：ISPRS Vaihingen 採用由 Marmanis et al. (2016b) 提出的 FCN 集合進行場景的語義分割。源自 Marmanis et al. (2016b)。

6.6.1 ISPRS 分割挑戰賽

6.7 道路分割

6.7.1 可用空間估計

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 18：該圖片源自 Pinggera et al. (2016)，其展示了在失物招領（Lost and Found）數據集上提出方法的障礙物檢測。

7. 再建構

7.1 立體方法

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 19：使用目標知識解決立體匹配模糊問題。立體方法通常在無紋理或半透明表面（頂部，Zbontar & LeCun (2016)）無法反射。而使用目標知識，通過加強對模糊表面（中間）不一致性的認同，可以在保持數量上和質量上優良結果的同時，恢復場景目標的 3D 幾何形（底部）。源自 Guney & Geiger (2015)。

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 20：立體匹配的深度學習。訓練 Siamese 網路以提取所有像素可能差異的邊緣分布。源自 Luo et al. (2016)。

7.2 多視角 3D 重構

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 21：KITTI 2015 立體分析。該圖展示了在 KITTI 2015 立體基準上發布的 15 個最佳立體方法的累積誤差。根據 Menze & Geiger (2015) 定義的 3px/5% 標準，紅色對應著大多數方法會導致壞像素的區域，黃色對應著某些方法失效的區域，透明對應著所有方法都正確估計。

7.3 再建構與識別

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 22：Haene et al. (2013) 連結 3D 場景重建和分類。上面一行顯示輸入圖像及其 2D 語義分割與深度圖的示例。下面顯示了連接優化和分類所得出的幾何形。源自 Haene et al. (2013)。

8. 運動與姿勢估測

8.1 2D 運動估測-光學流
8.2 3D 運動估測-場景流

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 27：場景流。基於圖像場景流的最小設置由兩個連續的立體圖像對給出。源自 Menze & Geiger (2015)。

8.3. Ego-Motion 估計

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 30：Scaramuzza & Fraundorfer (2011) 的視覺測距問題圖例。Tk,k?1 轉換在兩個相鄰機位（或相機系統位置）由使用視覺特徵而獲得。所有轉換的累積服從相對於初始坐標系 k = 0 的絕對姿態 Ck。源自 Scaramuzza & Fraundorfer (2011).

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 31：Engel et al. (2015) 提出的立體 LSD-SLAM 方法能計算精確相機運動和實時半稠密（semi-dense）概率深度圖。深度可視化使用藍色代表遠處場景點，紅色代表近處目標。源自 Engel et al. (2015)。

8.4. 同步定位與構圖 (SLAM)
8.5. 定位

9. 追蹤

追蹤的目標是給定感測器測量數據的情況下實時評估一個或多個目標的狀態。典型來說，目標的狀態由它在一定時間的位置、速度和加速度來表達。追蹤其他車輛對自動駕駛任務而言非常重要。舉個例子，汽車剎車距離隨速度變化會有次方級的變化。為了防止相撞，系統需要足夠提前做出反應。其他車輛的軌跡足以預測停車的位置和可能相撞的情況。

在自行車和行人的案例中，比較難以預測未來的行為，因為他們可能會突然改變方向。然而，結合其他車輛的分類進行追蹤，能夠調整汽車在這種情況下的速度。此外，追蹤其他汽車可被用來進行自動距離控制，提前預估其他車輛可能做的變動。

9.1 立體追蹤
9.2 行人追蹤
9.3 頂級成果
9.4 討論

10. 場景理解

自動駕駛的基本需求之一是充分理解其周遭環境，比如複雜的交通場景。戶外場景理解的複雜任務包括若干個子任務，比如深度估計、場景分類、目標探測與追蹤、事件分類以及更多，其中每一個子任務描述場景的一個特定方面。聯合建模這些特定方面以利用場景不同元素之間的關係並獲得一個整體理解，這樣做是有益的。大多數場景理解模型的目標是獲得一個豐富但緊湊的場景表徵，這個場景包含所有的元素，比如布局元素、交通參與者以及彼此之間的關係。相比於 2D 圖像域中的推理，3D 推理在解決幾何場景理解的問題上起著重要作用，並以 3D 目標模型、布局元素、閉塞關係等形式促使場景產生了更多的信息表徵。場景理解的一個特殊挑戰是城市市區與郊區交通情景的闡釋。相較於高速公路和農村公路，市區場景包含了很多獨立移動的交通參與者，道路與十字路口幾何布局中的更多變化性，以及由於模糊的視覺特徵和光照變化所帶來的難度升級。

從單一圖像到視頻
結合目標探測與跟蹤

重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果

圖 41：Wojek et al. (2013) 概述了被結合的目標探測與帶有明確閉塞推理的跟蹤系統。改編自 Wojek et al. (2013)。

其他表徵

11. 感測器運動控制的端到端學習

當前最先進的自動駕駛方法包含大量的模型，例如（交通信號、燈、汽車、行人的）探測、（車道、門面的）分割、運動估計、交通參與者的跟蹤，重建。然後，這些組件的結果按照控制系統的規則組合起來。但是，為了解決操控汽車方向和速度的問題，這需要穩健地解決場景理解中的諸多開放性難題。最近的文獻提出了作為替代性方案的若干個端到端自動駕駛方法。端到端駕駛使用的是從一個感覺輸入（比如，正面攝像頭圖像）直接映射到駕駛操作（比如，轉向角）的獨立系統。

結論

本文中，我們就自動駕駛計算機視覺的難題、數據集和方法提供了一個綜合性調查。為了完成這一目標，我們的調查同時涵蓋了最為相關的歷史資料，以及識別、重建、運動估測、追蹤、場景理解、端到端學習等當前最先進的專門主題。通過使用 KITTI 基準的全新深入質量分析並考慮其他數據集，我們還討論了開放問題和當前這些主題下的研究挑戰。我們的互動式在線工具平台運用圖形可視化了分類方法，從而可使你輕鬆瀏覽被調查的文獻。將來，我們計劃在這一互動式平台上不斷更新相關文獻，為這一領域提供一個實時的概觀。我們希望該項調查和該工具平台可進一步激發新研究，並且通過這一詳盡的概述，使得初學者更容易進入該領域。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※資源｜生成對抗網路及其變體的論文匯總
※三張圖讀懂機器學習：基本概念、五大流派與九種常見演算法
※微軟RobustFill：無需編程語言，神經網路自動生成程序
※採訪完Jessica，我們重新認識了《降臨》里語言學家的世界

TAG:機器之心 |

您可能感興趣

※自動機器學習：最近進展研究綜述
※【綜述】計算機視覺簡介：歷史、現狀和發展趨勢【可下載】
※自動駕駛汽車的運動規劃技術綜述
※【史學研究】分封制起源與形成問題研究綜述
※基於深度學習的目標檢測演算法綜述（一）
※基於深度學習的目標檢測演算法綜述（二）
※無線網路協作路由演算法設計與分類綜述
※情感計算綜述
※數據中心運維綜述
※自然語言處理中注意力機制綜述
※「中共制度史研究的現狀與未來」學術座談會綜述
※「馬克思主義國際研究：理論與實踐」學術研討會綜述
※自然場景文本檢測識別技術綜述
※NEJM綜述：基因編輯治療的起源、進展和臨床試驗
※動物所發表造血幹細胞研究綜述
※一定要收藏！最詳細的機器學習演算法優缺點綜述
※繼往開來！目標檢測二十年技術綜述
※讓演算法解放演算法工程師——NAS 綜述
※綜述：鈉離子電池的電極基礎與反應機理
※改革開放以來我國比較政治研究的回顧與展望研討會綜述