隱藏在攝像頭裡的AI

最新 07-25

本文來自馭勢科技人工智慧組組長潘爭在LiveVideoStackCon 2017大會上的分享，並由LiveVideoStack整理而成。潘爭回顧了AI在圖像識別領域的歷史與難點，以及在安防和自動駕駛方面的實現思路。

文 / 潘爭

整理 / LiveVideoStack

谷歌的人工智慧平台Alpha Go讓AI再次進入了普通老百姓的視野，我記得2016年3月時Alpha Go第一輪測試結果就令大家十分震驚。隨著技術的進步，AI的能力一定會越來越強。我們可以看到近兩年AI在深度學習方面的技術進展成果顯著。今天我為大家準備了一些最近與攝像頭相關的人工智慧研究成果。

概覽：

攝像頭裡的數據寶藏

視覺識別的挑戰與應對

AI+安防實踐

AI+自動駕駛實踐

今天我的分享內容主要分為以下幾點：第一是我們生活中的這些攝像頭所採集的數據中隱藏了哪些值得挖掘的寶藏，以及如果要去挖掘有價值的數據需要面臨的一些挑戰與應對的方法；第二是我在安防與自動駕駛領域應用AI的一些實踐經驗。

1. 攝像頭裡的數據寶藏

大家可以設想一下自己周圍有多少觀察我們的攝像頭，有我們隨身攜帶的手機、平板電腦等移動設備的前後攝像頭；如果你開車，你的車至少會有一兩個攝像頭；當你走在大街上或商場、超市裡時，隨便一抬頭都能看到一個監控攝像頭。可以說我們的生活布滿了攝像頭，其中記錄了我們生活一點一滴的數據便具有了非凡價值。例如商場的管理人員可通過攝像頭判斷此時商場里有多少顧客，大致掌握顧客的男女比例，年齡層次，從而掌握潛在消費群體的實時動向；也可以通過攝像頭搜尋經常前來消費的顧客，並在正確的位置精準投放相應廣告吸引其消費從而增加銷售額。而在安防領域，警察可通過安裝在街道上的攝像頭監控預防群體事件的發生，迅速識別定位逃犯並掌握其逃跑路徑從而實現快速抓捕。還有在自動駕駛領域，通過汽車上集成的多部攝像頭獲取的數據可以告訴自動駕駛系統周圍汽車的數量、相對速度與距離等，也可識別車道線位置，推斷汽車是否偏離車道，並在需要變道或剎車時及時作出反應，保障自動駕駛系統的正常運行。從攝像頭中發掘有價值的數據並加以有效利用，無論對安防領域還是自動駕駛領域而言都非常重要。當然數據挖掘與處理的過程也充滿挑戰。

2. 視覺識別問題中的挑戰與應對

例如上面的這張圖，也許一個三歲的小孩也能夠識別出圖片中的物體是一隻貓，而對計算機來說，這張圖可能只是一系列的數字。如果我們想通過這一系列的數字識別出這是一隻貓則可能會遇到非常多的挑戰。

挑戰1：視角變化

而隨著視角的變化，例如上圖的同一張人臉會呈現出非常明顯的差異

挑戰2：光影變化

光影的變化同樣至關重要，由於光源位置的不同，同樣的幾隻企鵝，有可能是全黑的，也有可能是全白的，這對視覺識別也非常具有挑戰性。

挑戰3：尺度變化

姚明與小孩雖存在明顯的尺度差異，但都屬於人類。視覺識別系統必須能夠對不同尺度的物體準確進行歸類。

挑戰4：形狀變化

處於不同形態的同一物體同樣是識別的難點，例如無論「大黃蜂」處於汽車形態還是機器人形態，視覺識別系統都應將其識別成「大黃蜂」。

挑戰5：遮擋變化

更大的挑戰在於很多視覺識別都需要面臨的遮擋變化，我們必須保證在複雜環境的遮擋下仍能夠準確識別圖片中的一匹馬與騎馬的人。

挑戰6：背景干擾

還需要解決的是背景干擾問題，我們可以輕易識別出上圖中的人與金錢豹，但對計算機而言，因為目標主體的紋理與背景幾乎難以分別，能夠準確識別出同樣結果的難度非常大。

挑戰7：類內差距

最後一項挑戰是類內差距，雖然都是椅子，但設計與用處的不同使其外觀差距非常大，而我們希望視覺識別演算法都能將其識別為一張椅子。

如何有效解決視覺識別領域上述這麼多挑戰？

2.1 深度學習——卷積神經網路

如果讓大家完成這樣一個Python函數，輸入一張圖片的數據，輸出我們期望得到的圖片類型，該如何完成？其實這個問題已經困擾了計算機視覺科學家大概半個多世紀的時間，從計算機被發明開始大家就在思考這個問題，直到最近幾年才有了一個比較正式的回答，就是我們經常提到的深度學習，具體來說是一個多層卷積神經網路。上圖展示了這樣一個卷積神經網路的例子，在卷積神經網路的左邊輸入的是一張圖像的數據，右邊輸出的是我們期待的圖像所屬類別。在這個網路中我們可以看到每一個藍色的方框都代表一次卷積操作，之所以叫它多層卷積神經網路就是因為一張圖片從輸入原始數據到輸出對應類別需要經過多次卷積操作，像這個網路需要經過22層卷積才能準確識別出圖像所屬的類別屬性。每個卷積都會有一個卷積核，這個卷積核就是我們希望從海量數據中學習到的參數，學習不同的任務可以得出不同的參數。而這個學習訓練的演算法一般是根據具體任務通過使用反向傳播演算法進行精準識別並去學習出每一個卷積核的對應參數來。那麼這樣一個卷積神經網路可以達到怎樣的圖像識別性能呢？

這個問題也是在近幾年才有了一個比較好的回答，我給大家舉個例子： ImageNet比賽是一項解決通用圖像識別分類問題的比賽，通過統計計算機識別並歸類數據集中一千類圖片的錯誤率來衡量其視覺識別能力的高低。人如果參加ImageNet，錯誤率會保持在5.1%左右。而在深度學習面世之前的2011年，ImageNet冠軍的錯誤率可達到25.8%，但在2012深度學習面世以後，ImageNet冠軍的錯誤率一下降到了16.4%，並且從那之後一直處於直線下降的狀態，直到2015年的正確率已經下降到比人還低的3.57%。在人工智慧的圍棋還未超越人類的2015年，計算機在通用圖像識別領域的性能已經超越了人類，能達到這樣的成績，卷積神經網路功不可沒。

2.2 進一步發展的卷積神經網路

上圖是近幾年我們常用的深度卷積神經網路的大概結構，深度卷積神經網路最早是由Yann LeCun在1989年提出，當時是一個僅有5層的卷積神經網路，現在Yann LeCun在Facebook的人工智慧研究院作為主任繼續推進卷積神經網路的研究。最初卷積神經網路的層數非常的淺，僅有5層，並且那時只能完成一些手寫體方面的簡單識別任務。在那之後人們對卷積神經網路的研究持續了二十多年，一直到2012年，人們才提出能夠勝任像ImageNet這樣複雜識別任務的更先進的卷積神經網路。AlexNet在2012年藉助這樣一個8層的卷積神經網路網路成為當年ImageNet比賽的冠軍，從那之後，又有很多不同的卷積神經網路被研發出來，總的趨勢是越來越深。例如2013年達到19層的VGG、2014年Google提出的達到22層的GoogLeNet，而2015年微軟亞洲研究院研製的多達152層的卷積神經網路ResNet其圖像識別性能已超越人類。從卷積神經網路的發展我們不難看出，網路越深其表達能力越強，卷積神經網路所能表達的數學函數複雜程度就會越高，這就使其在處理複雜圖象識別任務時能夠達到更高的正確率。當然隨著網路加深增多的是卷積盒的參數，對應計算量與深度學習的訓練難度也會增大，接下來我將講述近幾年大家在研究深度學習時面臨的三項核心問題以及提出的一些能夠解決相應問題的演算法思想。

2.3 視覺問題的深度學習方法

之前提到的ImageNet比賽是一個通用的模擬圖像識別與分類的比賽，並不解決實際問題。與圍棋類似，並不能為我們創造任何經濟價值。如果想應用於實際中的視覺識別情景則還需解決以下幾大類問題：語義分割、物體檢測、對比驗證。

2.3.1 語義分割

圖像分類問題需要識別一張圖片並告訴我們這張圖片中物體的類別，簡而言之就是輸入一張圖片，給出一個類別。語義分割就是希望針對一張圖片中的每個像素都輸出一個類別，其中有很多解決方案，例如這幾年提出的FCN、Enet、PSPNet或ICnet等等。這些方法背後的基本框架都是全卷積網路。這裡的全卷積網路與剛才提到的分類網路唯一不同之處在於全卷積網路並不只輸出一個分類標籤，而是輸出多個分類結果，每個分類結果都對應了圖像中的一個像素的類型值。訓練時會對每個像素分類的結果進行誤差計算，並用反向傳播演算法得出訓練後的網路參數。

2.3.2 物體檢測

初期的物體檢測準確率很低，無法滿足應用需求。近幾年隨著Faster RCNN、RFCN、SSD等方法的出現，物體檢測的準確率已經基本達到實際應用的需求。以上這些基於深度學習的物體檢測方法同樣使用全卷積網路來預測出物體的每一個位置，在推斷出此區域是否屬於某個物體的同時對物體的類別、位置與大小進行預測。與之前的預測相比，物體檢測增加了位置與大小兩個預測維度。如果對這樣的預測的結果還不滿意的話也可像Faster RCNN這樣將相應區域的圖片或特性分離出並再過一次網路進行第二次的分類與回歸，這種對目標的多重計算有助於提升輸出結果的準確性。目前最好的物體檢測方法就是類似於Faster RCNN這樣分兩階段的方法，如果大家想嘗試這種物體檢測方面的應用也可從此方法開始。

2.3.3 對比驗證

對比驗證簡單來說就是對兩個圖像進行對比並推斷這兩個圖像是否為同一個類別，最簡單的應用就是人臉識別。例如藉助計算機將手機拍攝的一張人像照片與一張身份證上的照片進行對比並推斷是否為同一個人。這項技術在淘寶、支付寶等平台都有應用，也可用與跟蹤和ReID等方面。這裡的跟蹤是指用一個攝像頭拍攝連續多幀照片後，識別並鎖定第一幀里的某個物體，然後跟蹤後續幀中這個物體的移動軌跡。如果這些用於跟蹤物體的圖片來自不同的攝像頭，那麼這就變成了一個ReID問題。ReID在安防領域是一個非常重要的應用，例如一個小偷在A攝像頭下作案時被拍攝圖像後，我希望根據這張圖像在其他攝像頭中搜尋並鎖定這個小偷，以此來推測其作案移動的路徑，毫無疑問這會為警方的刑偵破案提供很大幫助。無論是人臉識別還是RelD，其技術背景都是Siamese network。它的原理很簡單，就是將兩張圖片經過同一個網路提取特徵。在訓練此網路時我們希望盡量縮小同一張人臉照片輸出結果的差距，擴大不同人臉照片輸出結果的差距。通過這種訓練方式能夠讓網路學習到如何分析比對同一張人臉具有什麼相似的特徵，不同的人臉具有什麼不同的特徵。在人臉識別方面，計算機更早地超過人類。大概2013年在LFW人臉驗證比賽上，人類對於臉部的識別驗證準確率在97%左右，而計算機已可達到99%以上，這無疑是深度學習在人臉驗證領域的突破。

之前我與大家分享的都是一些籠統的方法，接下來我會結合過去我在安防與自動駕駛領域的工作經驗為大家介紹一些研究成果，

3. AI+安防

首先說一下安防，在安防領域有以下幾類大家比較關心的問題。第一個問題是通過攝像頭確認目標的位置也就是「人在哪裡？」。知道人在哪裡之後就需要明確目標屬性「你是誰？」、「你從哪裡來？」、「你要到哪裡去？」這些看似充滿哲學意味的問題同樣也是安防領域最重要的三個問題。回答這三個問題之後我們還希望確認目標的行為特徵「人做了什麼？」這對安防領域而言同樣重要。接下來讓我們看一下，如何解決這幾個問題。

3.1 「人在哪裡？」

首先我們需要確認「人在哪裡？」。安防領域中最基礎的便是對物體的檢測，例如上圖展示了一個在安防場景里進行人物檢測的實例。我們使用類似Faster RCNN技術對這樣一個安防場景中人的上半身進行檢測，檢測上半身主要是因為人最重要的特徵集中在上半身，而下半身經常會被其他物體遮擋，同理上半身的特徵暴露幾率更高，更容易進行特徵識別。因為傳統Faster RCNN方法在識別速度上處於劣勢，所以我們對Faster RCNN進行了一些簡化，使其在識別速度上有了比較大的提升，並且能夠允許我們僅藉助移動端GPU就可實現實時檢測的效果。

為了驗證此演算法的運行極限，我們進行了一個規模更大的實驗。此實驗場景為北京站前廣場，這裡人流密集，比一般的監控場景更複雜，我們想通過此實驗測試我們演算法可同時檢測人數的極限。經過測試我們發現即便在如此大的場景之下演算法依舊能夠較穩定地檢測出場景中中絕大多數行人，漏檢與誤檢幾率也維持在較低水平。我們在確認目標位置之後需要進一步確認目標的移動軌跡與行為動機。

3.2 「人從哪裡來，到哪裡去？」

上圖是一個較典型的物體跟蹤實驗情景，我們讓這些群眾演員隨機遊走，通過深度學習方法對每個人的運動軌跡進行跟蹤。從左上角的圖中我們可以看到每個人身上都會有一個圈，如果圈的顏色沒有變化說明對這個人保持正常的跟蹤狀態。可以看到利用這種檢測跟蹤技術可穩定地跟蹤大部分目標。藉助攝像頭輸出的深度圖，我們還可以如右下角圖片展示的那樣得出每個人在三維空間中的位置並變換視角進行監控，或是如在左下角圖片展示的那樣得到一個俯視的運行軌跡，這樣就可得知每個人在監控畫面當中的位置動態變化軌跡。

3.3 「這些人是誰？」

跟蹤上每一個人之後，更重要的是確認跟蹤目標的身份。安防領域的終極目標就是希望明確監控畫面中每個人的身份信息，而能從一個人的圖像中獲取到的最明顯的身份特徵信息就是人臉。我開發了這樣一項技術——遠距離人臉識別。在上圖展示的大場景中我們可以看到其中大部分人離攝像頭的距離至少有30米～40米，在這樣一個遠距離監控場景下人臉採到的圖像質量會出現明顯的損失，例如人臉的位姿變化。我們希望藉助在這樣一個不佳的監控場景中獲取的人臉圖片與人臉特徵庫中的證件信息進行比對並獲取目標人物的身份信息，其原理也是剛才提到的Siamese Network——通過使用幾千萬甚至上億數據進行訓練，得出一個較為穩定的人臉特徵並在人臉庫中檢索出符合此特徵的目標人物身份信息，從而識別目標身份。

3.4 「這些人在幹什麼？」

安防領域最後關心的是目標的行為特徵「這個人在幹什麼？」其本質是明確每個人的各個關節的運動狀態，我們稱之為POSE識別。雖然POSE識別看上去並不屬於檢測、跟蹤或是語義分割的範疇，但我們也可將其歸結為一種物體檢測，只不過我們檢測的不再是人的運動軌跡，而是檢測每個人的脖子、肩膀、肘關節等部分的相對位置，這與之前的物體檢測相比更為複雜。近幾年，藉助深度學習技術，POSE識別取得了非常明顯的進步。微軟Xbox 360上配備的kinect便是通過可感知深度的攝像頭對一兩個人進行POSE識別而現在隨著技術的發展，即便僅通過普通的RGB攝像頭也能實現對整個廣場上多個目標同時進行POSE識別，這也是近幾年深度學習的一個重要突破。通過這種實時POSE識別我們不光可識別每個人在廣場中的位置、運動軌跡，還可識別每個人的動作以及動作背後隱藏的人與人之間的關係，從而在監控畫面中獲取更多有價值的信息。

4. AI+自動駕駛

之前我們講述了AI在安防監控領域的一些應用，接下來我會介紹一些最近正在嘗試的有關自動駕駛方面的實踐。其實在自動駕駛領域也需要很多攝像頭數據，我們會在自動駕駛汽車中安裝多個攝像頭。傳統汽車領域車身上的一兩個攝像頭主要用來拍攝汽車周圍的環境圖像，而在自動駕駛領域則需要更多的攝像頭完成更複雜的工作。例如特斯拉已經在其還無法完全實現自動駕駛的汽車上安裝了7個攝像頭；如果想要實現真正的自動駕駛，為了保證畫面的無死角需要安裝更多攝像頭，那麼攝像頭採集的數據能夠幫助我們做什麼呢？很多信息需要通過攝像頭獲取，例如車道線、前後左右有無行人與車輛等障礙物、紅綠燈識別、可行駛區域識別等都是來源於通過攝像捕獲的數據。

4.1 車道線識別

圖片中展示的車道線識別，也許大家曾在一些行車記錄儀或ADOS中見過。但有別於傳統對單車道線的簡單標記，我們現在更關注的是多車道線識別。以前的車道線識別僅是左右各一根，而我們希望能夠識別一整條馬路上的多根車道線。這種對於多根車道線的識別，一方面可為處於自動駕駛狀態下的車輛提供變道、駛出高速等路徑更改操作必要的數據，另一方面能夠協助汽車進行橫向定位。如果能夠同時識別出所有車道，自動駕駛系統就能確認汽車當前在第幾條車道上，從而計算下一步需要切換到哪一條車道，這對自動駕駛而言十分重要。檢測車道線可歸結為對物體的檢測，大家可以將每條車道線理解為一個物體。當然在面臨彎曲的車道線時還需要估計每條車道曲線的參數，需要更多的處理分析以更好地模擬車道線的變化。

4.2 行人與車輛檢測

除了車道線識別，另外一個比較重要的問題是對行人與車輛的實時檢測。這是安全性上十分重要的兩項指標，需要知曉周圍車輛的位置、距離和速度才能獲取決策所需要的參數。上圖是我們在北京四環這樣相對簡單的封閉道路環境下進行的車輛檢測實驗。檢測車輛的演算法與我們之前提到的在安防領域裡檢測人的演算法類似，都是基於Faster RCNN架構，但自動駕駛領域對計算能力的要求更高。因為汽車的安全永遠擺在第一位，並且經過每一步計算更新出的行駛策略必須符合道路交通安全法規，而我們日常生活中使用的GPU遠無法達到如此嚴格的性能要求。因此我們需要花很多的時間將神經網路儘可能精簡與壓縮以實現更快的運行速度，從而能夠在有限的硬體性能下滿足對行人與車輛的實時監測要求。

我們還在更複雜的道路環境下測試了檢測演算法。上圖是一個人車混行的道路環境，難點一主要在於大量汽車造成的遮擋問題，難點二主要在於身著各色服飾的群眾，這種道路環境無論是對人還是對車輛的檢測而言都是一個非常大的挑戰。當然在如此複雜的環境下我們現有的演算法仍會出現一些錯誤，這還需要我們積累更多的數據與改進方案以實現進一步的提升，讓我們的自動駕駛系統能夠通過視覺層面上的識別保證在如此複雜人車混行道路環境下駕駛過程的安全性。

4.3 紅綠燈識別

視覺識別還可幫助我們識別紅綠燈的狀態，同樣是一個比較標準的物體檢測問題。但紅綠燈檢測與之前提到的行人與車輛檢測相比，困難之處在於紅綠燈在圖像中是一個非常小的物體，越小的物體檢測難度越大。為了解決此問題我們提高了標準檢測方法輸出的圖像解析度，提升最後一層深度學習網路對細小的物體的檢測敏感度。這樣便可幫助我們對紅綠燈等小物體實現更準確的檢測。上圖是我們在五道口附近一個道路環境比較複雜的路段測試紅綠燈檢測演算法的準確性，可以看到雖然這段路上有很多紅綠燈，但基本上大部分的紅綠燈都可以被準確檢測到。當然紅綠燈不一定需要通過視覺識別進行檢測，有時我們可以結合一些地圖信息進一步提高紅綠燈檢測結果的準確性，儘可能降低依賴純視覺圖像信息進行紅綠燈檢測時出現錯誤的概率。

4.4 可行駛區域識別

對自動駕駛系統而言最後一個關鍵問題是明確汽車的可行駛區域。所謂可行使區域就是理論上路面沒有障礙物，允許汽車安全通過的區域，那麼確定汽車可行駛區域的關鍵點就是確定路面上的障礙物，那麼如何識別道路上的障礙物呢？障礙物的種類有很多，故我們通過另一種思路來解決這個問題，也就是對可行使區域進行分割，這就使命題變為一個比較標準的圖像語義分割問題。上圖是我們在北京五環路上進行的測試，可以看到道路中的紫色部分為可行駛區域。在這種封閉環路上測試此技術的效果往往是比較穩定的，但距離將其推廣並應用於類似人車混行等複雜道路環境還很遠，需要積累更多數據才能進一步提高精度滿足道路安全駕駛的需求。同時除了識別可行使區域，大家可以看到圖像中的高亮部分展示的是車道線、交通標識等必要的目標識別。這些識別在為自動駕駛安全穩定運行提供必要的駕駛輔助信息的同時也為深度學習在準確預測可行使區域和監測車輛行人等方面提供了必要的參考數據。這便意味著這樣一個多任務網路需要利用有限的計算資源更加迅速地完成多個駕駛行為監測任務，從而在出現行駛突髮狀況時更快作出反應與干預，保證人車安全。而在深度學習領域，同時訓練兩個任務相對於單獨訓練一個任務所達成的效果更好。

以上是我想與大家分享的有關AI在攝像頭中應用的全部內容，謝謝大家。

Q&A

Q1：您在分享中提到可用手機等移動設備實現基於AI視覺的物體檢測，那麼關於這方面的一些具體性能參數是什麼？

A：需要強調的是，倒不是說在手機上完成類似的任務，我們希望將相關計算設備儘可能集成到攝像頭中，因此開始我們使用了可裝配在移動設備上的Tegra系列晶元進行測試。我們希望將其作為運算單元嵌入各種各樣的物聯網設備中。

Q2：如果需要移植則涉及到模型的精簡與優化，那麼經過移植、精簡與優化後的系統在識別上是否發生明顯的變化？是否造成影響？

A：影響確實存在，例如剛才提到的152層網路肯定無法穩定運行在移動設備上。當需要移植時我們會對網路的層數與寬度也就是卷積核的數量進行壓縮，從而保證網路在移動端的穩定運行，我們希望能夠在移動設備晶元上實現實時檢測的效果。同時我們會積累大量的數據對一個小的卷積神經網路進行重複訓練，從而使得它實現更好的效果。根據我的經驗，在一些特定場景下並不必須使用大型網路，例如我只需要在某個場景下對一個人進行檢測或是僅僅在手機端對一張人臉進行識別，這些場景並不需要像應對ImageNet那樣複雜的網路，很多情況下僅需一個很小的網路就可解決很多問題。當然無論網路大小，其設計依舊遵循之前提到的基本單元，如Google Net採用的Inception結構，ResNet採用的殘差網路作為基本單元，這些基本單元在結構上都遵循經典網路的設計。

Q3：您之前介紹對人的檢測與追蹤，那麼如何實現檢測與追蹤的良好結合？您在實際應用中結合兩種方法時遇到了哪些問題？如何解決？

A：實際上我們是將這兩步分開運行。我們先對每一幀或隔幾幀進行一次檢測從而保證準確檢測出幀中新出現的人，而後再檢測之後的幾幀或對比驗證每幀之間的差異從而實現目標跟蹤。因為在很多單一目標視覺跟蹤情景下只需要對第一幀進行檢測，後面依靠跟蹤演算法即可確定後續每一幀當中目標的位置。當然這種方法只能用於理想環境下跟蹤單一目標，在實際應用中更多的還是對多個目標的跟蹤。根據我們已有的經驗，如果能夠實現快速檢測就可將跟蹤問題轉化為對比問題，也就是只需將第一幀中的m個人與第二幀中的n個人分離出來並將兩者進行對比驗證，從而實現目標跟蹤。

Q4：那檢測是完全遵循等間隔運行還是根據追蹤反饋的執行度進行適配？

A：這個問題在於計算量。檢測演算法往往會帶來較大計算量，如果計算能力足夠那麼當然需要對儘可能多的幀進行檢測，相對跟蹤而言，檢測更加重要。跟蹤只是聯繫檢測的兩幀，其計算量較小。我們的設計原則是在用盡計算性能之前進行儘可能多的檢測工作。

Q5：在不同的任務當中汽車所需要的信息顯然是不一樣的。對物體進行分類與識別時需要採用一定深度的語義信息，而當面對如車道線檢測等信息時可能是比較淺的信息就可達到要求。那麼面對不同的任務，設計網路時有什麼原則可以分享一下嗎？什麼樣的任務適合什麼樣的網路？

A：我想說的是，即便拿了一個經典的網路我們也不太確定它的性能偏向。我們會選擇其中的一些包括GPU的各種不同的網路設計，包括經典的網路與壓縮之後的小網路，比較他們之間速度與精確程度上的差異，最後取綜合性能比較好的網路。即便如此我們始終需要強大的計算能力以及足夠數量的GPU來滿足性能需求。在這裡沒有必須遵守的原則，至少目前還沒有這樣一個答案。

Q6：前深度學習時代有人用圖象處理或簡單的機器視覺也可實現諸如人行橫道檢測的功能，那麼您有關於將這些傳統方法與深度學習相結合的想法嗎？

A：深度學習只是完成了其中一步，以車道線為例，識別一種車道線的方案是先進行分割而後再進行車道線擬合。分割這一步可用深度學習來完成，但是分割完之後的車道線成為一個個像素，將屬於車道線的像素重新統計合成的過程屬於傳統機器學習的範疇。當然也有很多的傳統跟蹤演算法可以實現更快的識別效果，我們會針對不同情景選擇最佳的結合方案達成最高效的監測識別方式。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 LiveVideoStack 的精彩文章:

※零基礎搭建雲上大數據平台

TAG:LiveVideoStack |