單目視覺「寡頭林立」,這家初創公司如何玩轉雙目視覺
2017年3月,歐洲Euro-NCAP(安全評鑒協會)發布了新一系列包擴奧迪、豐田、路虎等在內的車型的碰撞測試結果,其中路虎的發現車型獲得了五星。獲得五星的路虎車型,搭載的主動安全系統中,前向採用了雙目攝像頭的方案,而這個方案也成為了它能脫穎而出的關鍵。
作為汽車主動安全系統的一個重要感測器,攝像頭已經在業內成名許久。聲明卓著的Mobileye用十餘年的時間將單目的性能發揮到了極致,被英特爾153億美金收購後更是成為了單目寡頭。敢於同其直面競爭者寥寥無幾,於是乎鮮有的幾家初創公司,選擇了從雙目的方案開始切入。
雙目系統的原理跟單目完全不同,需要的技術積累和克服的難點也不同。在新的賽道上,同業者不多,國外博世、大陸等廠商雖早有發力,但性能一般,而國內更是屈指可數。
成立於2017年的元橡科技,算是一家低調又少數的雙目立體攝像頭的軟硬體一體方案商。公司團隊雖小,但核心成員都有豐富的研發經驗,產品性能優異。
雙目方案需要神同步
2015年前後,國內ADAS市場迎來了一個高潮期,各種ADAS掛名的公司如雨後春筍般野蠻生長了起來。元橡科技創始人發現ADAS雖熱,但核心的視覺感測器能力還是差強人意,於是便萌生了出來創業的念頭。
在計算機視覺領域摸爬滾打了十餘年的元橡科技創業團隊,對攝像頭的軟硬體技術都熟捻於心。他們認識到在單目攝像頭的方案方面跟頭部競爭者有太多距離,一時難以追趕。
而在雙目方面,由於技術路線的不同,還有較大機會和空間。至此,自創立之初,元橡科技團隊就載著做雙目視覺方案的世界佼佼者的願景,順著軟硬體一體化的道路向前走。
雙目跟單目最大的區別是,前者需要軟硬體的聯合優化,這也是為什麼公司要做軟硬體一體的解決方案商。
雙目攝像頭的方案,CMOS融合圖像數據需要相匹配的ISP處理,現有的ISP方案都是針對單目的,不太適合做雙目的處理,所以元橡科技從ISP這個硬骨頭開始啃,爭取在相機的每個處理單元做到最優。
立體視覺的一個難點就是相機的同步問題。立體測量距離的基本原理是三角測量,用兩個攝像頭拍同一個景,通過圖像的差異來測量距離。
而為了達到這一效果,首先兩個攝像頭要做到同步。圖像的每一幀本身會因為時間的變化和外部環境的變化存在差異,而雙目測距的原理正是通過相同場景的不同視角來得出的,如果兩個相機在拍攝的時候不能達到同步,那麼就會造成測距的源參照物發生錯位,造成的連鎖誤差也是不可逆的。利用雙目攝像頭測距的原理得出的結果,也就本質上錯了。
立體視覺的另外一個難點就是兩個相機的一致性問題,就像天下沒有兩片相同的葉子,哪怕是工業流水線上生產出來的相機,也存在一定的差異性。
因此,為了使得立體相機達到同步拍攝,系統的軟體結構、運行機制都需要進行軟硬體調整,才能達到統一性。
市場上大部分宣傳能夠達到同步效果的,實際上還是用原有的ISP來做,但原來的ISP實際上是針對單目相機設計的,控制只能達到幀級別。元橡科技基於自身的技術,目前可以達到像素級別的對齊,這種技術在業內也屬領先。
用數據說話
雙目相機有一個非常關鍵的參數——Baseline,即兩個攝像頭之間的距離。距離越小,結構穩定性越好;但同時越小的間距,測量相同距離的難度也會越高。
雙目攝像頭在汽車上使用的環境非常惡劣,不僅要承受巨大的溫差變化,暴晒雨淋冰凍,還需要經受常年累月的顛簸。
由於雙目攝像頭測距的原理是三角測距原理,因此作為三角測量標準尺的底邊——攝像頭之間的相對位置是不能發生改變的,否則結果將會是錯的。產品結構的穩定性是隨著攝像頭間距的增大呈指數級別增加的,為此,保持雙目攝像頭結構的穩定性就成了頂要緊的事。
而間距越小,準確測距的難度就越大。這對於雙目攝像頭的發展而言是一個矛盾的存在。
元橡科技目前可以做到小於10cm的Baseline下,測距範圍達到100米,精度達到95%以上,測距性能指標是業內其他已知競爭對手的兩倍左右。高性能、小尺寸、低成本是公司產品的優勢。
正如之前《高工智能汽車》寫的一篇文章中所述(點擊瀏覽ADAS單目/雙目/三目到底有什麼區別?),雙目測距的方案對於兩個攝像頭的一致性要求非常高。但元橡科技使用的鏡頭,只是一般的鏡頭,並沒有採用很高的規格,國內舜宇,歐菲光生產的都可以使用。這是因為元橡科技通過自身的圖像矯正演算法,可以消除掉攝像頭差異帶來的問題。
這種技術得益於他們在日企中工作的經驗,日本在精密製造領域擁有相當的實力。在以往的工作經驗中,並不會尋找品質最好的鏡頭,因為不利於大規模產品化,於是在通用的鏡頭中尋找一致性較好的兩枚攝像頭,然後通過軟體演算法的調教,消除差異。5%-10%的畸變誤差都會刷掉大部分日本生產廠商。
鏡頭的安裝是一片片鏡片層層疊加在一塊,公司花了很大的精力去做非一致性的容忍。從30度到90度的鏡頭,都可以支持。另外廣角的非球面鏡片本身生產就有很大的難度,但團隊現在的技術也已經可以達到要求。
元橡科技核心人員透露,能攻克這些技術難關,需要耐心和靜心,它是一個基礎的研究,但國內的環境整體較為浮躁,個中不僅僅是後端演算法的彌補,還需要硬體層面的調整,少有團隊能沉下心來做事情。
單雙目的失真
單目跟雙目本身存在功能性上的不同,雙目是用來測距,單目是用來識別。簡而言之,雙目是在單目的基礎上加了一維深度信息。
單目是2D的,真實的世界是3D的,因此單目拍出來的2D照片失去了現實世界一個維度的信息,這個缺失的信息對於車載又是至關重要的。
為了接近真實環境,單目需要通過其他的信息來彌補缺失的另一維度的信息。這就是單目方案需要大量樣本庫的原因,單目需要首先識別物體,然後才能通過成像尺寸或者在圖像中的位置信息得到距離信息。無論是深度學習,還是傳統的方式,都是在補缺失去的信息。
單目的工作原理造成它常常會存在漏檢的情況,對於陌生的障礙物無法識別,這時候會直接導致事故。ADAS層級越高,視覺必須要得到距離來補充,才能得到一個完備的結果。
而雙目實際上是一個2.5D的感測器,攝像頭拍攝的圖像是2維的,雙目測距獲得的距離信息是一個0.5維度(無法獲取障礙物背部的信息),因此通常將雙目稱為2.5維的感測器。
雙目做ADAS不需要樣本庫,測距直接通過簡單的規則——將路面以及周圍突出的物體都視為障礙物,整個演算法是全白盒化的,不會存在識別不到的問題。而且一旦出現問題,就可以直接找到原因,不會像單目深度學習演算法是黑盒的邏輯。當然雙目能夠得到這樣的結果,一切都是建立在準確獲取測距結果的基礎上的。
單目的核心是資料庫和演算法的,但雙目是需要聯合優化,立體匹配,兩個相機的一致性,整個的優化流程都不一樣。博世的長期研發的團隊有數十人之多,但技術水平並沒有提高太大。
優化難度之所以較大,是因為雙目的優化需要軟硬體同時進行,而且本質上而言硬體的優化是重中之重。
因此對於調校的工程師而言,需具備硬體工程師的思維,只有這樣,才能讓硬體發揮到極致性能。能達到這些要求的工程師,業內給了一個稱號:全棧工程師,他們在國內非常稀少。
這些人才需要在軟硬體方面都具備一定的知識儲備,在光學成像、軟體演算法、硬體電路方面都得有所涉足,因此人才較為稀缺。
元橡科技的核心技術人員,已經有超過5年的團隊工作經驗,因此相互協調工作已經有了很大的默契。加上行業經驗,才能迅速的將產品更完善的展現出來。
元橡科技新招募的工程師很多都是從名校畢業的應屆畢業生,學歷至少為碩士。這些人才需要既懂硬體,又懂軟體。
他們大部分的背景是做視覺、晶元邏輯的,剛開始公司並不會急於員工進行開發,產生效益。而是會培養員工的各方面能力,只有這樣,才會使得新來的員工在後續的研發過程中,自然而然的具備合適的思維模式。
立體相機為何物?
立體相機並不是形態上必須是雙目或者多目,而是它所拍攝出來的圖片一定要經過立體的匹配,點對點的匹配和優化,最終得到一個稠密的視差圖,或者說深度圖。整個過程需要性能強大的處理器完成,沒有這個過程,是不能稱之為立體相機的。
三目的立體相機和三目成像相機也是有不同的。三個不同FOV的攝像頭,沒有立體匹配,就不能稱之為立體相機。原來的車載攝像頭解析度有限,因此三目成像相機本質上是一個二維相機,跟單目原理一樣,只是為了覆蓋更遠的距離,更廣的角度。
特斯拉曾想通過三目立體相機的原理,測算出距離。就是通過不同視差角的攝像頭拍攝圖像的重疊區差異性,計算得出障礙物距離。但是這種技術本身存在一個較大的技術難點,就是不同廣角的鏡頭拍照以及曝光的時間不同,兩個攝像頭拍照的時候成像的相同的位置時間是不一樣的,很難保證同步。
舉例來說,攝像頭長焦的和廣角的某一行像素點是同時曝光的,但其中只有少數幾個像素點能達到時間的絕對同步。剩下的大部分像素點曝光時間都不在一個時間點上。
這種微小的差異在高速運動中就會被放大,也就造成了雙目測距距離不遠的原因。所謂差之毫厘謬以千里,說的就是這個道理。
為了解決這個問題,在當前的技術條件下,除非CMOS廠家做一些工藝上的特殊處理,比如讓人們可以控制每一個像素點的曝光時間,但實現的難度比較大。
因為國際上知名的CMOS廠商都是巨頭,如索尼、三星等,他們的業務在車載領域佔比較小,而作為已經成熟的標準的工藝,是很難為一些企業做出調整、修改,明星如特斯拉都不行。
因此現階段而言,三目想要做成立體相機是很難的,短距離測距可能會有,但意義並不是很大。這也是特斯拉後來為什麼放棄做三目攝像頭(Mobileye提供技術支持)的主要原因。
在現有的基礎上,為了實現類似的三目效果,可行的方式是通過多個雙目相機實現,比如現在元橡科技就在嘗試做四目甚至六目的相機來實現不同測距範圍的多角度覆蓋,將雙目當做單目來用。
雙目需要FPGA來做
視覺方案不可避免的要用到高性能的處理器,但NVIDIA的三高處理器並不適合,FPGA的方案才是可取之道。
一般演算法驗證會在PC上用GPU來做,但做產品化並不會用GPU的方案。這與平台的適應性有關,一般來講,端上智能更適合用FPGA、晶元的方式,它需要完成大量高速的重複運算,最好是用高計算能力的專用晶元完成。
類似於NVIDIA的方案,實現一個通用計算平台,功耗大,即使是降到現在宣稱的15W,如果沒有主動散熱系統,還是很難正常工作的。NVIDIA的方案,更適合多感測器融合、無人駕駛大腦的場景。
之所以有些公司會嘗試用GPU的方案,是因為GPU 的開發相對簡單一些,大部分通過原有的C語言修改就可以使用。
元橡科技的FPGA已經迭代了好幾代,技術成熟需要走過無數的坑,沒有誰可以輕鬆跨過。
雙目的攝像頭是一個天然融合的感測器,它將深度學習和圖像學習糅合,使得後續的處理速度會非常快。
元橡科技使用FPGA的方式,將感測器深度圖像生成的時間壓縮到了毫秒級別,這意味著處理解析圖像數據,得出結果幾乎是實時的,給控制決策部分留下了非常充裕的時間。
傳統的GPU的方案,在處理圖像前,首先得將圖像緩存,這個時間大概會花費30ms左右的時間,之後完成圖像的特徵提取。因此縱使GPU的計算能力再強,但前面的緩存時間是沒有辦法忽略掉的。
而用FPGA的方案,則用時會很少,當圖片在從一個像素一個像素生成的過程中,就可以通過有限的幾個像素點計算對比出差異,提交給處理器得出計算結果。整個過程是幾乎實時完成的,為中央處理器做控制、決策留出了充沛的時間。
這也是為什麼在NCAP的評比中,路虎的雙目方案可以獲得滿分的原因。這裡面有一個核心的問題——系統的複雜性造成延時性不一樣。
雙目的趨勢
賓士2016年前只在S系的車型中試驗了雙目,但到了2017年的時候,其銷量最廣的E系列車型,都已經標配了雙目。
後來寶馬的5系也跟上了,而路虎走的更為激進。前視感測器中將雷達去掉,只用雙目的方案(但是它還是憑藉單一感測器拿到了N-CAP的第一名,英國當年的最佳安全車型獎)。
雙目能夠取得很好的效果,已經得到了國外主流的一些主機廠的認可。包括一些知名的Tier-1,也在發展自己的雙目能力,如博世、大陸等,Mobileye也在一直修鍊內功。國內主機廠需要看到這個趨勢。
儘管雙目擁有一定的技術優勢,但由於供應商太少,整體聲音較弱。國內無論主機廠還是市場對雙目方案的認可度、信任度都比較低。
只做高利潤的Tier-2
元橡科技的目標和定位都是做Tier-2,這不僅僅是因為想要快速佔領市場,必須依賴Tier-1等巨頭幫忙推進,另一方面,作為一個技術型的公司,擁有了一定的技術壁壘之後,只需要提供技術方案獲取最高利潤即可,並不需要去做生產製造。
生產製造是一個繁複冗餘的過程,需要完善的管理、精密的管控,一般Tier-1或者主機廠也會願意指定一些擁有相應製造實力的公司。
同時如果公司涉足了生產,就會潛在的成為原來一些有實力的製造商的競爭者,對於發展而言並不有利。因此元橡科技未來也不打算涉足生產製造環節,會像國外的科技公司一樣只提供技術方案。
目前元橡科技的人員有20餘人,已經拿到了眾多主機廠的合作訂單,會在近期完成一輪融資。將核心研發人員擴充到40人,周邊應用開發人員要達到20人,還要建立自己的FAE團隊,用來培養Tier-1或者主機廠的工作人員。
另外除了北京是核心研發的駐地外,元橡在上海也設立了產品應用的部門,用來服務長三角周邊的大量主機廠客戶。
公司希望將來把產品做成一個標準件,然後批量給主機廠、自動駕駛公司使用,而不是忙不迭的做一個又一個的定製項目。同時,未來希望做全球頂級的雙目視覺軟硬體方案提供商。
公司目前主要的合作夥伴將會是Tier-1、主機廠,自動駕駛相關的將會稍微偏弱,畢竟離應用太遠。但也會做一些典型的CASE,用來培育市場(元橡科技在OpenSpace中可以達到幾乎100%的可靠性,自動駕駛公司可以通過公司的方案來做路徑規劃)。
除了在車載領域的應用,元橡還涉足了機器人、無人機等領域。計算機視覺的技術,原本就是相通的,如果能服務於車載領域,那麼在消費領域和工業領域也順理成章。
※2018CES展之激進、浮躁、保守背後的中國力量
※中興通訊田鋒:智能汽車的「五大要塞」,主控晶元和操作系統決定安全
TAG:高工智能 |