當前位置:
首頁 > 最新 > 比iPhone X更牛X的三維視覺技術

比iPhone X更牛X的三維視覺技術

Google人工智慧與機器學習首席科學家李飛飛在Google I/O開發者大會表示人工智慧將成為「第四次工業革命的驅動力」,它將改變人類生活、工作和溝通的方式。在人工智慧的三個階段「弱人工智慧—強人工智慧—超人工智慧」的發展中,視覺信息的獲取是必不可少的,機器從對物體的識別到場景的理解都必須先獲取其三維信息以及位置關係。三維視覺將成為人工智慧的「殺手級應用」。

在過去十年間,人類在對圖像識別和圖像標註等基礎視覺領域已經取得了重大進展,基於這種二維圖像視覺在諸如人臉識別、工業檢測、安防以及汽車ADAS等方面得到了廣泛的應用,成為人工智慧的一些重要落地應用。隨著人工智慧的發展,二維信息無法滿足對真實場景的充分理解,所以各個大廠都在著力研究三維視覺的技術,如Intel的RealSense、Apple的TrueDepth,以及諸多廠家面向無人駕駛的多線激光雷達等,這些技術都在幫助機器獲取一個至關重要信息——深度信息,來實現三維人臉識別、手勢識別、獲知物體間的空間關係,以及視覺導航、路徑規劃、主動避障等工作。

三維視覺在強人工智慧階段必將是不可獲取的組成部分,是機器智能和企業變革的重要技術。接下來我們就三維視覺的技術方案給做一個系統介紹。

圖1 三維視覺技術方案分類

圖1列舉出了目前三維視覺的主要技術方案,其中三角測距中的非編碼方式的方案常見於工業檢測領域,這種方案我們暫且不討論。我們在這一期著重討論其它幾種方式的近距離三維視覺方案。

近距離三維感知設備我們稱之為深度相機,其中雙目相機即是利用雙攝像頭模擬人眼,通過計算空間中同一個物體在兩個相機成像的視差來獲得物體離相機的距離。

而ToF(Time of Flight)即飛行時間法,其測距原理是通過連續發射經過調製的特定頻率的光脈衝到被觀測物體上,然後接收從物體反射回去的光脈衝,通過探測光脈衝的飛行(往返)時間來計算被測物體離相機的距離。

三角法測距中的採用編碼方式的方案業內均定義為結構光方式。結構光法不依賴於物體本身的顏色和紋理,是採用主動投影編碼圖案(比如散斑、條紋光等)的方法來實現快速魯棒的匹配特徵點,能夠獲得較高的精度,也大大擴展了適用範圍。

各方案在三維數據的精度、獲取速度以及弱光環境表現的對比如下:

表1 三種主要的三維視覺技術方案對比

這幾種方案中尤以散斑結構光法因iPhone X中使用而被大家所熟知。

圖2 蘋果iPhone X的「齊劉海」——TrueDepth系統

iPhone X通過前置點陣投影器(也就是結構光投影儀)將超過30000個肉眼不可見的光點(紅外激光散斑點)投影到人臉,再根據紅外鏡頭接收到的反射光點,計算得到人臉三維圖。

圖3 散斑結構光法測量人臉三維形貌

這種空間編碼方式,是向空間投射了單幅隨機的激光衍射斑點,但是由於這些點並不能覆蓋空間上所有的區域,勢必在某些位置無法獲取到三維信息,導致其精度是有一定限制的,通常為毫米級精度,這也是為什麼iPhone X只是獲取了人臉的大致模型,在其FaceID應用中實際上只是應用了結構光方案判斷解鎖手機的是一個真實的人,而非平面照片或視頻,作為一種活體判斷防止被攻擊破解的手段。

這類散斑結構光的方案被國內奧比中光、華捷艾米等企業採用。主要應用於體感交互、手勢識別、人臉識別活體檢測等領域。

那是否有方案可以實現高精度的三維數據呢?答案是肯定的。這就是我們接下來要講的動態結構光的時間編碼方案,此種方案的深度相機的原理如下:

圖4 動態結構光的時間編碼方案原理

它同樣由一個攝像機和一個結構光投影儀組成,結構光投影儀向被測物體投射多組明暗相間的光柵圖像(隨時間可調製),攝像機同時拍攝經被測物體表面調製而變形的多組光柵圖像,通過一定演算法計算出被測物體的三維數據。

這種動態結構光方案的三維視覺其實在工業界早有應用,主要應用在逆向工程、三維檢測、三維建模等領域,這就是傳統的三維掃描儀,既然將它稱為儀器,也就可想而知其體積通常比較大,價格也很昂貴。

圖5 傳統的三維掃描儀

那是否存在一種深度相機方案,其精度高,體積小,價格也不那麼高呢?答案也是肯定的。這個就是MEMS微振鏡的方案(MEMS:微機電系統)。MEMS微振鏡是一種將可動結構晶元化的執行器,工作時晶元內部的鏡面可以高速擺動,以實現激光束的高速掃描。

圖6 MEMS微振鏡

基於MEMS微振鏡的深度相機與傳統的三維掃描儀最大的區別是結構光投影方式上,三維掃描儀採用DLP、LCOS等進行動態結構光的投影,而此深度相機是採用MEMS微振鏡與激光來進行掃描投影。

GIF

圖7 動態結構光投影示意圖(可以是紅光或者紅外光源)

採用MEMS微振鏡的投影方式,不僅克服了體積和成本上的缺點,同時由於這種投影系統是激光掃描式,投影並無光學放大鏡頭,也就沒有焦距的概念,是一個無需調焦的系統(free-focus projector),這也就使得基於MEMS微振鏡深度相機的工作範圍要比三維掃描儀要大很多。

GIF

圖8 MEMS深度相機掃描原理動態圖

GIF

圖9 基於MEMS微振鏡的深度相機所拍攝的大衛

基於MEMS微振鏡的深度相機可以實現亞毫米級,甚至更高的深度精度,相比較同樣小體積的散斑靜態結構光方案的深度相機,精度提升有至少一個數量級。而相比同樣精度的三維掃描儀,其體積小、重量輕、無需調焦等優勢特點擴展了高精度三維視覺的應用場景。

以下將結構光的三維視覺方案做一個綜合對比:

表2 基於結構光的三維視覺方案對比

MEMS深度相機所採集的亞毫米精度數據可以滿足三維人臉識別需求,實現真正用三維數據來作為識別判定依據。而非像iPhoneX中三維信息只能用於活體判斷,也避免出現如新聞中所報道的母子二人均可解鎖iPhone X的情況。

同時這種高精度深度相機所採用的MEMS微振鏡尺寸通常只有幾個毫米,功耗也只有幾十毫瓦,非常適合集成於如智能手機、平板電腦等攜帶型的設備中,為其增加三維人臉識別、三維掃描建模等功能。目前採用這種技術方案的國內外廠家有Intel的RealSense,知微感測(Zhisensor)的Argus等。

隨著人工智慧對視覺感測器的需求越來越高,高精度的三維視覺產品也將會越來越普及,在不遠的將來,機器擁有比人類更敏銳的視覺感知的確是完全可能的。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 iPhone 的精彩文章:

iPhone經濟學
iPhone6s迫於無奈降至「腳底價」,或成小米6勁敵

TAG:iPhone |