當前位置:
首頁 > 新聞 > Mars說光場(2)—光場與人眼立體成像機理

Mars說光場(2)—光場與人眼立體成像機理

雷鋒網按:光場技術是目前最受追捧的下一代顯示技術,谷歌、Facebook、Magic Leap等國內外大公司都在大力布局。然而目前國內對光場(Light Field)技術的中文介紹十分匱乏,曹煊博士《Mars說光場》系列文章旨在對光場技術及其應用的科普介紹。

曹煊博士系騰訊優圖實驗室高級研究員。優圖— 騰訊旗下頂級的機器學習研發團隊,專註於圖像處理、模式識別、深度學習。在人臉識別、圖像識別、醫療AI、OCR、哼唱識別、語音合成等領域都積累了領先的技術水平和完整解決方案。

《Mars說光場》系列文章目前已有5篇,包括:

《Mars說光場(1)— 為何巨頭紛紛布局光場技術》;

《Mars說光場(2)— 光場與人眼立體成像機理》;

《Mars說光場(3)— 光場採集》;

《Mars說光場(4)— 光場顯示》;

《Mars說光場(5)— 光場在三維人臉建模中的應用》;

雷鋒網經授權發布。

【摘要】— 人眼產生三維立體視覺來源於心理感知和生理感知。根據能夠產生多少3D視覺信息,可以把現有顯示設備分為4個層級。第1等級是傳統的2D顯示屏:只能產生仿射、遮擋、光照陰影、紋理、先驗知識五方面的心理視覺暗示,從而「欺騙」大腦產生偽3D視覺。第2等級是眼鏡式3D電影:能提供部分生理視覺信息(雙目視差),但缺少移動視差和聚焦模糊。第3等級是VR頭盔:具有更多的生理視覺信息,能同時提供雙目視差和移動視差,但仍然缺乏聚焦模糊。第4等級是光場顯示:能提供所有的心理和生理視覺信息,可以在視覺上逼真重現真實世界。

1、人眼的立體成像機理

1.1 心理感知

眾所周知,人眼能感知到遠近深度信息的一個重要方面是因為我們擁有兩隻眼睛,從而可以從雙目視差中判斷物體深度。然而雙目視差並不是我們感知三維世界的唯一途徑。人眼對三維環境的感知主要可以分為心理感知和生理感知。其中心理感知主要是通過仿射、遮擋、光照陰影、紋理、先驗知識五方面的視覺暗示[1,2],從而「欺騙」大腦感知到三維信息,如圖1所示,儘管是在平面上繪圖卻能產生一定的三維視覺。

Mars說光場(2)—光場與人眼立體成像機理

圖 1. 人眼感知深度的心理暗示信息

(1)仿射:其直觀的感受是「近大遠小」,隨著物體與人眼的距離減小,物體在人眼的成像越大。

(2)遮擋:更近的物體會遮擋更遠的物體,通過相互遮擋關係可以判斷物體間的相對遠近關係。

(3)光照陰影:不同方向的光照會在物體表面產生不同的陰影,通過對陰影模式的判斷可以推斷物體的三維形狀。

(4)紋理:通過有規律重複的動/靜態特徵分布產生立體視覺。

(5)先驗知識:人類在觀看大量物體以後會總結一些基本的經驗,例如天空中的飛機和風箏都非常小,但飛機比風箏距離人眼更遠。

1.2 生理感知

上述五種心理感知上的立體視覺通過平面介質即可呈現,例如手機屏幕、電視屏幕、畫布等。然而立體視覺的生理感知需要對人眼產生特殊的視覺刺激,無法通過2D平面介質呈現。立體視覺的生理感知主要包括雙目視差、移動視差、聚焦模糊[3],分述如下。

(1)雙目視差(binocular parallax):如圖2所示,視差即同一個物體在左右眼中所成的像之間的輕微偏差。所觀察的物體越近,則視差越大。所觀察的物體越遠,則視差越小。為了避免左右眼視差所產生的重影,人眼會動態的調節視線的匯聚方向。當我們觀看漫天繁星時,雙眼的視線方向幾乎平行,當我們觀察自己的鼻尖時,雙眼的視線方向會相交於鼻尖,通過雙眼匯聚的角度可以判斷物體的遠近。雙目視差的感知必須依靠雙目協同工作才能完成。

Mars說光場(2)—光場與人眼立體成像機理

圖 2. 生理視覺信息(雙目視差與雙目匯聚)

(2)移動視差(motion parallax):如圖3所示,當遠近不同的物體在空間中移動時,在人眼中產生的位移會不同。當發生同樣的空間移動時,遠處的物體在人眼中產生的位移更小,近處的物體在人眼中產生的位移更大。例如當我們在移動的汽車上觀看窗外的風景時,近處的樹木總是飛快的向後移動,而遠處的高山卻移動緩慢。與雙目視差不同,單眼就可以感知到移動視差。例如鴿子雖然有雙眼,但是兩隻眼睛位於頭部的兩側,雙眼的視野範圍並不重合,因此鴿子無法依靠雙目視差來感知深度。鴿子主要依靠移動視差來判斷物體遠近,從而完成著陸和啄食等動作。

Mars說光場(2)—光場與人眼立體成像機理

圖 3. 生理視覺信息(移動視差)

(3)聚焦模糊(Accommodation):如圖4所示,人眼的睫狀肌扮演著相機鏡頭的調焦功能,從而使聚焦平面上的物體清晰成像,非聚焦平面的物體成像模糊。如圖4所示,當睫狀肌緊繃時,人眼聚焦在近處平面。當睫狀肌舒張時,人眼聚焦在遠處平面。單眼即可感知到聚焦模糊。當我們舉起大拇指,用單眼去觀察大拇指上的指甲蓋紋理時,門口的盆栽以及牆上的油畫變得模糊了。當我們用單眼試圖看清盆栽或者油畫時,大拇指卻模糊了。根據睫狀肌的屈張程度和對應的聚焦模糊反饋,視覺系統可以判斷出物體的相對遠近。

Mars說光場(2)—光場與人眼立體成像機理

圖 4. 生理視覺信息(聚焦模糊)

2、如何滿足人眼的視覺要求?

2.1 傳統顯示屏

從黑白到彩色,從CRT到LCD/OLED,從720p到4K,顯示設備的色彩還原度和解析度在不斷的提高,然而卻始終沒有顯示維度的突破。根據7D全光函數的描述,目前的2D顯示屏可以在(x, y)位置顯示不同的像素。但每個像素在可視角度(一般為120度)範圍內不同的方向發出的光線卻是近似相同(或同向衰減)。因此2D顯示屏只能提供各向同性的光線,不能呈現光線的方向信息(θ, Φ),如圖5所示。換句話說,傳統顯示屏只能呈現(x, y, λ, t)四個維度的信息,只能提供上述仿射、遮擋、光照陰影、紋理、先驗知識這五種心理感知信息。然而對於雙目視差、移動視差、聚焦模糊三方面的生理感知卻無能為力。首先、左右眼從顯示屏接收到的圖像完全一樣,因此不能產生雙目視差。其次、當人眼在屏幕前左右移動時,顯示屏所呈現的內容會產生相同的位移,因此無法提供移動視差。最後,顯示屏上所有像素的實際發光位置到人眼的距離都是一致的,並不會引起人眼睫狀肌的屈張,所以顯示屏無法提供動態聚焦。

Mars說光場(2)—光場與人眼立體成像機理

圖 5. 傳統2D顯示器各向同性光學特性

2.2 3D電影

3D電影除了提供傳統顯示屏的心理視覺感知信息,還能提供雙目視差這一生理視覺感知信息。如圖6所示,3D電影通過一副立體眼鏡將兩幅具有細微偏差的圖像分別呈現給左右眼(當取下立體眼鏡,直視大屏時會看到兩幅重疊的圖像),讓人眼感知到雙目視差,進而讓大腦融合左右眼圖像產生三維信息。立體眼鏡的工作原理又包括分光式、偏振式、快門式三種,這裡不再展開討論。然而,3D電影只提供了雙目視差這一種生理視覺信息,並不能提供移動視差和聚焦模糊。舉個例子,如果是一場真人話劇,左側的觀眾應該看到演員的右側臉;而右側的觀眾應該看到演員的左側臉。然而在3D電影院中,左側和右側的觀眾看到的都是演員的同一個側臉。即使觀眾戴著立體眼鏡跑動到電影院的任一位置,所看到的仍然是同一個視點。換句話說,3D電影院呈現的圖像並不會因為觀看位置的移動而更新視點圖像。由於缺乏移動視差和聚焦模糊,觀看3D電影時雙目視差告訴大腦看到了3D場景,而移動視差和聚焦模糊又告訴大腦看到了2D場景,大腦會在3D和2D這兩種狀態之間不停的切換。由於雙目視差與移動視差和聚焦模糊之間的衝突,從而導致「燒腦」。這也是大部分人群第一次體驗3D電影時會產生不適感的主要原因。當大腦適應這種相互衝突的3D視覺後,不適感會明顯減輕,但是所體驗的視覺效果還是無法與真實三維世界相媲美。

Mars說光場(2)—光場與人眼立體成像機理

圖 6. 3D電影產生立體視覺原理

2.3 虛擬現實(VR/AR)

虛擬現實(Virtual Reality,VR/AR/MR都在本文討論範圍內)頭盔屬於頭戴顯示設備(HMD,Head Mounted Display)的一種[4,5]。相比3D電影,虛擬現實頭盔不僅能提供雙目視差,還能提供移動視差,從而帶來更豐富逼真的立體視覺體驗。虛擬現實頭盔主要利用準直放大透鏡(Collimating Lens)將眼前的顯示屏圖像放大並拉遠。如圖7所示,虛擬現實頭盔的顯示屏與透鏡光心的距離略小於透鏡焦距,屏幕上某一真實像素髮出的光線經透鏡折射進入人眼,沿著折射後光線的反向延長方向,人眼將感知到較遠處的虛擬像素。同樣的兩套準直放大光學顯示系統分別為左右眼提供不同的圖像。

Mars說光場(2)—光場與人眼立體成像機理

圖 7. 虛擬現實頭盔準直放大光路示意圖

相比於3D電影院,VR頭盔最大的改進之處在於它能提供移動視差。當人眼移動到不同的位置或旋轉到不同的方向時,VR頭盔會提供不同視點的圖像。仍然以觀看演員為例,在3D電影院中無論觀眾移動到任何位置或旋轉到任意方向,所看到的都是演員的同一個側臉。而在VR中,隨著觀眾的移動,可以看到演員的左側臉、右側臉、下巴等不同的視點。正是由於VR所提供的移動視差,使得觀眾從導演預先設定的觀看視角中脫離出來,可以從自己喜歡的角度去觀察。這是VR能夠提供強烈沉浸感的主要原因之一。

那麼VR頭盔是不是就能在視覺上完美地重現真實三維世界呢? 答案是:還差一個關鍵要素,那就是聚焦模糊。VR頭盔能同時提供雙目視差和移動視差,但目前在售的VR頭盔中都不能提供聚焦模糊(Accommodation)。VR頭盔中使用的顯示屏與主流手機使用的顯示屏都屬於LCD/OLED範疇。舉個例子,真實環境中人眼看到遠處的高山和近處的人物是分別接收了從遠近不同地方發出的光線。然而VR屏幕中出現的高山和人物都是從距離人眼相同距離的顯示屏上發出的光線。無論人眼聚焦在「遠處」的高山還是「近處」的人物,睫狀肌都是處於相同的屈張程度,這與人眼觀看實際風景時的聚焦模糊狀態是不相符的[6,7]。

引起VR眩暈主要有兩方面的原因:(1)運動感知與視覺感知之間的衝突;(2)視覺感知中雙目視差與聚焦模糊之間的衝突;詳述如下。

人體主要依靠前庭、本體感覺、視覺三方面的感知途徑綜合推斷出人體的位置、運動狀態、姿態等信息。一方面,人耳的前庭內有3個半規管,每個半規管就像半瓶水一樣;當人體運動時,前庭內的「半瓶水」就會晃動,再加上本體感覺的信息,大腦從而推斷出目前的運動加速度和姿態。另一方面,人眼視覺能感知周邊三維環境,從而反向推斷出目前自身的位置等信息,類似與SLAM的工作原理[8]。在早期的VR設備中,由於定位精度、渲染速度,顯示屏刷新頻率等技術的限制,當身體移動時,VR頭盔呈現畫面並不準確和及時。例如在VR中「走獨木橋」,身體已經移動而雙目圖像並未及時更新,此時前庭和本體感覺告訴大腦身體已經移動,而VR視覺告訴大腦身體沒有移動,從而導致大腦產生困惑,這可以總結為「身已動,而畫面未動」。再例如在VR中「坐過山車」,雙目圖像快速的切換讓大腦以為身體在快速的上下移動,而實際上身體卻是靜止的坐在椅子上,會導致大腦產生困惑,這可以總結為「畫面已動,而身未動」。隨著VR設備在屏幕刷新率的提高、移動端圖像渲染幀率的提升、交互定位精度的提高,以及萬向跑步機和體感椅的出現,引起VR眩暈的第(1)方面原因已經得到大幅緩解。

第(2)方面原因引起的VR眩暈才是當前亟待解決的主要問題。VR頭盔佩戴者始終聚焦在一個固定距離的虛擬屏幕上,而不能隨著虛擬顯示物體的遠近重聚焦(refocus)。例如通過VR頭盔觀看遠處的高山時,人眼通過雙目視差感知到高山很遠,但人眼並沒有實際聚焦到那麼遠。類似的,當通過VR頭盔觀看近處的人物時,人眼仍然聚焦在虛擬屏幕上,與雙目視差所呈現的人物距離不符。由於雙目視差和聚焦模糊所呈現的遠近距離不同,從而導致大腦產生深度感知衝突,進而引起視覺疲勞[9]。這種現象在學術上稱為ACC或者AVC(Accommodation-Convergence Conflics, Accommodation-Vergence Conflics)[10,11,12]。與此同時,目前VR頭盔的呈像平面為固定焦距,長期佩戴存在引起近視的潛在風險。如果希望VR取代手機成為下一代移動計算平台,首先就需要解決VR設備長時間安全使用的問題。目前來看,光場顯示是解決這一問題的最佳方案之一。

2.4 光場顯示

光場顯示包含全光函數中所有維度的光線信息,可以提供上述所有的心理視覺感知信息和生理視覺感知信息。目前光場顯示主要有:體三維顯示(Volumetric 3D Display)、多視投影陣列(Multi-view Projector Array)、集成成像(Integral Imaging)、數字全息、多層液晶張量顯示等多種技術方案。《Mars說光場(4)— 光場顯示》會進一步分析光場顯示技術的實現原理。

隨著顯示技術的演進,顯示設備能提供越來越豐富的視覺感知信息。根據所能呈現的視覺信息,可以將顯示設備分為4個等級,如圖8所示。2D平面顯示只能提供心理視覺信息來「欺騙」大腦產生三維立體視覺,屬於第1等級。眼鏡式3D電影不僅能提供心理視覺信息,還能提供部分生理視覺信息(雙目視差),屬於第2等級。現階段的VR/AR/MR頭盔在眼鏡式3D電影的基礎上進一步增加了移動視差,屬於第3等級。光場是終極顯示方式,能提供所有的心理和生理視覺信息,屬於第4等級。

Mars說光場(2)—光場與人眼立體成像機理

圖 8. 不同等級顯示技術所能提供的視覺信息範疇

[1] Geng J.Three-dimensional display technologies[J]. Advances in Optics and Photonics,2013, 5(4): 456-535.

[2] B. Blundell and A. Schwarz, Volumetric Three Dimensional Display System (Wiley, 2000).

[3] T. Okoshi, Three-Dimensional Imaging Techniques (Academic, 1976).

[4] O. Cakmakci and J. Rolland, 「Head-worn displays: a review,」 J. Disp. Technol. 2, 199–216 (2006).

[5] D. Cheng, Y. Wang, H. Hua, and M. M. Talha, 「Design of an optical see-through headmounted display with a low f-number and large field of view using a free-form prism,」 Appl. Opt. 48, 2655–2668 (2009).

[6] T. Inoue and H. Ohzu, ―Accommodation responses to stereoscopic three-dimensional display,‖ Appl. Opt., vol. 36, 4509-4515 (1997)

[7] Vienne C, Sorin L, Blondé L, et al. Effect of the accommodation-vergence conflict on vergence eye movements[J]. Vision Research, 2014, 100:124-133.

[8] Davison A J, Reid I D, Molton N D, et al. MonoSLAM: Real-Time Single Camera SLAM[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(6):1052-1067.

[9] D. M. Hoffman, A. R. Girshick, K. Akeley, and M. S. Banks, 「Vergence–accommodation conflicts hinder visual performance and cause visual fatigue,」 J. Vis. 8(3):33, 1–30 (2008).

[10] Mackenzie K J, Watt S J. Eliminating accommodation-convergence conflicts in stereoscopic displays: Can multiple-focal-plane displays elicit continuous and consistent vergence and accommodation responses?[J]. Proceedings of SPIE, The International Society for Optical Engineering, 2010, 7524:752417-752417-10.

[11] Hoffman D M, Banks M S. Disparity scaling in the presence of accommodation-vergence conflict[J]. Journal of Vision, 2010, 7(9):824.

[12] Takaki Y. Generation of natural three-dimensional image by directional display: Solving accommodation-vergence conflict[J]. Ieice Technical Report Electronic Information Displays, 2006, 106:21-26.

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

AI賦能媒體,中科聞歌推「聞海」大數據平台、「天湖」智算平台
對話洋蔥數學CEO楊臨風:人工智慧不是噱頭,而應該為教育目的服務

TAG:雷鋒網 |