Mars說光場(3)—光場採集
雷鋒網按:光場技術是目前最受追捧的下一代顯示技術,谷歌、Facebook、Magic Leap等國內外大公司都在大力布局。然而目前國內對光場(Light Field)技術的中文介紹十分匱乏,曹煊博士《Mars說光場》系列文章旨在對光場技術及其應用的科普介紹。
曹煊博士系騰訊優圖實驗室高級研究員。優圖— 騰訊旗下頂級的機器學習研發團隊,專註於圖像處理、模式識別、深度學習。在人臉識別、圖像識別、醫療AI、OCR、哼唱識別、語音合成等領域都積累了領先的技術水平和完整解決方案。
《Mars說光場》系列文章目前已有5篇,包括:《Mars說光場(1)— 為何巨頭紛紛布局光場技術》、《Mars說光場(2)— 光場與人眼立體成像機理》、《Mars說光場(3)— 光場採集》、《Mars說光場(4)— 光場顯示》、《Mars說光場(5)— 光場在三維人臉建模中的應用》 ,雷鋒網經授權發布。
【摘要】— 光場顯示能在視覺上完全重現真實世界,但在顯示光場以前首先要採集光場,否則將會是「巧婦難為無米之炊」。傳統相機拍攝的2D圖片不能用於光場顯示[1],因此需要專業的光場採集設備。相關研究者已經建立了一系列光場採集的理論[2],並在光場採集技術的發展過程中出現了多種設計方案,受到廣泛關注和研究的主要有三種設計思路:(1)基於微透鏡陣列(Microlens Array)的光場採集;(2)基於相機陣列(Camera Array)的光場採集[3];(3)基於編碼掩膜(Coded Mask)[4]的光場採集。
1、基於微透鏡陣列的光場採集
基於微透鏡陣列的光場採集最早可以追溯到1908年Lippmann提出的集成成像(Integral photography)[5],集成成像為基於微透鏡陣列的光場採集奠定了重要的理論基礎。關於集成成像的發展歷史,可以參考Roberts在2003年的詳細梳理[6]。基於集成成像理論,MIT的Adelson在1992年嘗試採用微透鏡陣列來製造光場相機[7],斯坦福Levoy將集成成像應用於顯微鏡,實現了光場顯微鏡[8]。
基於透鏡陣列的光場採集主要依靠在成像感測器與主鏡頭之間加入一片微透鏡陣列,物體表面光線首先經過主鏡頭,然後經過微透鏡,最後到達成像感測器(e.g. CCD/CMOS)。如圖1所示,物體表面A點在FOP角度範圍內發出的光線進入相機主鏡頭並聚焦於微透鏡,微透鏡將光線分成4x4束,並被成像感測器上對應的16個像素記錄。類似的,空間中其它發光點,例如B點和C點,在其FOP角度範圍內的光線都被分成4x4束並被分別記錄。
微透鏡陣列的主要作用是將物體表面同一點在一定角度範圍內的各個方向發出光線進行離散化解耦,圖1中的微透鏡將光線離散化為4x4束,離散化程度由微透鏡光學參數、主透鏡光學參數及微透鏡與成像感測器之間的距離等多方面因素決定。
參照光場4D模型,微透鏡陣列好比(s, t)平面,成像感測器好比(u, v)平面。在基於微透鏡陣列的光場採集模型中,(s, t)平面微透鏡的數量決定了光場的圖像解析度。(u, v)平面像素數量決定了能採集光線的總數量,(u, v)平面像素總量與(s, t)平面微透鏡數量的比值即為光場角度解析度,也即採集視點個數。
圖 1. 基於微透鏡陣列的光場採集原理示意圖
基於微透鏡陣列的光場採集具有體積小,單次拍攝成像等優點。但也存在兩個明顯的缺陷,一方面是單視點的圖像解析度損失嚴重[9],例如使用4K(4096*2160)的圖像感測器採集4x4視點的光場,則圖像解析度在水平方向和垂直方向都降低到原解析度的四分之一,既單個視點圖像解析度只有1024*540。另一方面是採集光場的FOP角度較小,也即視差較小,只能在較小的角度範圍內變換視點。
儘管存在上述的缺點,但由於總體成本在可控範圍內,基於微透鏡的光場採集方案是商業化光場相機主要採用的方案。目前已經商業化的光場相機主要包括美國的Lytro和德國的Raytrix。Lytro是一款基於微透鏡陣列的手持光場相機,由斯坦福大學Ren Ng(Marc Levoy的博士生)在2005年提出 [10,11],並分別於2011年和2014年正式向市場推出第一代和第二代手持式光場相機Lytro[12]。相比傳統相機,Lytro的關鍵設計是在傳統相機中嵌入一塊微透鏡陣列,如圖2所示。物體發出的光線被主透鏡聚焦在微透鏡陣列平面,微透鏡陣列將光線分開並被圖像感測器分別記錄下來,從而同時記錄了不同方向上光線的強度。
圖 2. 美國Lytro基於微透鏡陣列的光場相機
Raytrix [13]是德國一家創業公司,同樣是基於微透鏡陣列的攜帶型光場相機[14]。Lytro主要面向大眾普通用戶,而Raytrix不僅面向普通用戶還面向工業和科研應用領域,如圖3所示。Raytrix擴大了採集光場的深度範圍[15]並開發了一套自動標定演算法用於標定光場相機[16]。
圖 3. 德國Raytrix基於微透鏡陣列的光場相機
Adobe Systems Inc. 的Todor Georgeiv在2006年研究了視點解析度與角度解析度之間的互相平衡關係[17],在2008年提出了一種統一的光場相機仿射光路理論[18]並提高光場解析度[19],基於該理論框架構造的光場相機如圖4所示。嚴格來說,Todor Georgeiv提出的光場相機與上述Lytro和Raytrix的基於微透鏡陣列的光場相機並不完全相同。圖4中透鏡陣列更靠近相機主透鏡位置,解耦合後的光線在成像感測器上形成的圖像與Lytro或Raytrix並不相同,因此從成像感測器原始數據提取光場的演算法也與Lytro和Raytrix不同。
圖 4. 美國Adobe Systems Inc.光場相機
2、基於相機陣列的光場採集
基於相機陣列的光場採集不需要對相機進行改造,但需要增加相機的數量。光線從物體表面發出,分別進入多個相機鏡頭,並分別被對應的成像感測器記錄。如圖5所示為4x4相機陣列,A點在半球範圍內發出各向異性的光線,其中FOP角度範圍內的光線進入了相機陣列,並被分成4x4束光線,每束光線被對應的鏡頭聚焦在成像感測器上,由此A點各向異性的光線被離散化為4x4束並被分別記錄。
對比圖1中基於微透鏡的光場採集方案,相機陣列通過多個鏡頭將物體表面同一點在一定角度內各向異性的光線解耦和,並離散為多束光線分別記錄。解耦和後的離散化程度由相機陣列的規模決定。相機數量越多,離散化程度越高。
參照光場4D模型,圖5中鏡頭陣列好比(s, t)平面,成像感測器陣列好比(u, v)平面。(s, t)平面鏡頭的數量,也即相機的數量,決定了光場視點個數。(u, v)平面所有像素數量決定了能採集光線的總數量。(u, v)平面像素總量與(s, t)平面鏡頭數量的比值即為單個視點解析度。一般而言,相機陣列中各個相機成像感測器的解析度一致,所以單個相機成像感測器的解析度即為光場視點解析度。
圖 5. 基於相機陣列的光場採集示意圖
相比基於微透鏡陣列的光場相機,基於相機陣列的光場採集方案具有兩個明顯的優勢:(1)採集光場的FOP角度較大,也即視差較大,可以在較大的角度範圍內變換視點。(2)圖像解析度不損失,因此單個視點的圖像解析度一般都高於基於微透鏡陣列的光場相機。但基於相機陣列的光場採集方案也存在成本高昂,體積較大的明顯缺陷,例如圖6中Jason Yang於2002年在MIT搭建出全世界第一套近實時相機陣列[20],由8x8共64個相機組成,單個視點解析度為320x240,光場採集速率為18FPS,延遲為80毫秒。
圖 6. Jason Yang於2002年在MIT實現的實時相機陣列
斯坦福大學Bennett Wilburn在2000年實現了數據編碼壓縮的光場視頻相機[21],之後進一步改進光場相機系統,在2004年展示了稠密光場相機陣列[22]。Bennett Wilburn設計的稠密光場相機陣列包含52個30fps的COMS成像單元,單個視點解析度為640x480,如圖7所示。
圖 7. Bennett Wilburn於2004年在斯坦福大學設計的稠密光場相機陣列
Bennett Wilburn在2005年進一步增加相機數量到約100個,構建了大規模光場相機陣列[23],並搭建了三種不同類型的大規模光場相機,如圖8所示,分別是(a)緊密排列的長焦鏡頭大規模相機陣列,主要用於實現高解析度成像。(b)緊密排列的廣角鏡頭大規模相機陣列,主要用於實現高速視頻捕獲和混合合成孔徑成像。(c)分散排布的大規模相機陣列。
圖 8. Bennett Wilburn於2005年在斯坦福大學設計的大規模光場相機陣列
由於硬體成本高昂,體積較大等缺點,目前To C端的應用中還沒有採用基於相機陣列的光場採集方案。曹煊在2015年提出稀疏相機陣列光場採集方案[24],利用壓縮感知和稀疏編碼大大減少了相機數量,降低了硬體成本,但仍然存在體積大的問題。Pelican是美國矽谷的一家創業公司,正在嘗試將相機陣列小型化。該公司在2013年實現了超薄高性能的相機陣列[25],如圖9所示。通過光學設計的優化[26]和光場超分辨演算法的應用[27,28],Pelican製造了小巧的相機陣列,並形成一個獨立的光場相機模塊。Pelican綜合了多種方法在保持相機陣列輕薄的前提下提升了所採集光場解析度[29,30]。
圖 9. 美國初創公司Pelican設計的超小體積高性能相機陣列
3、基於編碼掩膜的光場採集
基於微透鏡陣列和基於相機陣列的光場採集都有一個共同點——「陣列」。前者通過多個微透鏡構成陣列,犧牲圖像解析度換取角度解析度。後者通過多個相機構成陣列,在不犧牲圖像解析度的情況下增加了角度解析度,但是需要增加大量的圖像感測器。總體而言,視點解析度與角度解析度是一對矛盾因素,總是此消彼長。通過增加成像感測器數量來抵消這一矛盾會造成硬體成本的急劇增加。
上述兩種光場採集方案必須在圖像解析度和角度解析度之間進行折中。學術界最新出現的基於編碼掩膜的光場採集打破了這一局限。該方案通過對光場的學習去掉光場的冗餘性,從而實現了採集更少的數據量而重建出完整的光場。
如圖10所示,在傳統相機的成像光路中加入一片半透明的編碼掩膜,掩膜上每個像素點的光線透過率都不一樣(也稱為編碼模式),進入光圈的光線在到達成像感測器之前會被掩膜調製,經過掩膜調製後的光線到達成像感測器。利用提前學習好的光場字典,從單幅採集的調製圖像就可以重建出完整的光場。掩膜的編碼模式理論上可以採用隨機值,Kshitij Marwah證明了通過約束變換矩陣的轉置與變換矩陣的乘積為單位矩陣可以得到優化的編碼掩膜,採用優化後的編碼掩膜可以重建出更高質量的光場。
圖 10. Kshitij Marwah於2013年在MIT設計的掩膜光場相機
很多學者已經嘗試利用編碼掩膜來實現計算成像,例如國立台灣大學的Chia-Kai Liang 在2008年採用可編程的光圈結合多次曝光成像實現了光場採集[31]。美國MIT大學在掩膜相機方面的研究非常深入,MIT大學CSAIL的Anat Levin 於2007年採用編碼光圈實現了深度圖像的採集[32],MIT Media Lab的Veeraraghavan Ashok 在2007年採用掩膜實現了可以重聚焦的相機[33],後於2011年結合閃光燈和相機掩膜實現了對高頻周期變化的圖像進行高速攝像[34]。MIT Media Lab的Kshitij Marwah於2013年提出了基於掩膜的壓縮光場採集[35]。
基於編碼掩膜的光場採集方案最大的優勢在於不需要犧牲圖像解析度就能提高角度解析度。但該方案存在光場圖像信噪比低的缺點,這主要是由於兩方面的原因造成:(1)掩膜的透光率不能達到100%,因此會損失光線信號強度,導致成像信噪比低;(2)所重建的最終光場圖像並不是成像感測器直接採集得到,而是通過從被調製的圖像中進行解調製得到;本質上是基於已經學習的光場字典去「猜」出待重建的光場。
4、光場採集方案對比
上述三種主流的光場採集方案與傳統相機總結對比如下表。
表1. 傳統2D採集設備與光場採集設備的對比
採集數據維度 | 優點 | 缺點 | |
傳統相機 | R(x, y, λ, t) | 技術成熟, 價格低廉 | 只能採集平面圖片,等同於角度解析度為1X1的低階光場 |
微透鏡陣列 | R(x, y, θ, Φ, λ, t) | 體積小, 成本較低 | 圖像解析度損失嚴重 |
相機陣列 | R(x, y, θ, Φ, λ, t) | 基線大,視差大圖像解析度較高 | 成本高,體積大硬體同步困難 |
編碼掩膜 | R(x, y, θ, Φ, λ, t) | 體積小解析度不損失 | 信噪比低光場質量下降 |
基於微透鏡陣列的光場採集具有體積小巧,硬體成本低等優點。但其缺點也很明顯:1)光場視點圖像解析度損失嚴重,隨著視點數量的增加,單個視點解析度急劇降低。2)受到相機光圈的限制,光場中可觀察的視差範圍較小。
基於相機陣列的光場採集相比基於微透鏡陣列的光場採集具有更多優點:1)視點解析度不損失,由單個相機成像感測器決定。2)光場的視差範圍更大。但基於相機陣列的光場採集仍然面臨兩個問題:1)需要的相機數量較多,硬體成本高昂,例如採集7x7視點的光場需要49個相機。2)相機同步控制複雜,數據量大,存儲和傳輸成本高。
基於編碼掩膜的光場採集打破了角度解析度與視點圖像解析度之間的互相制約關係,利用「學習」的方法去掉光場冗餘性,從少量信息中恢復光場。雖然存在信噪比降低的問題,但在2K時代,解析度不損失這一優點使得該方案受到廣泛關注。
[1] Van Berkel C. Image Preparation for 3D-LCD[C]//Stereoscopic Displays and Virtual Reality Systems VI,1999.
[2] Chai J X, Tong X, Chan S C, et al. Plenoptic sampling[C]// Conference on Computer Graphics and Interactive Techniques. ACM Press/Addison-Wesley Publishing Co. 2000:307-318.
[3] Levoy M. Light Fields and Computational Imaging[J]. Computer, 2006, 39(8):46-55.
[4] Lanman D. Mask-based light field capture and display[C]// Ph.D. Dissertation, Brown University, 2011.
[5] Lippmann G. Epreuves reversibles. Photographies integrals[J]. Comptes-Rendus Academie des Sciences, 1908, 146(3):446-451.
[6] Roberts D E. History of Lenticular and Related Autostereoscopic Methods[J]. Leap Technologies Hillsboro, 2003.
[7] Adelson E H, Wang J Y A. Single Lens Stereo with a Plenoptic Camera[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1992, 14(2):99-106.
[8] Levoy M, Ren N, Adams A, et al. Light field microscopy[J]. Acm Transactions on Graphics, 2006, 25(3):924-934.
[9] Hoshino H, Okano F, Isono H, et al. Analysis of resolution limitation of integral photography[J]. Journal of the Optical Society of America A, 1998, 15(8):2059-2065.
[10] Ren N, Levoy M, Bredif M, et al. Light Field Photography with a Hand-Held Plenopic Camera[J]. Tech. Rep. CSTR Stanford Computer Science. 2005.
[11] R. Ng, 「Digital light field photography」, PhD. Thesis, Stanford University, 2006.
[12] https://illum.lytro.com/
[13] www.raytrix.de
[14] Raytrix, 「Digital imaging system for synthesizing an image using data recorded with a plenoptic camera,」 European Patent EP09005628.4 (April 2009).
[15] Perwass C, Wietzke L. Single lens 3D-camera with extended depth-of-field[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2012.
[16] Heinze C, Spyropoulos S, Hussmann S, et al. Automated Robust Metric Calibration Algorithm for Multifocus Plenoptic Cameras[J]. IEEE Transactions on Instrumentation & Measurement, 2016, 65(5):1197-1205.
[17] Georgeiv T, Zheng K C, Curless B, et al. Spatio-angular resolution tradeoffs in integral photography[C]// Eurographics Symposium on Rendering Techniques, Nicosia, Cyprus. DBLP, 2006:263-272.
[18] Georgeiv T, Intwala C. Light Field Camera Design for Integral View Photography[J]. Adobe Technical Report, 2008.
[19] Lumsdaine A, Georgiev, T, Full resolution lightfield rendering, Adobe Technical Report, 2008.
[20] Yang J C, Everett M, Buehler C, et al. A real-time distributed light field camera[C]// Eurographics Workshop on Rendering. Eurographics Association, 2002:77-86.
[21] Wilburn B S, Smulski M, Lee K, et al. The Light field video camera[J]. Proceedings of SPIE - The International Society for Optical Engineering, 2001, 2002:29--36.
[22] Wilburn B, Joshi N, Vaish V, et al. High-Speed Videography Using a Dense Camera Array[C]// Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on. IEEE, 2004:II-294-II-301 Vol.2.
[23] Wilburn B, Joshi N, Vaish V, et al. High performance imaging using large camera arrays[J]. Acm Transactions on Graphics, 2005, 24(3):765-776.
[24] Cao X, Geng Z, Li T. Dictionary-based light field acquisition using sparse camera array[J]. Optics Express, 2014, 22(20):24081-24095.
[25] Venkataraman K, Lelescu D, Duparr, et al. PiCam : an ultra-thin high performance monolithic camera array[J]. Acm Transactions on Graphics, 2013, 32(6):166.
[26] Tanida J, Kumagai T, Yamada K, et al. Thin Observation Module by Bound Optics (TOMBO): Concept and Experimental Verification[J]. Applied Optics, 2001, 40(11):1806.
[27] Baker S, Kanade T. Limits on Super-Resolution and How to Break Them[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2000, 24(9):1167-1183.
[28] Bishop T E, Zanetti S, Favaro P. Light field superresolution[C]// IEEE International Conference on Computational Photography. IEEE, 2009:1-9.
[29] Georgiev T, Chunev G, Lumsdaine A. Superresolution with the focused plenoptic camera[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2011:78730X-78730X-13.
[30] Wanner S, Goldluecke B. Spatial and Angular Variational Super-Resolution of 4D Light Fields[M]// Computer Vision – ECCV 2012. Springer Berlin Heidelberg, 608-621.
[31] Liang C K, Lin T H, Wong B Y, et al. Programmable aperture photography: Multiplexed light field acquisition[J]. Acm Transactions on Graphics, 2008, 27(3):55.
[32] Levin A, Fergus R, Durand F, et al. Image and depth from a conventional camera with a coded aperture[C]// ACM SIGGRAPH. ACM, 2007:70.
[33] Veeraraghavan A, Raskar R, Agrawal A, et al. Dappled photography: mask enhanced cameras for heterodyned light fields and coded aperture refocusing[C]// SIGGRAPH. 2007:69.
[34] Veeraraghavan A, Reddy D, Raskar R. Coded Strobing Photography: Compressive Sensing of High Speed Periodic Videos[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2011, 33(4):671-686.
[35] Marwah K, Wetzstein G, Bando Y, et al. Compressive light field photography using overcomplete dictionaries and optimized projections[J]. Acm Transactions on Graphics, 2013, 32(4):1-12.
※揭秘群暉2019發布會,共赴存儲生態的造極之路
※第七家!滴滴獲北京市自動駕駛T3級路測資格
TAG:雷鋒網 |