Facebook開源DeepFocus,實現逼真散焦效果,推動下一代VR
原標題:Facebook開源DeepFocus,實現逼真散焦效果,推動下一代VR
這使我們的系統適用於所有下一代頭顯技術。
(映維網 2018年12月20日)Facebook Reality Labs(FRL)在今年早些時候亮相了Half Dome,這款頭顯原型的眼動追蹤攝像頭、寬視場光學元件、以及自主聚焦的顯示器都預告著行業朝逼真VR體驗前進的下一步。通過調整顯示器以匹配用戶眼睛運動,Half Dome的變焦設計能夠令每一個虛擬對象清晰對焦。在為VR創建更為舒適、自然和身臨其境的感覺目標中,這一方法帶來了真正的進步。但要實現其所有的潛能,Half Dome的先進硬體需要搭載同樣先進的軟體。
在今年OC5大會的主題演講中,Oculus首席科學家邁克爾·亞伯拉什就透露過藉助可以實時實現「自然注視跟隨模糊」的AI渲染器DeepFocus,他們「在解決這個問題上已經取得了相當大的進步」。他同時表示Oculus將在未來幾個月內發表他們的研究成果。
今天,Oculus正式向我們分享了DeepFocus。這一基於AI的渲染系統能夠協助Half Dome實現模擬人類感知世界的散焦效果。它是第一款能夠實現如此效果的系統,可以模糊用戶當下無法聚焦的場景部分,並且是以一種逼真、實時的注視跟隨方式實現。於本月在日本東京召開的SIGGRAPH亞洲大會上,Oculus已經展示了相關的研究論文,他們同時開源了DeepFocus,包括系統的代碼和用於訓練的數據集,目標是幫助更廣泛的VR研究人員將模糊融入至他們的研究之中。以下映維網整理了Oculus團隊的具體分享:
渲染模糊對超逼真體驗而言十分關鍵
DeepFocus由FRL的多學科研究團隊開發。這與電影美學或炫酷的視覺效果無關。實際上,渲染模糊越精確,用戶就越不可能注意到它。FRL的視覺科學家瑪麗娜·贊諾麗(Marina Zannoli)很早就加入了DeepFocus項目,並認為對於真正逼真的體驗而言,關鍵是聚焦和散焦視覺效果的組合。贊諾麗指出:「我們最終的目標是提供與現實無法區分的視覺體驗。我們的眼睛就像是微小的相機:當它們聚焦於一個特定的對象時,不同深度的場景部分將看起來很模糊。那些模糊的區域有助於我們的視覺系統理解世界的三維結構,並幫助我們決定下一個焦點。儘管變焦VR頭顯可以在用戶注視的任何位置提供清晰的圖像,但DeepFocus使得我們能夠像現實世界一樣渲染場景的其餘部分:自然模糊。」
逼真視網膜模糊一個最大的潛在優勢是,其可以帶來更為舒適的VR體驗。FRL的顯示系統研究小組負責人道格拉斯·蘭曼(Douglas Lanman)解釋說:「重點是實現全天候的身臨其境。無論你是連續數小時開玩遊戲,還是查閱一個無聊的電子表格,眼睛疲勞,視覺疲勞,以及你願意花一天時間看著的精美圖片,所有這一切都很重要。」
在2015年Half Dome項目仍位於早期階段的時候,蘭曼就已經認識到了渲染模糊的必要性。即便開展項目只是僅數月時間,但早期原型已經展示了在VR中創造清晰焦點的積極前景。但基於軟體的散焦效果是一個主要障礙。我們的過程無法利用現有的技術來渲染非VR遊戲中的實時模糊,因為它們更多是與影視攝製方法有關,目標是產生炫酷的電影效果(如精美的散焦背景),並且專門用於平板顯示器和電視,而非奔著逼真感這個目的去。這種快速但不準確的「遊戲模糊」實現方法與Half Dome的任務背道而馳。對於Half Dome,其目標是忠實地還原光線進入人類視網膜的方式。
我們投入了數個月的時間來探索如何通過傳統技術來優化計算顯示,但結果仍然不夠快,無法產生真正的實時模糊,無法準確匹配物理現實。這些早期的努力揭示了在VR中渲染逼真模糊的雙重挑戰,亦即我們需要令人難以置信的高渲染速度,以及先進頭顯所需的高圖像質量水平。渲染模糊不是應用於場景時的一次性過程。注視跟隨的模糊必須實現快速,近乎即時的散焦效果,從而才能基本上匹配每個眼睛的運動。與此同時,其保真度無法單純通過降低非聚焦對象的解析度來實現。
蘭曼發現,單純地投入更多的處理能力來解決問題並不可行。對於2016年的Half Dome demo,其通過稱為累積緩衝渲染(accumulation buffer rendering)的過程實現了實時模糊,其中每個場景渲染32次。但這種方法可行的原因只是因為整個場景十分簡單,它不可能支持更廣泛的VR體驗,尤其是因為蘭曼專註於為整個VR社區提供所有的軟體解決方案。蘭曼指出:「我希望它能夠立即用於每一個遊戲,這樣我們就不必要求開發者改變他們的遊戲,我渴望開箱即用的解決方案。」
2. 將深度學習帶到VR
蘭曼決定開發由AI驅動的軟體,而不是被動地等待未來的處理器來滿足我們的要求,或者要求用戶自行提供更多的處理能力。具體而言,他希望利用深度學習,一種能夠通過對大量相關數據進行訓練,並從中學習如何執行特定任務的AI系統。深度學習演算法通常用於分析圖像,甚至是生成圖像。儘管晶元廠商一直在朝這個方向發展,通過在最新的晶元中添加兼容AI的學習核心來提高圖像質量的上限,但在與VR相關的系統中,深度學習卻少之又少。蘭曼說道:「我們決定利用那些正在推動行業趨勢的相同AI工具。不僅僅只是生成像素,而且要提供前所未有的真實感。」
對於這個深度學習戰略,蘭曼從聘請不列顛哥倫比亞大學的人工智慧研究員肖磊開始,後者的博士研究包括數值優化和計算攝影學的機器學習。蘭曼指出:「我相信當時是肖磊來到實驗室的第一天,我告訴他道,『我希望像Half Dome這樣的計算顯示器能夠首次實時運行,而且這個解決方案必須適用於Oculus Store中的每款內容,無需要求開發者進行重新編譯。」
對於已經成為FRL研究科學家的肖磊,他的任務是根據已經用於ASW 2.0幀平滑技術,以及大多數遊戲引擎都普遍提供的基本顏色和深度(RGB-D)輸入來生成逼真的模糊,而不是根據一些複雜的,與焦點相關的新參數。這一領域早已存在相關的研究,但在虛擬場景深度不連續處出現的偽影,以及現代VR顯示解析度下的運行時性能不足一直都在對其造成困擾。理論上,如果AI系統有著對散焦的充分理解,這時無論相鄰像素的相對深度或3D注視位置如何,它都可以預測相鄰像素是如何混合在一起。如果這種技術可以用於簡單的RGB-D輸入,我們就可以將逼真的模糊應用於幾乎所有的VR體驗。
為了實現成熟圖像理解和直接輸入的這種組合,肖磊建立了一個全新的神經網路架構:一個專門針對實時渲染模糊進行優化的架構。與用於深度學習圖像分析的更傳統AI系統不同,肖磊研發的系統可以處理視覺效果,並且同時維持高質量VR所需的超清晰圖像解析度。
但與所有基於深度學習的系統一樣,FRL需要大量的訓練數據。具體來說,DeepFocus需要瀏覽數千個以不同距離放置各種對象的圖像,並建立起對聚焦和散焦的理解。但是,沒有現成的數據集能夠提供DeepFocus團隊所需的各種曲面和形狀。所以肖磊和FRL的技術美術馬特·查特曼(Matt Chapman)自行創建了這樣一個資料庫。
DeepFocus團隊
查普曼是從Oculus產品團隊來到FRL,而他在產品團隊期間曾創建過一系列著名和優秀的demo。對於DeepFocus,查普曼將美學放在了一邊,並為肖磊提供了一個虛擬對象的互動式堆積場。查普曼的隨機場景生成器生成了由大量對象組成的場景,包括來自盧浮宮雕塑的3D掃描,以及合成球體,立方體和3D曲線。這些對象隨機放置在3D空間中,深度範圍從25厘米到10米。
由此產生的對象集合令人眼花繚亂,但一種方法可以解決隨機場景生成器的視覺問題。這種不自然的,令人眼花繚亂的幾何形狀和遮擋物具有比現實生活中更多種類的紋理,表面和其他特徵,但可以作為深度學習系統的一種焦點分析訓練營。「這是我第一次與技術美術進行密切合作。」肖磊如是說道。像馬特·查普曼這樣的技術美術在研究機構中很少見,但對於FRL的AR和VR創新方法而言至關重要。肖磊表示:「為了改進隨機場景生成器,從微調對象,紋理和材料的分布到減少ground truth圖像的渲染時間,馬特和我進行了大量的迭代。」總的來說,他們利用隨機場景生成器繪製了196000張圖像來對系統進行訓練,使得DeepFocus能夠理解如何在多變和不熟悉的VR環境中渲染模糊。
在接下來的一年中,DeepFocus團隊增加了視覺科學家(如贊諾麗),以及研究科學家亞歷山大·費克斯(Alexander Fix)和安東·凱普蘭延(Anton Kaplanyan)。他們幫助設計了系統的深度學習方法。FRL的圖形研究團隊負責人凱普蘭延表示:「對於之前用於渲染高度逼真模糊的方法,它們全都是基於人工製作的數學模型,邊界情況與限制會導致低質量的結果和偽影。利用深度學習,我們的系統能夠實現複雜的效果和關係,例如前景與背景散焦,以及遮擋邊界處的正確模糊。通過生成豐富的ground truth資料庫,我們能夠覆蓋更廣泛的散焦效果,並為景深合成設立了新的標準。」
為了幫助證明DeepFocus能夠實際應用於Half Dome,並且利用當前的處理器來實時渲染模糊,FRL的研究軟體工程師薩拉·諾里(Salah Nouri)加入了項目。曾參與過3A級遊戲製作的諾里表示:「當我加入團隊時,他們已經建立好網路架構,而且運行時已經足夠用於以1080p解析度運行的常規PC或主機遊戲。但我們至少需要將性能提高四倍,因為VR的要求更高。」
諾里能夠在搭載四枚顯卡的設備上演示DeepFocus和Half Dome。儘管這是比消費者目前可用的設備功能更強大,但仍然屬於一項重大的技術進步。諾里表示:「我們需要非常小心地將四枚顯卡之間的工作並行化,以便它們之間的內存傳輸不會產生任何額外的延遲,同時幾乎無需任何計算成本。」
FRL對軟體或硬體的探索尚未結束,我們的最終目標是在一枚顯卡上實時運行渲染模糊。但無論是將人工智慧技術集成到圖形渲染中,還是開發新的,更具沉浸感的逼真VR體驗,我們在SIGGRAPH亞洲大會展示的四顯卡demo與研究代表了一個重要的里程碑。蘭曼說道:「我們想看看渲染模糊可以為VR帶來什麼增益,但它必須是在真實的遊戲和真實的VR設置中運行。我們做到了,而那解鎖了全新的理解。」
3. 未來屬於DeepFocus
對於DeepFocus和Half Dome,我們現在擁有了可以更好理解真實感如何對用戶AR與VR體驗作出貢獻的工具。儘管我們現在是將DeepFocus用於Hald Dome之中,但系統的深度學習可以實現跨硬體兼容。我們的研究論文表明,除了在變焦顯示器上渲染實時模糊外,DeepFocus同時支持用於多焦點和光場顯示的高質量圖像合成。這使我們的系統適用於所有下一代頭顯技術。
通過開源我們的DeepFocus與訓練數據,我們不僅為開發新VR系統的工程師提供了框架,而且為視覺科學家和研究長期感知問題的其他研究人員提供了框架。例如,我們的視覺系統是如何利用環境中的模糊來重新聚焦呢?對於世界的三維結構,模糊可以為大腦提供什麼信息呢?DeepFocus有可能提供了渲染實時模糊的最後一塊拼圖,但基於我們系統的前沿研究才剛剛開始。
※美國中情局CIA投資,AR/VR服務商Immersive Wisdom完
※VR遊戲《Contrators》登陸Steam,帶來多人團戰FPS刺激快
TAG:映維網 |