疊境科技聯合創始人馬毅:當人工智慧遇上虛擬現實
在虛擬現實內容中心成立新聞發布會上上海科技大學教授及疊境科技聯合創始人馬毅進行了一場名為《當人工智慧遇上虛擬現實》的演講,他將VR的圖像發展分為了幾步,闡述了人工智慧和光場技術在各個階段不同的作用。
以下是演講的主要內容:
幾何信息對於3D場景很重要
在VR設備解決了顯示的問題之後,之後VR的重點一定是內容。VR的歷史很長,從軍事到商業各個方面,這裡就不多贅述了。我首先要講的是,創新企業如何把技術帶進千家萬戶,把成本、規模做大、做好。
比較早的吸引眼球的VR技術是QuickTime推出的全景相機,這是1995年的情況,那個時代主要就是把照片對應的點找到,進行粘貼。而對於「眼睛好」的朋友來說,這樣粘貼是有一定問題的,只能大概地保持場景的幾何情況,在細節上是會有一些瑕疵的,在之後很長時間的技術目標就是怎麼去最小化這些瑕疵。所以很長時間這種全景照片雖然是不錯的,但是總讓人感覺沒有那麼真實,老百姓可能一開始看這個挺震撼的,可是看多了總會感覺差那麼幾口氣兒。
對於VR來說,我們對於一個場景的要求是一個場景的3D幾何關係要正確,還有紋理、顏色等各方面要非常精確,這一點還遠遠達不到人的視覺要求。
隨著數據科學的發展,尤其是海量高維數據的工具的發展,我們現在已經可以上千萬個像素里提取整個場景里整體的幾何信息,而且可以提取到非常精準,這就為VR和AR鋪平了技術上的道路。
包括現在視頻也可以用到相似的技術,你可以做一個全真的奧巴馬的演講,讓他講一段他從未說過的話,人眼幾乎是分辨不出來的。
真正的VR或者AR是要讓計算機去理解信息,不只是圖片的信息,更多的是3D場景里幾何的信息,並且要精確到人眼的數量級。
VR的第一步是真實浮現
虛擬現實可能是要分幾步的,第一步就是真實浮現,我們如何將一個場景的幾何信息等等真實地浮現出來。這就涉及到應用而不是局限於簡簡單單地重建,計算機需要對幾何關係、相互關係動態關係、時空關係進行大量地理解。這才能做到最後的智能視覺,也就是計算機可以與人進行智能的交互。
這也就是說VR會與現在火熱的AI產生很多聯繫的。
這裡提到虛擬現實的第一步,大家都知道,人眼是對光的採集系統,但是人眼並不是傳統課本上講的「小孔成像」,事實上人眼更接近於光場相機,可以採集不同方向的光線。人眼其實是一個動態採集的過程,所以為了更好地去還原人眼對於3D場景的感知,更合理的手段應該是使用光場相機。從多個方向、多個角度,對光線進行採集和重現。
簡單來說,用兩台相機來模擬你的兩個眼睛,不同物體在投影面的距離是不一樣的,左右之間的距離差是不一樣的。所以立體的效果是可以利用視差來實現的,所以我們得到很真實的3D立體效果我們是不需要把3D模型完全恢復出來,其實只需要得到很正確的有視差的兩幅圖就可以了。
你可以認為這是一種2.5D的虛擬現實,只要讓人視覺上感覺是3D就可以了。而我們平時用全景相機採集到的都是單幅的圖,是沒有深度的,那麼我們怎麼產生立體效果呢,這就涉及到前期的一些工作。
根據使用場景來近似地生成兩幅圖,這兩幅圖形成一定的視差,來模擬左右眼所應該看到的光線,這是從一張全景圖來生成成對的圖片,讓場景產生立體的效果。這種技術有一定的局限性,就是這個效果是基本假設所有物體都比較遠,距離相似,但是基本還是可以看出一定的視覺效果的。
那麼更進一步的可以將照相機一一匹配,圍成一圈,得到一個360度的視差感受,在處理之後,來進行實時的播放。
VR為AI提供了一個大型的數據平台,單張的全景圖片是沒有深度信息的,那麼我們怎麼通過人工智慧和數據追問的方法來恢復深度信息呢?這也是我們最近在做的一些工作。
通過單張的圖片,我們可以提取很多結構化的信息,3D物體與平面的信息事實上是可以恢復出來的,因為人腦本身也是可以做到的,我們可以利用人工智慧的方法來學習人的這種智能。
另外人本身可以通過常識來判斷物體的大小,我們可以通過數據追問的方法根據視角來了解物體之間的距離。通過人工智慧的方法,我們可以把單張的全景圖片來把3D幾何恢復得比較到位。
這種工具事實上已經遠遠了傳統的建模工具,可以在像素級的海量高維數據上直接得到精準的、全局的幾何信息和照相機定位,這方面的發展應該是很快的。
除了立體效果,人眼很神奇的功能是可以進行動態對焦的,實際上如果你在VR中任何一個角度看都是非常精準、非常清晰,人會認為看到的是假的。
因為人眼只有聚焦的地方是清晰的,而其他部分是模糊的,因此如果你所處的場景整體都是非常清晰的,你就會認為這個場景是計算機生成的,它還得不到一個真實的形狀。
這也是國內外技術公司在解決的,怎麼根據聚焦來調整清晰度,怎麼來獲取深度信息,並且根據深度來模糊化,要做到這些,你就必須要拿到整個場景的光場信息。麻省理工大學就根據這個進行了一個Virtual Eye project,現在技術發展之後,照相機可以做得越來越小,越來越高效。
下一步,如果你想去掉圖像中的格點,你只需要3D的深度信息就可以了,甚至都不需要很精準,你可以用一個掃描儀。比如我們用掃描儀掃描上科大的會場,把大概的深度信息找到。把3D的模型和光場照相得到的陣列進行匹配,這種演算法很簡單,現在可以做的非常快。你可以聚焦到前排,也可以聚焦到後排,這種感受就和人眼感受到的自然場景非常接近了。
最終目標是還原3D建模
我們之前一直在講2.5D,而我們最終的目標還是重建3D。對於如何採集3D,光場也可以提供非常好的技術工具,一個光場其實就是一個照相機陣列,通過光場相機我們可以獲得各個角度大量的照片,在我們計算角度、照相機位置以及它們之間的關係時可以帶來很多的優惠。
用計算機來恢復有自遮擋的、很複雜的物體其實是很難的。
用兩個光場相機還原的效果已經比較接近真實了,當然你可以用一整個光場相機陣列來還原。這裡大概演示用了100個靜態的相機和100個動態的攝像機。
靜態的相機可以用來做什麼呢?
大概用一秒種來拍攝,用演算法大概花不到一分鐘,3D建模就可以直接傳到手機上了。
這只是靜態物體,動態就更複雜了。人是活動的,而照相機是不動的,最需要解決的就是遮擋,而且人的肢體還會形成自遮擋。那你如何得到一個完整的3D的動態場景?
我們運用了大量人工智慧的方法,進行了多幀之間的對應,然後恢復,把模型補全以後再投影回去。我們可以用同樣的系統在美國採集歌舞表演,然後在中國看到。實際上,現在我們的工程細節可以做得更好了。
而這只是物體的形狀,有些時候人的關注不只在形狀,而在它的光學性質,像玉、瓷器、金屬等等。例如我們還原一個唐三彩,我們只是還原馬的形狀,然後隨便上一下色,它看上去就會很假,你如何把它反光、細節等等反饋出來,這實際上就需要用到數據追問的方法。
我們用人工網路的方法採集了大量的數據來模擬陶瓷、唐三彩。完成的成品甚至比你在博物館或者拿在手上看到的更清晰、精準。你可以把3D建模精準地放在蘋果的ARKit里。
你可以用它來幹什麼呢?你可以用它來買東西,那些剁手黨們可不止要剁一隻手了,當然如果你有VR頭顯的話就可以看得更震撼,你可以用你採集到的物體和手機以及頭顯產生各種想像不到的結合。ARKit甚至把背景光也加入了,所以你是沒有太假的感覺的。
這項技術也可以運用到影視領域,利用光場和VR製作的電影《Pippa』s Pan盼》入圍了戛納電影節。光場相機可以提供給藝術創作者更多的方式來表達,也提供了更多的了不起的講故事的技術手段。
※英特爾關閉Basis 集中力量發力AR領域
※雄心勃勃的Leap欲紮根國內,是否能美夢成真?
※谷歌開放Expeditions新功能
※Blippar推出Halos面部識別社交功能
※uSens推出移動VR動作捕捉系統
TAG:VRZINC |
※碳雲智能聯合創始人李英睿:人工智慧在生命科學中的應用
※谷歌聯合創始人的信聚焦於人工智慧的危險和承諾
※阿里在新加坡設立聯合研究所 聚焦人工智慧
※英法將聯合推動人工智慧發展
※永輝雲計算聯合創始人兼CTO胡魯輝:從微軟智能大數據到智慧零售,我的大數據與人工智慧融合實踐
※海美迪強強聯合塗鴉智能 用人工智慧打造智慧家庭生活
※臻識科技聯合創始人兼 CEO 任鵬:基於邊緣計算的全智能相機是未來智慧城市基礎設施
※美國AI科技公司齊聚白宮 呼籲聯合起來發展人工智慧
※智慧樹聯合創始人、CIO李冬華
※「傑若創」攜手「戴爾易安信」成立技術創新聯合實驗室
※遙感博士的農業夢——專訪麥飛科技聯合創始人宮華澤
※蘋果聯合創始人將開展業務至馬爾他?
※虛擬現實教育控股公司將皮克斯的聯合創始人作為顧問
※索尼擬聯合開發人工智慧打車系統 挑戰豐田和軟銀
※中國人民公安大學與中國信息通信研究院聯合倡議成立「智慧警務創新應用實驗室」,推動人工智慧與公安業務創新應用
※零一科技節 專訪沐羽科技聯合創始人鄭曉通
※慧科聯合校企共同發起人工智慧人才培養創新加速計劃
※推進智慧城市建設,商湯科技與上海儀電擬成立聯合實驗室
※寧美國度聯合創始人劉應龍:新零售解決的是人與人誠信問題
※商湯科技聯合創始人林達華:摒棄粗放式的計算機視覺研究,我談三點思考