用iPhone一秒拍攝3D照片,Facebook這項技術厲害了
想像一下,你用手機拍攝一張照片,然後你不僅可以得到你拍攝時的一個角度,你還可以拖動照片來看到不同角度的視野變化。
這聽起來是在描述高大上的光場視頻,而不是通常的2D拍照技術,是吧?
今年5月,Facebook介紹了3D照片技術,今天Facebook正式將其3D照片功能帶到了iPhone手機上。
當你用iPhone拍攝一張照片時,點擊狀態更新編輯器中的新3D照片選項,選擇肖像模式照片,然後Facebook會用AI計算出場景深度,使得2D照片也可以動起來,呈現出多個角度的景象。
這些3D照片可以在在桌面或者手機App中的Facebook實時信息流中體驗到。當你滑動信息流時,這些照片和普通照片看起來沒有區別,而當你點擊進入照片時,他們立刻突破平面2D的束縛,就像一個小窗口一樣,一下子把你拉進3D照片的世界。就像上圖gif一樣,拖動照片你可以你看到狗的側面和背後的岩石。
雷鋒網了解到,這個以AI創造出深度圖像的技術來自於Facebook計算攝影部門,講述這項技術的論文由倫敦大學學院的Peter Hedman和Facebook西雅圖辦公室的研究科學家Johannes Kopf合著完成,論文曾在今年8月於溫哥華舉辦的Siggraph上展出。
其實,不少巨頭都在研發計算圖像深度的技術,不過目前他們都只是應用在人像模式中,用以虛化背景。
然而,Facebook的技術路徑卻是從VR開始的。Facebook以30億美元收購Oculus後就大力傾注VR,致力於創造一個連接虛擬與現實的全新社交帝國,把現實世界放進VR是一項關鍵任務,此前的實現方式主要是360度全景視頻或者是加上3D效果的360度全景視頻,然而,這些全景圖片拼接成的內容只是2D圖片的大型化,並不具備現實世界的深度感和真實感。
6Dof視頻以及更完善的光場視頻是大家期望的解決方案,Facebook也一直在這些領域探索。在2017年5月的F8大會上,Facebook發布了兩款能記錄深度信息的 3D VR全景相機,Facebook 360 Surround x24和x6。今年9月,Facebook發布專業級全景相機 Manifold。
然而,6Dof視頻和光場視頻的製作成本極高,目前VR的發展也難以吸引大量的內容製作者,Facebook選擇了更便捷更民主化的路線——3D照片。
雖然Facebook推出的這項深度圖像技術被稱為3D視頻,但是卻和大家熟悉的3D電影的3D效果不是一碼事。普通的3D只是通過雙目時差實現的偽3D效果,在電影院里,不管你怎麼轉頭,你看到的立體影像都只有一個角度,而Facebook的3D照片的特點是可以拖動查看不同的角度信息。
說了這麼多,回到重點,Facebook是如何實現這項技術的呢?
據雷鋒網了解,一開始,Facebook採用的方式是讓用戶以單攝像頭的相機拍攝,通過移動來捕捉整個場景,然後通過分析視差和手機運動,即不同距離的物體在相機移動時移動的數據,可以精確地在重建出3D場景。
但是,從單個攝像機的快速圖像中推斷出深度數據是對CPU的計算要求很高,這種方法在大多數手機都有雙攝像頭時顯得有些過時。通過同時使用兩個相機捕獲圖像,即使對於運動中的物體也可以觀察到視差差異。並且因為兩個鏡頭的設備處於完全相同的位置,所以深度數據的噪音要小得多,對運算的要求也低很多。
Facebook目前就是採用iPhone的雙攝像頭,手機的兩個攝像頭拍攝了一對圖像,設備立即自行完成計算「深度圖」,圖像編碼幀中所有內容的計算距離。結果看起來像這樣:
蘋果、三星、華為、谷歌都在研究深度圖像技術,但是目前主要用在照片的背景模糊上面。深度圖的技術難點在於,創建的深度圖沒有某種絕對比例。例如,當深紅色意味著100英尺時,淺黃色並不意味著10英尺。每張照片的比例都不相同,這意味著你需要拍攝多張照片來獲得物體實際距離,但是要將這些照片拼接在一起是一種痛苦。
這就是Kopf和Hedman及其同事所面臨的問題。在他們的系統中,用戶通過移動他們的手機拍攝他們周圍環境的多個圖像;它每秒捕獲一個圖像(技術上是兩個圖像和一個結果深度圖)並開始將其添加到其集合中。 在後台,演算法會查看手機運動檢測系統捕獲的相機的深度圖和微小運動。然後,深度圖基本上被按摩成正確的形狀以與其他照片對齊。
創建出深度圖之後,深度圖會被轉換為3D網格(這個比較抽象,可以將其想像為一個紙質版本的景觀圖)。然後,檢查網格的明顯邊緣,將這些邊緣撕裂開,例如前景中欄杆遮擋背景中的景觀,就將兩者分離開。這會將各種物體隔開,式它們看起來處於不同的深度,並隨著透視的變化移動。雖然這些方法創造了3D效果,但是你可能已經猜到前景看起來只不過是一個紙質鏤空,因為,如果是直接拍攝的人臉,就沒有關於他們的頭部或背部。
那麼,最後一步就很重要。通過卷積神經網路去猜測和填充圖像的其餘部分。例如,如果圖像區域有頭髮,那麼頭髮可能會繼續存在。因此,它可以令人信服地重新構建這些紋理,並估計對象的形狀,縮小間隙。這樣當你稍微改變視角時,你似乎真的「圍繞」對象看了一圈。
Facebook目前能在一秒鐘的時間內完成深度圖的創建,因此他們將此稱為「即時3D攝影」。當然,3D照片功能目前只能在有兩個攝像機上使用,首發這項功能的是iPhone 7+, 8+, X or XS,此後會有更多手機加入。
在論文中,Facebook也討論了如何用通過另一個卷積神經網路來使得單攝像頭的相機也擁有同樣功能。但是,單攝像頭不如雙攝像頭系統好。這還需要演算法和軟體公司的繼續努力,正如前些天,雷鋒網曾報道,Google就用單攝像頭實現了超越蘋果雙攝像頭的多項計算攝影效果。
※蘋果新品發布 搜狗地圖成CarPlay第三方導航應用首批選擇
※目標檢測集成框架在醫學圖像AI輔助分析中的應用
TAG:雷鋒網 |