三攝正普及,四攝在路上?谷歌逆天AI演算法,只做單攝虛化
作者| 琥珀
出品| AI科技大本營
想要提高拍照效果,想必對於多數手機廠商而言,給手機塞進更多的攝像頭似乎成了當前主流做法,例如「普通攝像頭+景深攝像頭」、「黑白+彩色攝像頭」、「廣角+長焦攝像頭」……不過,偏偏有這麼一家企業反其道而行,從發布 Pixel 系列以來,就一直堅持單攝像頭,並強調在相機成像演算法上的提升。
不久前的一篇《勝過 iPhone XS?Google Pixel 的「夜視功能」是怎樣煉成的》文章中,我們介紹了 Google 新款手機 Pixel3 系列的夜景拍攝功能(Night Sight)。果然,讀者們對於如何利用機器學習解決弱光條件下的拍攝難點持有很大興趣。近日,Google Pixel3 在相機演算法的升級路上越戰越勇,對「人像模型」(Portrait Mode)拍攝功能進行了大幅升級。相比上一代的 Pixel2,Pixel3 的人像模式可為用戶提供專業的外景圖像拍攝,並通過模糊背景來加強主體對象的清晰度。
去年,Google 團隊描述了相位檢測自動對焦(PDAF)的技術,該技術使用了傳統的非學習立體演算法,並通過單個攝像頭計算景深。如今,在最新推出的 Pixel 上,Google 將採用機器學習改進景深捕捉,以獲取更好的人像效果。
如上圖所示,上一代的人像模式主要通過神經網路決定人與背景成像像素,並使用從 PDAF 導出的景深信息來增強這兩層人物的分割掩碼(segmentation mask)。這意味著能夠實現相應的背景虛化效果,更接近於專業相機的效果。
PDAF 通過捕捉場景的兩個略微不同的視角進行工作,如下圖所示。在兩個視角之間翻轉,我們看到人是靜止的,而背景是水平移動的,這種效果成為視差(parallax)。因為視差是點距相機的距離與兩個視點之間距離的函數,我們可以通過將一個視角中的每個點與另一個視角中的對應點進行匹配來估計景深。
圖註:左、中的兩個 PDAF 圖像看起來非常相似,但在右圖中,可以看到它們之間的視差
不過,通過立體演算法在 PDAF 中找到這些對應關係極具挑戰性,因為場景中的點幾乎不在視圖之間移動。此外,所有的立體聲技術都存在孔徑問題(Aperture Problem)。也就是說,機器通過小光圈觀察場景,無法找到與立體基線平行的線的對應關係,即連接兩個攝像頭的線。換言之,當觀察上圖中的水平線(或縱向拍攝的垂直線)時,一個視角相對於另一個視角的任意可能的位移都看起來大致相同。結果,在上一代的人像模式中,以上提到的所有因素都有可能導致景深捕捉錯誤,產生令人不快的虛假圖像。
如何改善景深捕捉?
Pixel3 採用的人像模式,通過利用立體演算法產生的視差來修復這些誤差。例如,遠離焦距平面的點看起來不如較近的點那麼清晰銳利,利用了「背景離焦」模式。此外,即使在平面屏幕上觀看圖像,也能通過物體的大致大小準確判斷物體有多遠,利用了「語義」模式。
如果構建一種能將以上不同的模式組合起來的演算法是非常困難的,但我們可以通過機器學習進行構建,並更好地利用 PDAF 的「視差」。具體來講,訓練一個用 TensorFlow 編寫的卷積神經網路,可以將 PDAF 作為輸入並進行景深預測。這種新式改進的基於機器學習的景深捕捉方法被應用在了 Pixel3 的人像模式中。
圖註:CNN 將 PDAF 圖像作為輸入,並輸出景深圖像。該網路使用「編碼-解碼」架構
如何訓練神經網路?
為了訓練網路,開發人員需要大量的 PDFA 圖像和對應的高質量景深圖,並且保證訓練數據與用戶使用智能手機拍攝的照片內容類似。為了實現這一目標,我們構建了自己的定製「Frankenphone」裝備,其中包括五台 Pixel3 手機,以及基於 WiFi 的解決方案,使其能夠同時捕捉來自所有手機的圖片(在~2 毫秒的容差範圍內)。通過這個設備,我們使用來自運動和多視圖立體的結構從照片計算出高質量的景深。
圖註:左:用於收集訓練數據的自定義裝備;中:一個捕獲五個圖像翻轉的示例;右:真實景深,低保真點
該裝備收集的數據適用於訓練網路,主要基於以下五點因素:
五個視點確保在多個方向上存在視差,因此不存在孔徑問題;
攝像頭的位置要確保圖像中的某一點在至少一張圖像中是可見的,並一一對應;
基線,即相機之間的距離要比 PDAF 的基線大得多,從而產生更準確的景深捕捉;
攝像頭同步確保可以計算上述動態場景的景深;
該裝備具有便捷性,確保可捕捉野外照片,模擬用戶使用智能手機拍攝的情況。
然而,即使從該裝備捕獲的數據是理想狀態,預測場景中物體的絕對深度仍然極具挑戰性,因為取決於鏡頭特性、焦距等因素,給定的 PDAF 對可以對應一系列不同的景深圖像。為了解釋這一點,我們改為捕捉場景中物體的相對景深,這足以產生令人滿意的人像模式結果。
值得一提的是,這個基於機器學習模式的景深捕捉模型目前主要應用於 Pixel3 手機上。此外,通過使用 TensorFlow Lite 用於在移動和嵌入式設備上運行機器學習模型的跨平台解決方案,可以將得到的景深信息與分割掩碼神經網路進行結合。
看到這裡,不知道習慣了使用 iOS 系統手機的你,是不是正蠢蠢欲動回歸在性能、價位日益提升的 Android 手機呢?
據最新消息稱,Google 決定開放自己的相機演算法授權給其他 Android 品牌使用,此前 Google 就開源了 Pixel2 系列的相機虛化演算法。歡迎留言。
參考鏈接:
https://ai.googleblog.com/2018/11/learning-to-predict-depth-on-pixel-3.html
2018 中國大數據技術大會
BDTC 2018
BDTC 2018中國大數據技術大會攜主題「大數據新應用」再度強勢來襲。本次大會由華東師範大學副校長、教授周傲英,百度商業智能實驗室主任熊輝,阿里巴巴副總裁李飛飛三位會議主席對大會內容把關,多位兩院院士參與指導,由最了解行業痛點的一線從業者為同行打造。
※英特爾AIPG全球研究負責人:物理學、隱私和大腦將根本性塑造AI
※給理工男女的一個神奇網站
TAG:AI科技大本營 |