傳統影像的完全顛覆XD Fusion,華為影像系統的支點
【作者踐機行事】這是華為年度影像旗艦P40發布之後的第二篇技術解讀文章,和之前將關注重點放在硬體上不同,這一篇更偏向軟體與演算法機制。因為之前我也說過,在「感測器:鏡頭:演算法」這個「1:1:1」的手機影像體系中,隨著硬體能力的逐步趨同與看齊,演算法已經成為手機品牌之間用來區隔影像能力的新戰場,它正在催生著這個比例向「1:1:2」甚至更高權重轉化。而對於華為誓要領先手機影像行業的目標來說,演算法在現在與未來顯得尤為重要,這也是為何「XD Fusion圖像引擎」在今年橫空出世的原因。
Tips:何為「XD Fusion圖像引擎」?
XD Fusion其實是華為影像團隊內部的一個代號,XD中的X意為Extreme(極致),D是Definition(清晰度),Fusion意為融合,合在一起的意思就是「超清圖像引擎」。這是一個在華為內部已經講了很多年的概念——把它放在業界其實就是通稱的「計算攝影」。目前業界明確提出計算攝影概念的廠商有三家:谷歌,蘋果以及華為。
華為影像體系的理念
在解釋XD Fusion的重要性之前,我覺得有必須回顧一下華為整個影像技術體系的發展路徑和理念,因為只有把這個問題弄清楚了,我們才能知道為什麼到了今年,會有P40系列上的IMX700,會有P40 Pro 上的10倍光學長焦模組。
在華為的影像體系當中,是將手機影像的發展分為空間與時間兩個維度來看待的,其中的空間,就是指的變焦,即讓手機能看得更遠;而時間,則是指讓手機能在全天的條件下都能產出畫質穩定的照片,因為在華為影像團隊看來,隨著硬體和基礎演算法的發展,在光線條件好的情況下,很多手機都能拍攝畫質出色的照片,但光線一旦不好或變得複雜,不同手機的表現就拉開差距了——我覺得之前iPhone拍照「白天龍,晚上蟲」的評價肯定是被華為看在眼裡了。
按這個理念,從P9算起,我們就能看到這樣的發展軌跡:
P9,加入黑白感測器,極大強化了手機的暗光拍攝能力,這一點我深以為然;
P10,兩倍光學模組加入,讓手機開始看得更遠;
P20,三倍光學模組加入,輔以IMX600定製大底元件,夜拍能力成為華為P系列手機的標誌;
P30,5倍光學模組加入,RYYB排列定製感光元件將P系列手機的成像照度擴展到0.1Lux;
P40,10倍光學模組加入,RYYB排列定製感光元件變得更大,同時向其他影像模組擴展。
將時間線拉長回看,華為整個P系列的發展路徑就非常清晰了,這甚至還能在一定程度上回答很多人的疑問:「為什麼華為一定要堅持RYYB這個最初看來有些吃力不討好的技術?」
技術發展到現在,隨著感光元件和鏡頭技術的雙雙進步,這些源自拍攝空間與時間的問題都在被逐步解決,但是,放在華為影像團隊面前需要解決的問題也是在變化的,或者說在達成了參數上的目標之後,需要進一步做到的就是更好與更強,能保持業界第一的地位。比如長焦體驗,就已經整整分化為四個優化的維度:第一,清晰度,這是排在所有客觀指標第一位的,從目前我使用P40 Pro的情況看,對比P30 Pro的進步是明顯的;第二,色彩,這一點之前我也有過解讀,隨著8通道RGB色溫感測器的加入和演算法的提升,這個問題比起前作改善了不少;第三,穩定性,對於我這種長期玩相機的人,感覺就是大變焦下更容易端得住相機了,但我想對大部分普通消費者來說,手持長焦的穩定性問題不僅僅是手法問題,更可能還有認知問題;第四,倍數,這裡主要還是指的P40 Pro 上的10倍模組,這一點留待後邊再說。
硬體負責輸入,軟體負責輸出
P系列歷經5代硬體的發展,這其中Mate系列時不時來穿插助個攻,讓P40這一代機型已經獲得了足夠強勁的影像硬體基礎,比如單像素和尺寸都足夠的感測器,看得更遠且協同工作的鏡頭,感光度夠高的光線捕捉能力,更加準確的環境色溫感知,ToF模組提供的光場信息,甚至還有AI加入RAW域處理,直接識別被拍攝物體的類型等。但是這對於一個完整的手機影像系統來說,只是解決了一半的問題,即這一切都是信息的輸入,光有這些信息是無法輸出一張令人滿意的照片的,面對這一大堆輸入信息的即是軟體系統,即演算法。
其實,剛剛說到的這一堆由影像模組硬體所捕捉到的信息,就是整個華為XD Fusion圖像引擎的第一大模塊:硬體的輸入。如果將生成一張照片看成是做一道菜的話,華為影像團隊將這一個部分就稱為是食材的準備,它不僅僅需要數量和種類要夠,同時還有質量的問題——「番茄炒雞蛋是好吃,但番茄是爛的,雞蛋是臭的,大廚再厲害也白搭」。這也就相當於再次回答了在大底與高像素的流派選擇中,為什麼P40的主攝確定了5000萬像素與1/1.28英寸的尺寸:在華為影像團隊的判斷中,這是一個可以同時兼顧像素數量與質量的選擇。同時,他們也希望大家在看待P40的時候,不要簡單地誤會華為只在硬體上下功夫,做硬體的目的不是堆硬體,而是給軟體側的運算提供好的原素材。
接下來就是XD Fusion圖像引擎的第二個模塊:機器視覺,中高層語義的分析、理解和分割。在這裡就不得不提到在Mate 10上頭一次加入的「AI攝影大師」(之前我說的是從P20 Pro開始,有誤,特此道歉),它解決了過去影像拍攝中對於客觀世界的識別問題。AI的加入,可以讓手機的相機更加像人腦一樣,去辨識客觀世界,認知場景、客觀物體,比如藍天白雲、草地花朵、豬牛貓狗,還有人的識別,包括皮膚、骨骼、臉部特徵等。而中高層語義的識別,就是將這些識別出來的最基本的語義做理解與分割,放到神經網路系統中進行處理。比如人像拍攝時進行人與背景分離的摳像,就是為了後期進步美化人像做準備。這個過程,我們可以看做是對原素材的分類和初次加工——也就是做菜過程中的各種「備用」。
XD Fusion的第三個模塊:神經網路處理。這個部分就非常有意思了,因為一切都在模仿人腦的思維方式對照片信息進行精加工,所以在這個模塊里,有學習、有隨機、有猜測……連華為影像團隊自己都說這個過程是非常玄妙的,但它的最終目的就是為了能給消費者提供一張優秀的照片。換言之就是:畫質清不清晰、噪點少不少、色彩準不準、虛化效果好不好、光影是不是自然等等。我們常看到「像素級處理」就是在這個階段進行的,最終的成像也就是這個階段之後產生。於是,一道色香味俱全的好菜就上桌了。
上述三個模塊,它們之間協同工作的步驟與邏輯,就組成了我們看到的XD Fusion方案,也就是XD Fusion超清圖像引擎。當然,這也只是一個大的劃分,前邊說到AI-RAW演算法、8色彩通道色溫感測器 AI AWB自動白平衡演算法,這些全部都被包括在XD Fusion之中——可能將它稱為是一個「技術池」更加形象,因為日後還會有更多的東西被裝到裡邊去,也會讓它變得更加的強大。
說到這裡,我們也能看明白了,其實XD Fusion圖像引擎一直都存在,而並不是今年才從天上掉下來的,也不是什麼一塊華為全新開發的晶元,它是華為這些年在手機影像上各種各樣技術積累的一個集合體,是通過異構計算、多晶元協同與軟體測運算共同達成。只是到了今年,計算攝影已經慢慢成為手機影像行業大家公認的潮流,所以才將它和盤托出放到了我們的面前。現在,XD Fusion在華為手機中已經是一個系統級的組件,它主要圍繞主攝工作,但又不僅限於主攝(比如長焦),同時,幾乎99%的手機成像工作它都要參與,凡是要用到後處理演算法,多攝像頭融合,以及機器視覺的識別能力或像素級優化圖像品質的時候,就會進入到XD Fusion的概念里。從這個角度來說,XD Fusion的系統重要性已經高於蘋果的Deep Fusion了,後者是有觸發條件的。
那麼,隨著技術的演進,XD Fusion圖像引擎能為消費者做么呢?它存在的目標就一個:「讓普通的消費者能以最簡單的方式獲得一張好照片」——這個說法這些年我們真是看得多了,那麼,華為又是如何來認知這個問題呢?
在華為影像團隊看來,軟體能力只是輔助,還原拍攝者的習慣和表現是首要的,但是通過軟體測的能力,可以幫助消費者拍到更好的東西,得到更好的照片。就像最開始的AI場景識別就是出於這個目的,之後還有AI留色的功能,發展到今年,新增了這樣幾個重點的功能:AI精彩瞬間,去除誤闖的路人,去除反光等,都是AI功能的進化。這一切都是圍繞兩點來展開的,這也是攝影的本質:第一,對光線的理解,改善畫質;第二,攝影就是等待瞬間的藝術,而現在AI的能力就是在這兩個維度做提升。
所以,「以最簡單的方式獲得一張好照片」這句看似輕描淡寫的目標背後,卻是大量運算的參與,越簡單,背後要做的工作卻是越多越複雜。也正是因為軟硬體協同工作,在P40上,傳統影像領域固定的焦段概念也在被「模糊」,即硬體本身的物理焦段與等效焦段放在XD Fusion體系中,都只是變焦成像的原始素材,整個變焦焦段無縫銜接,全部都可以提供出色且畫質區別不大的照片,這才是XD Fusion整個影像體系意圖達成和倡導的重要意義所在。
番外篇:P40 Pro 的10倍光學長焦模組
這次發布的P40系列,被網友們戲稱為「中杯,大杯,超大杯」,而其中的「超大杯」P40 Pro ,更是因為全球首次搭載10倍光學長焦模組而備受關注,它到底是怎麼達到的呢?為什麼它的發售時間要晚一些呢?
華為認為,高倍數光學長焦鏡頭是手機上實現變焦的最佳方法,但鏡頭模組的物理特性(焦段越長、模組越長)是跟手機的ID設計相悖的。所以,華為P40 Pro 的10倍光學長焦模組,在P30 Pro潛望式鏡頭橫置長焦鏡頭模組和感光器件基礎之上,進一步採用全新的多反射潛望式光路摺疊技術,實現5次反射光路,光程比上一代潛望式長焦提升了178%。
這個鏡頭模組的核心,就是那個用來進行光路摺疊的反射鏡組。但是,在光線多達4次的反射過程中,如何避免光路畸變,保證反射質量,就成為達成這個結果的重中之重——在生活中很多鏡面反射的場景下,我們都可以看到反射面上的影像變形,這就是光路畸變造成的。華為的相機團隊首先想到的是借鑒晶元的組裝工藝技術,但經過比較後發現,晶元組裝工藝技術對晶元變形的控制是10μm級別,達不到這個模組的光學精度要求。後來根據光學設計模擬,解析出這個模組最基本的光學規格需要達到納米級,即精度要求是頭髮絲的兩千分之一(頭髮絲的直徑一般不超過100μm)。同時,這樣的精度要求還需要在大規模量產中實現,鏡頭模組團隊通過多次努力和探索,最終實現了最高約30nm的組裝精度,滿足了10倍光學長焦模組的工藝標準。
可以高精度量產只是一方面,另一方面,P40 Pro 長焦模組的對焦馬達需求特殊:其在帶動具有多反射面的反射鏡移動的同時,還不能干擾光路,馬達只能「躲」在反射鏡後面的有限空間中,且反射鏡的大部分重量都是掛在馬達的最前端。在這個狀態下,馬達不僅需要抵抗長力臂下L型反射鏡產生的大力矩,還要保持在不同拍攝場景,都能高精度穩定移動反射鏡,提供穩定光學表現。最後,鏡頭模組團隊採用了滑槽式自動對焦馬達,搭配極強的磁力與精密槓桿結構,精巧地平衡了前端的反射鏡負載。同時還採用優異的潤滑材料,使馬達能夠高穩定、高精度地移動反射鏡,實現自動對焦功能——這個獨特的對焦馬達是該模組多個專利之一。除了獨特的設計與功能,這顆馬達還具備超長壽命的特點,即使經過數百萬次的測試和極端環境的考驗,依然硬朗運作。
這些技術方面的高難度,不但成為P40 Pro 實現10倍光學長焦的保障,也影響了其與P40/P40 Pro一起上市的時間,所以,目前我也只能拿到這些技術解析,就當是先期了解吧,等之後拿到「超大杯」我們再一起看這個模組的表現。
寫在最後
實話實說,寫這篇文章我是真挺吃力的,並不是因為不理解技術,而是整個XD Fusion圖像引擎對於我多年以來接觸攝影,形成的諸多觀念有相當的顛覆,比如焦段的概念。想起一年前,P30 Pro「攝月」事件沸沸揚揚,甚囂塵上,然而到了一年後的今年,看看華為XD Fusion圖像引擎上進行的這一系列技術描述,不免有種大夢初醒的感覺。「PS是對一張照片最起碼的尊重」,既然我們都能接受在電腦上對照片後處理,那麼手機將這件事情做好了,直接將結果呈現在我們面前的時候,為什麼最開始大家都接受不了呢?連傳統的RGGB三原色的捕捉都能被RYYB 演算法所替代,連經典的RGB點陣顯示都可以被QD-OLED技術所顛覆,這也許就是技術發展路上所要必須面對的質疑吧。從照片到「照騙」再到照片,在真實與更美的真實之間,我想大部分人都會選擇後者吧。
※「芯」視界 更智慧 索尼中國領先全球上市春季全系列電視新品
※大廠如何傳達電競精神?OPPO宣布成立Ace系列獨立產品線