iPhone X 面部識別引爆全新場景，這家中國本土公司走在了前面

新聞 09-15

剛剛過去的秋季蘋果新品發布會正式發布了全新的 iPhone X，雖然與此前的各種預測分析並無二致，但當蘋果真正向世人展示這部充滿未來感的手機時，相信很多人依舊被震撼到了。蘋果也絲毫不掩飾對自家新產品的自豪感，為 iPhone X 打出了「Say hello to the future」（你好，未來) 的廣告詞。

圖丨全新 iPhone X

iPhone X 留給人們最深刻的印象無疑是其 Face ID 面部識別功能，不管是叫好還是惡搞，Face ID 在一夜之間已經火遍個大社交媒體。網友們為 Face ID 惡搞出的各種「應用場景」更是層出不窮。

圖丨iPhone X 正面上方的面部識別組件

此外，從設計上看，iPhone X 在全面屏上方多出了一塊「劉海」區域，雖然這個設計一曝光即被網友和其他手機廠商作為「槽點」狠狠戲弄了一番。但不論從 OLED 全面屏中這塊異形區域的加工難度，或者其內部暗藏的眾多感測器來看，這種設計可能是蘋果能找到的最佳解決方案。

圖丨iPhone X「劉海」處其實整合了 Face ID 相關的大量核心技術

從上圖可以看見，「劉海」區域內整合了的原深感攝像頭（TrueDepth Camera）和點位投射器（Dot Projector）是 Face ID 面部識別功能的核心組件。這項蘋果公司醞釀了至少 4 年的技術最終得以搭載在手機平台上。

為何這麼說？其實蘋果公司早在 2013 年 11 月，就以 3.45 億美元的高價收購了以色列感測器公司 PrimeSense，該公司專註於開發通過攝像頭來進行 3D 掃描成像的相關技術。微軟的第一代 Kinect 體感互動平台、高通早期的 Vuforia AR 增強現實平台，以及 iRobot 的 Ava 機器人自主導航平台都是由這家公司參與開發。

圖丨最初曾有人猜測，蘋果收購 PrimeSense 是為了將其技術應用在 Apple TV 上來增加體感功能，然而其技術最終卻搭載在了手機上

PrimeSense 被蘋果收購後，沉寂了相當長一段時間，目前看來，其多年的研發成果終於被整合到 iPhone X 上。此外，有消息稱 PrimeSense 的技術也成為了蘋果增強現實開發平台 ARKit 的基礎。

所以說，你甚至可以這麼簡單粗暴的理解：蘋果將一整組 Xbox Kinect 微型化，並統統塞進了 iPhone X 的「劉海」中……

Face ID 面部識別功能室 iPhone X 的一大特色，但蘋果顯然還要拿它做更多的事。發布會上演示的一些 AR 遊戲顯然是其應用場景。而且，對自動駕駛激光雷達稍有了解的人應該知道，既然是深度相機，又具有點位投射器輔助，測距與成像勢必成為潛在應用場景。為了展示 iPhone X 在這方面的潛能，蘋果開發了一款極具趣味性，又比較「接地氣」的應用：Animoji 動態表情。

圖丨蘋果發布會上介紹 Animoji

Animoji 是 iOS 11 中加入的一項新功能，可以簡單看作是 iPhone 表情包 emoji 的動畫版本。Animoji 通過 iPhone X 搭載的原深感攝像頭對用戶表情進行實時捕捉，並同步到卡通形象上。

蘋果對 Animoji 的定義是「使用用戶本人聲音和表情的定製動畫消息」。同時，開發人員也提供了一系列的 3D emoji 模型供用戶選擇，比如狐狸、猴子、小狗，甚至便便……

GIF/1.3M

圖丨Animoji 實時面部表情捕捉

在 2015 年蘋果收購蘇黎世公司 Faceshift 起，蘋果就在布局實時表情捕捉技術及應用，歷時兩年推出了這款 Animoji。雖然 Animoji 確實是一個很好玩的功能，但目前只有 iPhone X 可以使用該功能。高昂的門檻源自於其表情捕捉技術對原深感攝像頭的依賴。其他的 iPhone 用戶，以及 Android 的大量用戶，只能望洋興嘆了。

事實上，有一家低調的中國公司已經走在了美國同行的前面，只需要普通的手機攝像頭，就可以在多平台上完成高質量的實時面部表情捕捉，並用來驅動虛擬形象。該公司開發的面部動態捕捉 SDK 被應用於直播、社交、遊戲等領域，並已擁有了超過 70 家 B 端客戶，SDK 日均調用次數近 400 萬次。這家公司便是位於杭州的相芯科技有限公司（faceunity.com）。

GIF/1.4M

圖丨相芯科技的實時表情捕捉 App

相芯科技的表情捕捉技術之所以不需要深度攝像機，是源於他們在人臉跟蹤和三維重建領域的積累。人類對於人臉的識別有著非常強的先驗知識，只是看到一個人的照片，也可以想像出這個人的長相及三維特徵。相芯科技通過長期積累的三維人臉大數據，藉助於深度學習演算法，使得從二維圖像恢復三維人臉模型成為了可能。

GIF/1.6M

圖丨相芯科技的實時面部表情捕捉與驅動

具體來說，該技術將龐大的三維人臉數據壓縮成 3MB 的張量模型。並由機器學習的方法，從單張照片中提取人臉的特徵信息，根據張量模型恢復出整個人臉三維模型。在此基礎上，通過視頻中不斷輸入的人臉信息，對人臉的面部特徵和表情進行識別和分離，以達到無需校準步驟的精確表情識別與三維重建。

相芯科技識別的表情係數代表了 47 個面部肌肉運動組成，非常接近蘋果方案中的水平。以此表情係數為媒介，可以實現精確的表情轉移，和各種不同風格的虛擬形象進行表情的同步。

GIF/1.5M

圖丨相芯科技的技術驅動多種不同類型的虛擬形象

然而，從應用的層面來看，開發類似應用的一大門檻在於虛擬形象的製作，要實現完整並且精準的表情驅動，意味著需要針對一個形象製作 40-50 個不同的面部肌肉模型，對應用快速開發迭代形成巨大的障礙。

圖丨一個可驅動虛擬形象的所有面部肌肉模型

針對虛擬形象製作成本高昂的問題，相芯科技還擁有一套全自動的虛擬形象生成技術。只需要一張照片，就可以生成個性化的虛擬形象，即所謂的 Photo-to-Avatar（P2A）技術。用戶可以通過拍攝，或者在手機中選擇一張清晰的人臉照片，P2A 技術即可根據人像自動生成與照片人物高度匹配的全動態 3D 虛擬形象，生成的 3D 虛擬形象能被相芯科技實時人臉表情跟蹤與動畫 SDK 所驅動。

GIF/1.5M

圖丨用戶通過普通手機拍攝一張照片，然後生成與自己容貌相仿的虛擬形象

如何去解決這些問題？這就會涉及到包括計算機圖形學、計算機視覺以及機器學習等眾多交叉領域。比如虛擬形象生成，會用到端對端的 3D 深度神經網路。

簡單來講就是，輸入一張照片，經過一個黑盒子處理，出來的就是一個 3D 模型。而這個黑盒子其實就是現在的人工智慧。這套 AI 系統需要做的事情包括抓取特徵點、識別性別、識別配飾等。除了做普通的人臉識別外，還要創造出一個 3D 形象，且這個形象要與輸入的 2D 照片高度匹配。

此外，相芯科技並沒有止步生成虛擬頭像，而是進一步延伸到了全身，完整的虛擬形象包括用戶的肢體動作、衣著打扮、周圍環境等，都可以做相應調整，完全契合各種 3D 應用。

GIF/1.3M

GIF/790K

圖丨除了面部表情捕捉與驅動，虛擬形象還可以調整動作、衣著、環境等因素

相芯科技之所以將 Animoji 這一類實時面部表情捕捉與驅動進行了擴展，其背後的原因是，作為一種網路空間的虛擬形象，其實完全可以做得比物理世界中的形象更有表現力。比如誇張的表情，甚至一些動漫化的特徵。畢竟，不是每個人都經過了專業訓練，一些更富有張力的表現形式可能在社交和泛娛樂領域會有很好的應用，甚至包括未來的在線教育。

相芯科技目前主要專註於移動平台，未來 AR 什麼時候能真正落地現在還很難說。但一旦這些技術成熟，虛擬形象就會成為一種必需品。因為在虛擬現實環境下，用戶不可能還是以 ID 或靜態照片的形式存在，而必須有一個 3D 的、互動功能完備的具體形象。

我們也有理由相信，蘋果 ARKit 平台在早前的布局，iPhone X 及其面部識別相關技術的隨後推出，已經為 AR 的真正落地打開了一條路。全新的 A11 Bionic 晶元、原深感攝像頭、紅外攝像頭、點位投射器，以及一系列軟硬體技術，將遠遠不止為手機刷臉解鎖，或者刷臉支付這麼簡單。可能真像 iPhone X 的廣告語：「Say hello to the future」那樣，當未來來臨時，我們希望能看到更多來自中國的科技公司的身影。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※《Cell》子刊首發：低卡飲食竟會促進毛髮生長！
※自動駕駛汽車安全性再升一級：熱成像儀將提供更好的夜視功能
※斯坦福開發出炸彈排除機器人，VR控制器成最大亮點

TAG:DeepTech深科技 |