Facebook 50年征途:Codec Avatars,創造逼真虛擬角色
(映維網 2019年03月14日)Facebook Reality Labs(FRL)匹茲堡團隊的研究總監亞瑟·謝赫(Yaser Sheikh)致力於為人們帶來更好的新聯結方式。他說道:「我們中的大多數人,包括我自己,都不是住在我們長大的地方。我的一生都是從一個城市搬到另一個城市,而每一次我都需要離開對我非常重要的親朋好友。」
延伸閱讀:Facebook:AR/VR是未來五十年的征途
專註於彼此的聯結促使謝赫領銜了一個名為Codec Avatars的項目:旨在克服人與人之間,以及人與機會之間的物理距離挑戰。藉助突破性的3D捕獲技術和人工智慧系統,Codec Avatars可以幫助人們在未來快速輕鬆地創建逼真的虛擬化身,令虛擬現實中的社交聯繫變得如同現實世界般自然和常見。儘管虛擬角色多年來一直是遊戲和應用的主要元素,但謝赫相信準確逼真的虛擬表示(能夠完美捕捉苦笑或皺眉的虛擬角色)將會改變一切。
Facebook堅信增強現實和虛擬現實將成為未來五十年里我們工作,娛樂和聯結的主要方式,就如同個人計算機和智能手機在過去四十五年里(並正繼續)改變了世界一樣。為了向AR/VR信眾展示Facebook的實驗室,並說明Facebook正在如何構建未來,Facebook Reality Labs(FRL)計劃在未來一年時間裡陸續公布一系列的博文,而每篇博文都圍繞不同的FRL團隊展開,介紹他們正在開拓的,能夠把我們引領至未來的新技術。
本文是FRL新博文系列的第一篇,其介紹了FRL匹茲堡團隊的Codec Avatar研究。下面是映維網的具體整理:
目前,創建逼真化身需要捕獲大量高質量的個人音頻和視頻。
Codec Avatars是一個正在積極進行中的研究項目,但它可以徹底改變我們未來通過VR頭顯和AR眼鏡與他人聯結的方式。它不僅僅關乎尖端圖形畫面或高級運動追蹤,其重點是為了在虛擬現實中實現人與人之間自然而輕鬆的互動。對於這一點,挑戰在人造環境中創建真實的交互。
1. 社交臨場感
如果遠程呈現可以令你感覺自己彷彿置身於另一個地方,社交臨場感則能夠幫助你與他人分享這種感受。謝赫談到衡量成功的兩個簡單而重要的方法。他解釋說:「我們將其通俗地形容為通過『自我測試』和『母親測試』。你必須喜愛自己的虛擬化身,而你的母親同樣需要喜愛你的虛擬化身,只有這樣才能令你感覺虛擬現實就如同現實生活一樣舒適。這是一個非常高的標準。」
當你第一次接聽視頻電話時,沒有人必須要告訴你為何這項技術非常重要。它能夠提升彼此的聯結程度,這意味著你可以穿著睡衣工作。對於從視頻通話到虛擬化身通話的跳躍,這將帶來真正的社交臨場感,有點像是在『星際迷航』的全息甲板中與某人交談,你可以在模擬環境中閑逛,就如同身臨其境一樣。幫助Codec Avatars以真實和舒適的方式運行,這是匹茲堡團隊多年來一直致力於解決的巨大設計挑戰。我們正在積極地努力實現這一目標。」
(視頻不可見)
一名研究被試和一位Facebook員工正通過VR討論高溫瑜伽(通過相應的虛擬化身)。匹茲堡團隊已經取得了實質性進展,但他們正在努力為虛擬化身的口舌增加細節以提高表達質量,並確保虛擬化身之間能夠實現逼真的眼神交流。
Codec Avatars的研究工作是實現親民,實用,並可用於未來頭顯的真實社交臨場感的重要里程碑。「現在,接近度決定了我們與誰建立關係。增強現實和虛擬現實的真正前景是,無論身處何方,它都可以允許我們花時間與任何人建立有意義的關係。」謝赫如是說道。這是人與人聯結的未來,並使得它成為了Facebook核心使命的重要組成部分,亦即幫助建立社區和允許人們更緊密地聯結在一起。
2. 匹茲堡的建立
消除人與人之間的物理距離是一項需要長期承諾的重大任務。在2014年秋天,謝赫遇到了Oculus Research的首席科學家邁克爾·亞伯拉什。當時,謝赫正領導著卡內基梅隆大學機器人研究所的3D捕捉實驗室:Panoptic Studio。兩人就在匹茲堡建立一個新研究設施進行了討論,並最終把社交臨場感作為首要目標。他們的第一項任務是:組建一支由跨學科工程師,技術人員和科學家組成的多學科團隊,從而「構建未來」。謝赫於2015年加入Facebook,並自此一直在領導匹茲堡團隊。
Facebook Reality Labs在美國各地都設有辦事處,包括華盛頓州雷德蒙德,加利福尼亞州索薩利托,以及賓夕法尼亞州匹茲堡。從機器學習和材料科學到光學和觸覺,每個地點都在負責解決將AR和VR打造成為下一個計算平台所面臨的挑戰。FRL研究科學家史蒂芬·隆巴迪(Stephen Lombardi)說道:「FRL是實用性研究工作機構的聖杯。我們擁有驚人的資源和支持,而且我能夠與非常聰明的人才一起工作。與獨自一人相比,這允許我實現更多的成就。」
隨著員工隊伍的壯大,FRL匹茲堡團隊將於今年晚些時候搬到更大的樓房。
對於FRL的技術項目經理丹妮爾·別爾科(Danielle Belko)來說,她在匹茲堡實驗室的工作始於謝赫的一個大膽提議。他詢問說,丹妮爾是否喜歡「分析尚未發明的系統的數據,是按照前所未有的規模進行分析,並努力實現人們認為不可能做到的事情。」於是,她報名加入。丹妮爾說道:「我有語言學和娛樂技術的背景,所以我非常著迷於人與人的溝通方式。所以這是一個非常棒的機會,我不能夠錯過。」
FRL的研究科學家傑森·薩拉吉(Jason Saragih)則是直接通過FRL的大門來追逐自己對計算機視覺的熱愛。他說道:「我涉足計算機視覺和圖形方面的人體建模已有十多年時間,我認為AR和VR是這種技術的終極工具。隆巴迪表示贊同,「FRL正在對沉浸式平台的未來進行大量投資。為這一願景做出貢獻令人感到興奮,特別是現在我們正在利用計算機視覺,機器學習和尖端圖形技術來製作逼真的虛擬化身。」
FRL匹茲堡的總經理查克·胡佛(Chuck Hoover)一支希望能夠實現宏大的未來。他說道:「這是一種令我無比興奮的深遠影響。我們可以住在任何地方,並完全消除通勤嗎?分離生活的社交方面與物理依賴有可能改變世界。能夠為這一浪潮貢獻力量,並且是從這一早期階段就開始貢獻力量,我感到非常振奮。」
Codec Avatars將會對社交和文化產生巨大的影響,而在匹茲堡工作同時存在其他優勢,例如探索世界上最先進的硬體系統。FRL研究科學家余守壹表示:「我們逐漸明白,我們擁有世界上最先進的掃描設備。我們開始掃描人們的鞋子,玩具,乾冰,燃燒的蠟燭,以及我們能想到的任何東西。」掃描日常物品聽起來十分隨機,但這一切都是為了構建一種更好的演算法,以便未來的硬體可以輕鬆渲染最複雜的虛擬化身。
3. 傳神的虛擬化身
傳神的虛擬化身是科幻作品中的流行概念,比如說電影《創:戰紀》。當然,電影中軟體程序員發現計算機正在一點一點地重構自己的畫面並沒有發生在FRL匹茲堡。你不會突然之間被機器吸進裡面,而且虛擬化身看起來不會像是常見2D遊戲中的角色。但概念相似:系統能夠以數字方式將你從一個位置傳送至另一個位置,並令你感覺一切都仿如真實。
要實現栩栩如生的虛擬化身,關鍵是身體細節,包括我們每天都認為是理所當然的微妙細節。這是解開難題的關鍵部分。余守壹解釋說:「要一切正常運作。我們必須捕捉所有這些微妙的暗示。這既有挑戰性又十分令人振奮,因為我們正努力讓你成為你自己。」
(視頻不可見)
自逼真虛擬化身項目於2016年首次在F8開發者大會進行亮相後,Facebook Reality Labs的研究人員已經取得了重大進展。與早期版本的虛擬化身相比,現在的研究成果已經可以實現清晰的細節,如頭髮和牙齒。
視覺特效行業多年來一直致力於實現栩栩如生的虛擬化身,但需要真人演員的參與。這是一個手動的過程,需要你花費數月的製作時間。人造現實中的虛擬人物實時交互是一個未知的領域,所以FRL的研究團隊需要一種新的方法。
Facebook研發虛擬角色已有多年時間。在2016 F8大會,Facebook首席技術官邁克·斯科洛普夫為Facebook Spaces展示了新的虛擬化身系統,取代了原來漂浮的藍色頭部,同時採用了新的面部特徵和唇部動作。在第二年,他首次亮相了FRL匹茲堡的努力。在一個簡短的演示中,我們看到了兩個映射團隊成員的逼真數字角色。
繼那之後,FRL團隊不斷取得進展。謝赫說道:「我們已經完成了兩個捕獲設施,一個用於面部,一個用於身體。每一個都旨在重建身體結構,並以前所未有的細節水平測量身體運動。在達到這些里程碑後,團隊就能夠捕獲數據並構建自動化管道,從而創建逼真的虛擬化身。「隨著最近在機器學習方面的突破,這種超逼真的虛擬化身可以以動畫方式進行實時製作。
Codec Avatars不是FRL追求逼真虛擬化身的唯一手段。FRL索薩利托的另一支團隊正在探索能夠與任何虛擬環境進行交互的基物(基於物理)虛擬化身。這項研究結合了生物力學,神經科學,運動分析,以及基物模擬等領域的基礎研究。就如同Codec Avatars一樣,所述的技術仍然依賴於實時數據捕獲,但它並非是由實時感測器數據驅動神經網路,而是驅動一個受人體解剖學啟發的基物模型。
4. 構建Codec Avatars
如果你要復刻兩人聊天時的微妙細節,你首先需要理解人類的互動方式。然後,你需要以計算機系統能夠理解的方式進行打包。這聽起來可能很簡單,但即使是基本的對話都需要一個複雜的信號網路,需要所有信號協同工作以在彼此之間傳達意義。這種信號由語音,肢體語言,語言線索等組成,而Codec Avatars將其打包成可量化的數據,並用於渲染逼真的虛擬人類。如前所述,目標是創建出與真實互動無法區分的虛擬互動。
FRL研究科學家托馬斯·西蒙(Tomas Simon)解釋說:「基石是衡量標準。逼真感是由精確的數據所驅動,而這需要優秀的測量。因此,構建逼真虛擬化身的關鍵是找到一種方法來測量人類表達中的物理細節,如人們眯眼睛或皺鼻子的方式。」
巨大且複雜的捕獲工作室
Facebook Reality Labs的捕獲系統能夠每秒採集180Gb的數據。專有的演算法隨後利用相關數據來創建個人的獨特虛擬化身。匹茲堡團隊的目標是,其構建的模型能夠在未來允許人們只需數張圖片即可快速輕鬆地創建自己的虛擬化身。
在匹茲堡實驗室,Codec Avatars通過兩個主要的功能來測量人類表達:編碼器和解碼器。首先,編碼器通過頭顯攝像頭和麥克風系統來捕捉用戶正在做的事情及位置。完成捕獲後,編碼器就會獲取信息並整合一個唯一的代碼,一個人體和環境狀態的數字表示。接下來,解碼器將所述代碼轉換為音頻和視覺信號,而接收者則將其看作是發送者肖像和表達的完美表示。
Codec Avatars代表著社交臨場感的重大飛躍。它利用了今天正發生在匹茲堡實驗室的事情(通過一小群被試來構建一個物理特徵資料庫),並為未來的消費者提供了一種無需捕獲工作室和太多數據即可創建虛擬化身的方法。薩拉吉表示:「這是自動生成真實個人數字化身的首批方法之一。它提供了一種可以廣泛擴展的虛擬面對面交流方式。感覺對方就在你面前的虛擬交互是實現我們最終目標的重要一步,亦即聯結彼此。」
普通的1000萬像素智能手機攝像頭利用數百萬個光感測器來生成逼真圖像。藉助捕獲的數據和修圖軟體,智能手機可以自動調整環境光線,視場和其他參數,從而為你提供最佳的照片。建立Codec Avatars同樣是物理數據和複雜軟體的結合,但涉及的要素遠比比一般的Instagram帖文更多。
Codec Avatars需要捕捉你的三維輪廓,包括你移動方式的所有細微之處,以及能夠令朋友和家人瞬間識別你的特質。另外,要令數十億人每天都利用Codec Avatars,你需要令它們變得簡單而且自然。面對這一挑戰,FRL創建兩個世界級的捕捕獲工作室:一個用於面部,另一個則面向全身。兩個工作室都搭載了數百個高解析度攝像頭,並以每秒1Gb的速度捕獲數據。
余守壹說道:「作為解釋說明,具有512Gb磁碟空間的筆記本電腦只需三秒鐘就會耗盡空間。我們的捕獲過程持續大約15分鐘。大量的攝像頭確實挑戰了捕捉硬體的極限,但挑戰極限允許我們採集最好的數據以創建當今世界最逼真的虛擬化身之一。」例如,其中一個工作室包含1700個麥克風,用於在3D中重建聲場並實現真正的沉浸式音頻。
FRL的方法是利用捕獲的數據來訓練AI系統,令其只需數張圖片或視頻即可快速輕鬆地構建你的Codec Avatar。但由於人類特質的多樣性,他們面臨一項相當巨大的挑戰,而團隊才剛剛起步。余守壹指出:「這教會我需要意識到每個人都有其獨特之處。我們捕獲過有著誇張髮型的人,穿戴腦電圖帽的人。我們也掃描過戴耳環,鼻環等等不同的人。」
捕獲工作室安裝了大量的攝像頭。
在FRL匹茲堡工作甚至產生過意義重大的時刻。別爾科回憶說:「亞瑟的父母曾來過,並為其孫子孫女,及未來的曾孫錄製了一段信息。這倆基本上是創建了一個互動式時間膠囊。我從未真正想過遠程呈現可以幫助後代與過去建立聯繫,但你能想像未來能夠看到已不在人世的親朋發來的信息嗎?」
5. 動畫化虛擬化身
這兩個捕獲工作室對FRL匹茲堡的努力非常重要,但它們龐大且不切實際。研究團隊的目標是,未來某個時刻能夠通過輕量級頭顯實現相同的結果。然而,今天匹茲堡團隊不得不自行構建市場所不存在的捕獲解決方案,於是他們發明了一系列配備攝像頭,加速度計,陀螺儀,磁力計和麥克風的頭戴式捕獲系統(Head Mounted Capture systems;HMCs),從而捕獲完整的人類表達範圍。當用戶在虛擬環境中相互交談時,所述的HMCs將動畫化Codec Avatars。
(視頻不可見)
真實人類與虛擬化身的並排比較。左側是真人,右側則是虛擬化身。與其他虛擬化身不同,Codec Avatars完全是自動生成。
構建HMCs並非易事。感測器需要嵌入至人們感覺舒適的頭顯之中。照亮臉部會導致令人不快的用戶體驗,因此匹茲堡實驗室的HMCs選擇了人眼看不到的紅外線。FRL研究科學家赫南·柏蒂諾(Hernan Badino)指出:「如果虛擬體驗要變得與物理面對面體驗別無二致,我們需要具備全面的感知能力,同時確保頭顯不會限制用戶的姿態和表達。」
軟體同等重要,而FRL團隊已經制定了一套程序來處理來自HMCs的數據。柏蒂諾解釋說:「研究人員可能希望從設備中獲取非常具體的圖像,或者對捕獲系統進行完全控制以測試特定的假設。我們團隊開發的軟體使得我們能夠靈活控制捕獲系統,從而允許我們專註於研究特定方面。軟體同時含有一系列用於在實驗室內部署頭顯的工具,如校準,數據診斷和分析工具。」
6. 安全第一
在現實生活中與他人交談時,信任是一個關鍵組成要素,所以虛擬現實不應該有任何不同。FRL的系統需要提供人們可以立即信任的逼真虛擬化身,而其中重要的一點就是準確地捕獲微妙的表情。謝赫說道:「要令社交引人入勝,唯一有效的證據是真實。一種隱含的信任是,你能夠從另一個人身上獲得『真正的』信息。」
為用戶提供一種快速輕鬆的虛擬化身構建方法只是其中一個挑戰。確保人(及其虛擬化身)保持安全則是另外一個拼圖。為了應對這一潛在的問題,匹茲堡團隊結合了用戶身份驗證,設備身份驗證和硬體加密。但一切都始於正確處理數據。別爾科指出:「這對我們所有人來說都非常重要。在開始任何採集工作之前,我們需要確保我們擁有一個強大的系統來處理和存儲數據。」
團隊敏銳意識到的一項技術是「DeepFakes」(一種AI換臉技術),亦即通過AI和現有的圖像與素材來製作以假亂真的畫面(如令未曾出演的某人成為某部影片的女主角)。這項技術在未來只會不斷提升,因此你很難區分真實事件與基於DeepFakes技術的人工事件。謝赫認為:「Deepfakes對我們的遠程呈現項目構成了生存威脅,因為信任與溝通有著內在的聯繫。如果你在通話時聽到母親的聲音,你不會懷疑其話語的真實性。儘管她的聲音是由一個嘈雜麥克風進行感知,被壓縮,經過無數英里的傳輸,在遠處進行重建,並由一個不完美的揚聲器播放,但你依然有這種信任。」
FRL匹茲堡正在考慮採取措施來保護虛擬化身的數據安全。例如,他們正在探索通過真實賬戶來保護未來的虛擬化身。胡佛回答說:「如何結合真實身份將是其中的關鍵要素,我們已經討論了未來設備的數種安全和身份驗證選項。這種技術要登陸消費者頭顯尚需多年的時間,但FRL已經在研究可能的解決方案。」
研究人員同時定期與隱私,安全和IT專家進行交流審核,以確保其遵循協議並實施最新,最嚴格的安全措施。胡佛解釋道:「我們已經考慮過這項技術的所有可能用例。我們已經意識到風險,並且經常討論這項技術可能產生的積極影響和消極影響。作為一個實驗室,我們對開發這項技術感到興奮,但前提是它是以正確的方式開發出來。每個人都知道這項研究的重要性,以及人們信任它的重要性。」
7. 與任何地方的任何人聯結
想像一下,你戴上頭顯後並能傳送至千里之外的教室,辦公室,或生日聚會。所有人都能馬上認出這就是你本人。你的相貌,行為和聲音都如同現實世界一般。這不僅僅是為了方便。無論是因為各種情非得已的原因,還是說單純出於距離考慮,栩栩如生的虛擬化身都可以出現在你肉身所無不能到達的地方。這有助於解決當今人們在維持長距離關係和尋找社區時所面臨的諸多挑戰。
重點不是取代物理聯結,而是在人們無法親臨現場時為其提供新的交互工具,例如電話機和視頻通話的發明。當然,在逼真虛擬化身準備好迎來黃金時期之前,FRL尚有大量的工作要做,他們面前依然擺著一系列的問題。當你為人們構建一種允許其進行遠距離逼真互動的全新方式時(彷彿彼此都存在於相同的空間中),在它能夠拿出檯面之前你需要解決大量的問題並實現無數的突破。
但這種真實的親密感正是FRL匹茲堡團隊所致力於通過Codec Avatars實現的目標。謝赫表示:「我們擁有推進新概念的資源。再加上如果你能夠彙集各種專業人才以全面解決這些巨大的設計挑戰,你將可以大大加速前所未見的創新到來。」
原文鏈接:https://yivian.com/news/58103.html
※大朋VR宣布完成新一輪數千萬元融資
※從2015年卡馬克內部郵件看Oculus VR生態建設戰略
TAG:映維網VR |