Oculus如何為VR創建逼真音頻,兼具直接聲、反射聲、混響聲
文章相關引用及參考:映維網
大多數房間的反射和混響聲遠遠超過直接聲。
(映維網 2018年10月29日)人們常說眼見為實,但在OC5大會上,Oculus首席科學家邁克爾·亞伯拉什表示準確的聲音渲染對創建可信VR體驗而言十分關鍵,而聲音渲染的關鍵地方是模擬環境及其聲學效果。
在題為「Oculus Quest的聲音設計」的OC5主題演講中,音頻設計總監湯姆·斯默頓(Tom Smurdon)和軟體工程師彼得·斯特林(Pete Stirling)探討了如何為Oculus Quest和Rift創建高保真度的音頻體驗,並分享了一些即將登陸Audio SDK的未來技術。Oculus日前向我們分享了Facebook Reality Labs的幕後工作,以幫助我們進一步了解這些最新進展。以下是映維網的具體整理:
1. 深入問題
當聲音在現實世界中產生時,它以複雜的方式與環境相互作用。物體的振動導致聲波在空氣中傳播,而牆壁,地板和天花板等表面會散射它們。所以聲音在到達我們耳朵之前就已經發生了改變。我們聽到的聲音實際上是原始信號源在不同時間點傳來的一系列回聲總和。如果聲源可見,我們聽到的第一個聲音是直接聲,它沿著從聲源到聽者的最短路徑傳播。接下來,從附近表面反射的聲音將從各個方向到達聽者。我們將其稱之為早期反射聲。聲音的其餘部分則是混響,它由一系列的延遲回聲(隨時間而平滑地衰減)組成。
在以前,大多數用於VR和遊戲的音頻渲染系統只能準確渲染直接聲。但令人驚訝的是,大多數房間的反射和混響聲遠遠超過直接聲。為了獲取更逼真的音頻,聲音設計師必須手動將混響區域添加到虛擬環境中的每個位置。這是一個耗時的過程,需要大量的參數調整,手動作業,以及專業知識才能實現好的結果。
Facebook Reality Labs(FRL)在17年一直在努力創造高質量的聲學模擬技術,令其可以根據環境的幾何形狀自動生成反射和混響。今天,映維網想向大家分享FRL音頻團隊的研究人員是如何解決這個問題。
2. 研究團隊
Facebook Reality Labs音頻研究團隊(從左右到):菲利普·羅賓遜(Philip Robinson), 塞巴斯蒂安·加里(Sebastia V. Amengual Gari),卡爾·席斯勒(Carl Schissler)和拉維什·梅赫拉(Ravish Mehra)
四年前,當研究團隊經理拉維什·梅赫拉在FRL創立音頻團隊時,他設想過創建一個虛擬音頻在感知上與現實音頻無法區分的虛擬世界。他知道為了實現這個未來,他必須解決的第一階研究問題是高質量的空間音頻和高效的房間聲學。在接下來的幾年裡,他開始進行大量的研究工作以解決空間音頻問題,同時尋找合適的人才加入以解決房間聲學問題。
梅赫拉表示:「解決房間聲學問題的計算成本非常高,我知道準確模擬環境的聲學效果仍然不夠。我們提出的任何方法都需要滿足實時VR應用程序提出的嚴格計算和內存限制。」
2017年夏天出現了一個獨特的機會,當時卡爾·席斯勒剛剛完成了他在北卡羅來納大學教堂山分校的博士學位。席斯勒曾在FRL音頻團隊度過了兩次暑期實習(梅赫拉是他的實習導師),而他非常適合成為開放式房間聲學首席研究員。
席斯勒解釋道:「我是去年開始在Facebook Reality Labs工作,當時我接受的任務是創建一個可以實時模擬所有這些複雜聲學的系統。從我很小的時候起,我就想為遊戲創建更好的音頻。那時候,我會通過在聲音效果中添加混響來修改我最喜歡的遊戲。多年後,我很高興現在終於有機會研究這種可能會對VR音頻質量產生巨大影響的技術。」
由研究科學總監菲利普·羅賓遜領導的心理聲學小組也在項目中發揮了關鍵作用。博士後研究科學家塞巴斯蒂安·加里進行了一項實驗,以確定聲學模擬的什麼方面對準確模擬而言最為重要。憑藉紮實的心理聲學基礎,FRL音頻團隊能夠對新音頻技術進行感知評估,從而為未來的研發提供信息。
3. 計算資源挑戰
對於聲學的真實模擬而言,最大障礙是其所涉及的計算複雜性。行業存在一系列基於數值波解算器或幾何演算法的現有模擬技術,但它們都不支持在當前硬體上實時運行。它們需要快速的多核CPU或GPU,但即使是這樣,它們一次也只能模擬少量聲音源。添加一個遊戲引擎並執行各種圖形,物理,AI和腳本,你可以看到獲取必要數量的資源是多麼困難。
避免這個問題的典型方法是:進行長時間預計算以模擬每對聽者與聲源位置的聲學響應。在運行時,可以向該數據插值每個聲源的響應,並用於過濾聲源的音頻。實際上,這為複雜場景增加了大量數據。另一個缺點是,由於所有聲學響應都是預先計算,因此不能出現改變聲音的任何動態場景元素。這意味著關上門都無法阻止你聽到聲音源,而可破壞的環境或用戶創建的環境則是完全不可能實現。
在FRL,我們面臨的挑戰是開發這樣一種方法:使用儘可能少的計算和內存資源,並且同時能為複雜場景渲染高質量音頻。標準很高,典型的遊戲可能有數百個並發聲源需要模擬,所以計算預算非常緊張。另外,模擬需要是動態進行,以便能夠實現最廣泛的沉浸式音頻體驗,同時不受長預計算時間的影響。
4. 音頻創新
為了解決這一挑戰,席斯勒花了將近一年的時間來完善模擬引擎。他指出:「我必須利用我能想到的所有技巧和優化方式來構建具有所需功能的系統。」
為了有效計算聲音在3D環境中的傳播,研究人員利用了先進的射線追蹤演算法。傳統的聲線追蹤需要每秒追蹤數百萬條射線,而這需要大量的計算。
席斯勒開發的優化功能可以在保持高質量和動態場景元素的同時大幅減少射線數量。使用隨機射線追蹤時最大的問題是,存在可能導致偽音的雜訊。為了解決這個問題,研究人員開發了巧妙的降噪演算法來濾除模擬結果中的雜訊。
當場景中的聲源數量增大時又會出現另一個大問題。在一個簡單的實現中,計算時間將根據聲源數量成比例地增加。令新技術可行的關鍵進步之一是,感知驅動的動態優先順序與聲源集群系統。通過開發能夠將不重要或遠距離聲源集中在一起的智能啟發式演算法,研究人員能夠在非常複雜的場景中顯著縮短計算時間。
5. 提升沉浸感
利用FRL開發的創新方案,研究人員能夠實現項目的最初目標,並且為由空間音頻技術(Spatial Audio Tech)負責人羅伯特·海特坎普(Robert Heitkamp)領銜的Oculus Audio SDK團隊提供工作原型。在OC5大會上,音頻設計總監湯姆·斯默頓和軟體工程師彼得·斯特林介紹了這個系統。在演講期間,浸淫遊戲音頻行業多年的斯默頓談到了這一原型:「即便什麼都看到,你都會知道自己什麼時候站在牆邊。你可以感受到一切,這非常不可思議。我對他們現在所取得的進展感到非常興奮和高興。」
席斯勒補充說:「當你第一次在VR中聽到逼真的音頻模擬時,你將會為它對沉浸感的提升程度感到驚訝。真實的音頻渲染甚至可以發揮協同作用,令視覺效果看起來更好。」
6. 靈活創造性
團隊在開發這項技術時的主要目標之一是,為聲音設計人員提供支持,幫助他們能夠輕鬆地在VR中創建逼真的音頻體驗。 他們還希望為美術提供參數,幫助他們實現創作願景。席斯勒指出:「有時候你不希望它聽起來100%真實。在對話過程中,你可能希望降低混響的數量,從而確保可以理解角色的意思。這項新技術擁有如此靈活性。」
現在,設計師不必為每個房間設置複雜的參數集,只需要為幾何圖形指定材質屬性即可。模擬的動態特性也有利於內容創建者:美術可以在模擬運行時調整參數,與預計算的聲學模擬相比,這大大減少了迭代次數。
7. 未來任務
隨著FRL音頻團隊已經實現了開發高效模擬引擎的目標,現在他們正致力於改進技術以模擬其他聲學現象。有一系列的聲學現象目前難以模擬,如衍射和透射。團隊接下來的目標是研究能有效計算這些效果的新方法。席斯勒表示:「我希望我們能夠繼續推進發展音頻領域的先進技術。我為所有遊戲都能擁有這種級別音頻保真度的那一天感到興奮。」
在OC5的主題演講中,邁克爾·亞伯拉什描述了為VR和AR生成逼真音頻而必須解決的問題。除了房間聲學模擬之外,空間音頻的另一個挑戰是頭相關傳遞函數(HRTF)的個性化實現,以針對每位用戶定製3D空間線索的方式生成音頻。亞伯拉什解釋說,HRTF的個性化問題可能需要比預期更長的時間才能解決。從好的方面來說,在實際可用的HRTF個性化能夠實現之前,納入對環境的聲學模擬可能有助於提升沉浸感。
原文鏈接:https://yivian.com/news/52060.html
※用VR普及公共安全常識,3Glasses為常州打造安全體驗中心
※《Raw Data》開發商Survios:大部分VR用戶並非硬核玩家
TAG:映維網VR |