盛驍傑：對於充滿好奇心的技術人來說多媒體技術是個寶藏

最新 03-31

隨著VR視頻的普及，越來越頻繁的出現在公眾視野，相關標準、優化改進都在按部就班的推進中。隨著5G商用臨近，將助力VR視頻進一步普及。LiveVideoStack郵件採訪了優酷VR技術專家盛驍傑，暢聊了個人的成長經歷，VR視頻標準的演進、技術難點，以及未來應用前景的展望。

策劃 / LiveVideoStack

LiveVideoStack：盛驍傑你好，能否簡要介紹下自己，包括目前的主要工作及關注領域？

盛驍傑：我是2009年畢業於上海交通大學圖像通信研究所，在加入阿里前在Pixelworks從事過多年的圖像處理演算法研究並獲得了多項美國專利的授權。2013年來到阿里後，主導或參與過移動端視頻編解碼器優化，超高清視頻處理演算法研究等項目，目前的工作主要集中在兩個方面：分別是虛擬現實視頻編碼和傳輸，以及高效的視頻AI異構計算平台。我平時會主要關注一些多媒體領域的最新進展，如新一代視頻編碼技術和標準，超高清視頻的處理，以及視頻智能計算方面。

LiveVideoStack：許多開發者都有體會，做音視頻的「坑」比較多，入門不易做好難。你為何選擇鑽研多媒體開發這一領域？對於有意願進入這一領域的初學者，您有哪些經驗可以分享的？

盛驍傑：我覺得多媒體這個領域是很有意思的：一方面多媒體包含的面很廣，發展也很快，就拿視頻這塊來說，大的劃分就有視頻的壓縮，視頻的處理以及視頻理解這些方面，這三個方面互有聯繫但又區別很大，其中的每一個方面又聚集了大量的技術人才不斷的深入研究，可以說視頻這個領域每年都有很豐富的新技術和新思路冒出來，對於充滿好奇心的技術人來說是一個豐富的寶藏。

另一方面，多媒體的每個經典問題本身卻有很長的歷史，而且直到現在還是充滿挑戰。比如經典的視頻壓縮問題，視頻圖像質量提升問題，視頻中物體的識別問題等等，這些問題從提出到現在已經有差不多半個世紀，但目前的解決方案還是在不斷改進中。所以，無論是多媒體領域的老問題，還是新解法，都是非常吸引我去鑽研的。

對於進入這個領域的初學者，我的建議是先要通過項目把基礎打牢固，盡量能結合代碼實踐把原理搞明白。就拿視頻壓縮來說，裡面有很多的模塊，比如運動估計，熵編碼，模式選擇，碼率控制等等，如果只用FFmpeg寫一條命令去做壓縮，那很多編解碼原理的東西就沒有機會去碰到了。所以這個領域停留在用這個階段很容易，因為現在現成的開源工具已經很多了，但要時刻保持好奇心，不僅僅停留在用，而是鑽進去看代碼，看原理，才能夠一步步走的紮實。

另外，就是對於一些經典問題，不但要了解一些最新的解法，對於一些經典方法的了解也非常重要，了解一個問題的解法的歷史，其實可以加深對問題本身的理解，很多經典方法本身充滿了思想上的啟發性。

LiveVideoStack：關於Codec，因為有Google、Netflix等巨頭的支持，AV1勢頭很猛。但在硬體Codec領域，H.264還是主流。而HEVC因為專利風險，正在面臨來自AV1的挑戰。當然還有國產的AVS系列。你如何看待未來Codec戰爭？

盛驍傑：目前在編碼標準領域，AVS和H.26x系列相對來說屬於歷史比較久的，目前最新的H.265和AVS2也屬於同一代的編碼標準。我認為一個編碼標準的成功與否有多方面的因素，比如壓縮標準的複雜度和壓縮效率，行業內晶元解決方案的普及度，靈活高效的配套軟體編解碼解決方案，以及專利的費用等等。目前來看，H.26x系列和AVS系列都通過幾代標準的迭代，在以上的幾點中做的各有特色。比如HEVC在晶元的支持覆蓋上做的更有優勢（目前主流的手機都已經支持了HEVC硬解碼能力），但它的專利費用也是比較高昂的。所以國外出現了互聯網巨頭聯合起來開發更為開放的AV1標準，以在某種程度上擺脫HEVC的標準壟斷。而對於AV1來說，如果要在未來的競爭中取得優勢，還是需要在以上的幾個關鍵點中做的更好。

目前來看，從壓縮標準的複雜度和壓縮效率來看，AV1設計了一些比較複雜的編碼工具來使得壓縮率要優於HEVC，但同時編碼的複雜度也大大上升，目前的參考軟體的編碼速度還是遠遠無法達到實用階段，後續還有一個漫長的優化過程，同時，硬體支持的鋪開速度目前也還有很大的不確定性。在此同時，H.266標準已經開始啟動來進一步通過更複雜的編碼工具使得壓縮率優於AV1，而國內的AVS3編碼標準也開始啟動，所以未來Codec的競爭肯定不會是單一維度的，而是綜合多方面實力的競爭。

LiveVideoStack：對於VR視頻或直播，對Codec有哪些特定的要求和難點？

盛驍傑：VR視頻在兩個方面打破了傳統Codec研究的思路，第一就是VR視頻本身是球形的，要適應傳統Codec矩形編碼的形態，就要做球形到矩形的展開，這個過程就會造成像素的浪費，比如一個球形視頻的南北兩極展開後就會佔據很大的面積，導致像素的浪費和壓縮效率的損失。第二就是VR視頻的解析度很高，目前一般的視頻解析度到4K的體驗已經非常好了，但VR由於它是包裹住人的360度視頻，所以整個VR視頻如果解析度是4K，那麼用戶眼前視野範圍能看到的可能只有720p，所以VR視頻要體驗很好，要到8K，甚至16K的解析度，而這又是目前的編碼技術，或者終端的解碼能力所處理不了的。所以說VR視頻對傳統Codec提出的挑戰是很大的。VR視頻的Codec要做到能夠減少球形視頻像素浪費的同時，又能夠處理極高解析度視頻的高效編碼，這是兩大難點。

LiveVideoStack：VR視頻或直播還面臨哪些技術挑戰？

盛驍傑：我認為VR視頻和直播目前還面臨的技術挑戰主要在採集端和編碼端，先說採集端，目前要採集VR視頻一般用的是多個魚眼廣角鏡頭拍攝到整個360度範圍的圖像，然後對多個鏡頭的圖像做實時拼接，形成一個完整的360度視頻畫面。但目前的魚眼廣角鏡頭由於焦距一般比較近，所以在採集稍微遠處的物體時就不是非常清晰，這樣就會使得大場景的VR直播受到限制。其次，在採集端的採集解析度，數據處理和拼接效率方面，目前的VR視頻和直播也很難做到8K以上解析度。最後，VR採集端的成本也是非常高的，一般比較高端的採集設備都是幾萬以上，Nokia OZO這樣的甚至需要幾十萬，成本也極大的限制了VR的使用場景。

再來說說編碼，這點是和之前說的VR視頻和Codec的問題相關聯的。目前的傳統編碼器，對於4K及以上解析度的VR視頻，至少需要10Mbps以上的碼率才能保證基本的觀看質量，對於一些複雜場景，甚至需要30Mbps以上，這對於目前國內用戶的帶寬情況來說，是一個很大的挑戰，一般來說，要把壓縮碼率控制在5Mbps，甚至3Mbps以下，才能夠使得大部分用戶能夠流暢的觀看VR內容。

LiveVideoStack：能否介紹下VR視頻的標準在國內及國際上的演進狀態？

盛驍傑：目前關於VR視頻的標準在國內和國際上都在不斷演進。在國際上，MPEG組織在2015年10月的113屆MPEG會議上就提出OMAF（omnidirectional media application format，全景媒體的應用格式）標準。此後，業界很多知名公司以及國內外各大高校紛紛參與制定標準的隊伍中。OMAF框架可用於將360度視頻與二維圖像幀之間的映射和渲染；此外，OMAF還定義了全景視頻的傳輸機制和存儲格式等等。在2017年4月的會議上，MPEG就公布了8種常用的映射格式。並且，MPEG還提出了適用於全景視頻的幾種按視角分塊編碼的方案，可供靈活的選擇。按照計劃，到2017年底，MPEG已經將三自由度（360度視頻）的全景VR標準制定完畢，到2020年底，MPEG的六自由度全景VR系統也將會發布。

在國內，AVS（audio video coding standard，數字音視頻編解碼技術標準）工作組在2015年下半年也啟動了VR全景視頻標準計劃，其任務和目標著重圍繞高效視頻編碼和傳輸，定義全景視頻的表示方法和編碼工具以及系統傳輸和音頻標準，以提升全景視頻壓縮效率。目前標準制定已經進入到第二階段，也就是新的高效全景視頻映射編碼工具已經制定完畢。對於VR國標的下一步建設計劃，AVS組織也將把標準制定的重點從三自由度的全景視頻轉向六自由度全景視頻的編碼。所以說，無論是國內還是國外，在VR視頻標準的制定方向上還是比較清晰和一致的。

值得一提的是，從去年開始，阿里優酷也開始積极參与VR國標的建設，並在AVS VR第十次會議上代表阿里優酷提出了VR編碼的技術提案。在隨後經過標準組的主客觀測試和評估後，我們的技術提案被標準組正式接收，作為VR編碼標準的核心編碼工具之一。通過我們這個提案所提出的方法，目前VR國標的非對稱編碼演算法已經可以使得VR視頻壓縮技術在用戶主視角畫質不變的情況下，降低高達70%以上的編碼碼率。除了積極的參與VR標準的制定外，我們在業務場景中也正在積極的推進通用的VR雲服務技術和VR標準的結合。因為隨著VR標準的越來越成熟和完善，標準作為VR體驗的標杆性示範效應就會越來越明顯，而雲服務作為一種通用化的技術服務平台，和標準的契合度就自然會比較高。我們希望能夠將阿里雲的通用VR服務平台和VR標準的標杆性體驗結合起來，一方面使得VR雲服務能夠借力標準來提供示範性的用戶體驗，另一方面，VR標準也可以將阿里雲VR服務看做是一個承載標準的最佳實踐平台。這樣，標準制定，技術實踐，業務發展這三方面就能夠有機的結合起來，並且對於VR產業的發展也能形成比較有力的推動。

LiveVideoStack：在今年的西班牙世界通信大會MWC上，5G成為熱點。你如何看5G技術給多媒體生態及VR視頻帶來的機會？

盛驍傑：5G技術是無線傳輸的一個突破，如果說3G到4G是從移動互聯網的文字圖片時代到剛好邁入視頻時代，那麼5G就是徹底進入到多媒體應用爆發的時代。由於對於移動多媒體應用來說最大的阻力之一：帶寬約束和成本在5G時代會大大降低，可想而知，5G時代的移動多媒體生態會逐漸豐富起來。目前的VR視頻由於用戶側帶寬的約束，使得即使只是4K的VR視頻在壓縮後也無法具有很好的體驗。到5G時代，更高的解析度（8K以上）的VR視頻，更自由的視覺體驗（比如6自由度）都會在移動設備上擺脫之前的巨大數據傳輸的束縛，而一旦VR視頻的體驗上升了，用戶也肯定會越來越樂意接受消費VR視頻。另外，目前電信正在推進的1G帶寬入戶其實也和5G類似，正在不斷降低用戶體驗VR視頻的門檻。而如果反過來看，在5G時代的帶寬情況下，VR視頻有機會成為最適合承載在上面的體驗形態，因為和8K視頻需要的超大電視屏幕或投影牆相比，VR頭顯的較輕量級的消費形式會變得更為容易普及。

LiveVideoStack：展望未來，你認為VR視頻在哪些場景或行業有機會重度使用？

盛驍傑：我認為VR視頻可能會在娛樂，教育方面首先表現出較大的應用潛力。在娛樂場景下，用戶的身臨其境的感覺顯得尤為重要，目前的視頻形態在這方面還是非常欠缺的，離現場的體驗有很大的差距。VR視頻在某種程度上可以彌補這種差距，特別是考慮到未來VR視頻在採集端的清晰度提高，壓縮的帶寬壓力減輕，以及VR終端的輕便程度提高，再加上VR全景聲技術的普及，用戶的臨場體驗感肯定會不斷的加強，可以預見用戶的接受程度也會不斷增加。在這方面，阿里優酷其實已經有了比較多的嘗試，優酷VR視頻和直播在內容上已經覆蓋了音樂，體育以及大型活動等多類場景，通過業務上不斷的探索嘗試和技術上的優化迭代，優酷VR視頻和直播已經能夠在不同類型的場景中做到比較好的沉浸式體驗，並且也獲得了不少用戶的良好反饋。值得一提的是，去年的阿里年會也是通過我們的VR直播技術進行了整場的VR直播，各方面的反饋都不錯。當然，在VR體驗的提升和技術的改進方面是沒有止境的，我們後續還會持續不斷的對VR視頻和直播的體驗進行優化，能夠讓用戶能越來越身臨其境。

另外，在VR教育方面，我個人認為潛力也會很大，畢竟在教育領域用戶的直觀和形象的體驗也是非常重要的，VR的一大特點就是能夠極大的拓展用戶的直觀體驗，能夠把豐富多彩的知識更加形象的展現在用戶面前，信息量也會比傳統的圖冊或視頻這種形式要更加豐富多樣。

LiveVideoStack：AI等新技術對多媒體開發生態會產生怎樣的影響？看到哪些場景的應用？

盛驍傑：AI對於多媒體領域目前的影響面已經比較大了，比如AI對於視頻的理解，視頻處理以及視頻的壓縮這三大領域都有不同程度的影響。

在視頻理解這塊，由於深度學習的普遍應用，內容識別和理解的準確率已經比之前的特徵提取+SVM分類時代大幅度提升了，從而有不少應用開始步入實用化的階段，比如視頻的自動化審核，視頻智能標籤分析以及比如視頻的自動拆條等等，這些應用使得機器有越來越多的機會能夠提升原本非常消耗人力的審核，打標以及拆條等環節的生產效率。

在視頻處理方面，深度神經網路也和一些經典的視頻處理問題產生了新的化學反應，比如傳統的通過濾波器精心設計的圖像去噪演算法，再比如超解析度演算法等等。通過深度學習的工具，傳統的圖像處理已經能夠超越傳統演算法的一些局限，達到更具有自適應性的階段。

而在視頻編碼方向，目前深度學習的影響相對而言還不是很深入，畢竟經典的視頻編碼框架還是有很多數學上的工具來支撐，深度學習一時間無法全部顛覆。但深度學習也開始在編解碼的後處理模塊，比如去塊效應和SAO等模塊開始進行了一些有益的嘗試，並且也取得了一些不錯的結果，這方面的潛力還需要持續觀察。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 LiveVideoStack 的精彩文章:

※Facebook 360度音頻編碼與渲染

TAG:LiveVideoStack |