當前位置:
首頁 > 科技 > 天貓互動技術專家:有了 ARCore 和 ARKit,AR 行業還能做啥?

天貓互動技術專家:有了 ARCore 和 ARKit,AR 行業還能做啥?

沉浸感按:本文作者為阿里巴巴天貓互動技術專家蔣佳憶,此前他在《如何評價蘋果在 2017 WWDC 上發布的 ARKit?》一文中分析了 ARKit 具備的技術優勢和不足。在這篇文章中,作者詳細討論了一些目前行業較關心的話題,如 Google 的 Tango 會如何,ARCore 和 ARKit 的對比,以及 AR 還有哪些技術需要攻克等等。沉浸感獲權首發。




距離ARcore發布已經過了一周,作為行業參與者肯定第一時間關注,基本各大媒體關於技術相關的問題已經說的比較清楚了,這裡也不再深入談技術,還是從行業發展的角度來說說目前比較熱門的問題。




 Tango 是否會被放棄?




2014 年 Google 為 Project Tango 打造了一款手機原型機,能對周圍環境進行 3D 建模 





其實 Tango 面世已經有很長一段時間,目前市面上可以看到的已經有聯想和華碩兩款手機了,而如果 ARCore 不出現的話,理論上年底應該會有第三或者第四個品牌推出 Tango 手機,但是現在應該都不會有了。




究其原因,拋開 Google 內部鬥爭這些因素不談,如果關注 Tango 的同行應該都知道,Tango 的應用生態在最近一年多的時間裡幾乎沒有太大的變化,兩款手機的預裝 APP 也幾乎都是手機廠商或者 Google 自己開發的,當然大佬們並不是沒有努力過,各種開發者大賽或者行業應用主題大賽也都有舉辦,很可惜大部分停留的 DEMO 的狀態。



這其實並不是 Tango 本身不夠好,而是新款硬體推廣的成本實在太高。

硬體等內容,內容看硬體的死循環一直無法打破,哪怕是非常專註於行業服務的 B 端應用,願意為此買單的大客戶依然不多。




另外,從 Google 整體宣傳的策略來看,至少在之前,移動端的 VR 還是核心業務, 儘管每一次大型的開發者大會都會有 Tango 的身影和新的消息,但是 Daydream 的關注度遠遠超過 Tango。何況  Google 自己的 Pixel 沒有搭載 Tango,或多或說也說明 Google 對 Tango 的態度。而這時,ARKit 出現,Google 也確實失去了很好的先機,如果還是力挺陷入死循環的 Tango,那麼很可能會越來越陷入被動,所以這個時候 Google 只能革命自己,推出面對全安卓平台的 ARCore。



 但是從 AR 的能力來說,,

硬體方面,Tango 確實具備比較完整的 AR 能力,稍微轉化一下形態,那麼同樣的硬體模組去支持一個 AR 眼鏡對 Google 來說也不是非常難的事情

;軟體方面,同樣在 Tracking 中只依賴於單目的演算法,目前的 ARCore 也確實繼承了一部分 Tango 的架構或者思路,甚至有部分人認為ARCore 只是注釋掉了 Tango 底層演算法中深度相機那部分(肯定不會這麼簡單),所以我個人不認為 Tango 會被放棄,只是不會做為主力的產品而轉為底層的能力服務 Google 的其他業務。




和 ARKit 的對比到底如何?





緊隨蘋果之後,Google 推出 ARCore



這個是大部分人最關心的問題,但是我個人覺得其實比較起來意義不大,只要手機目前的系統還是 iOS 和安卓對立的局面,那麼安卓就一定需要一個 AR 底層的演算法支持,這件事情只有兩種公司可以解決,一個是控制著系統的 Google,一個是手機廠商自己。

因為底層的空間定位演算法非常依賴於硬體的校準和標定,任何軟體公司想越過 Google 去支持整個安卓平台,尤其還需能夠得到大部分手機廠商的配合去標定 IMU 和攝像頭的參數,這需要和 OEM 廠商有長期合作的關係,而這幾乎是不可能的。

在 ARCore 發布之前,確實有一些手機廠商在自研演算法,也有一些手機廠商已經與 Google 對接中,但是從進度和可推廣的能力來說,Google 確實是首選,所以安卓的 AR 能力依靠 Google 這是目前最理想的方式。




很多人強調 ARCore 的功能幾乎完全複製了 ARKit,但是我個人覺得這並不能說明 Google 在技術或創新能力上弱於蘋果,從兩方面的原因看 Google 必須這樣做。




  • 第一,從硬體的控制力來說,百花齊放的安卓硬體是 Google 控制不了的,而 AR 的底層能力有很大一部分在於硬體,所以在無法確定的硬體設備上,Google 幾乎沒有可能給出多於 ARKit 的功能,這也是首發的安卓手機除了 Google 自己的 Pixel 就只有 S8 的原因;



  • 第二,ARKit 在發布短短几個月的時間裡確實爆發了強大吸引力,各種類型的應用層出不窮,

    如果未來安卓系統想要無縫的對接 iOS 上的AR應用,那麼類似甚至相同的功能和介面可以極大的減少 AR應用的遷移成本,保證在AR應用發展初期安卓平台不會被落下。

    基於以上兩點原因,ARCore 和 ARKit 的相似幾乎是必然會發生的事情。





ARKit 掀起了開發者的內容創作熱情





那麼回到區別這一點,因為硬體環境和演算法架構的不同,兩者肯定在體驗和細微的功能上會有所區別,比如圖像的解析度、刷新率,或者光源感知演算法的效果以及尺度收斂的速度和精度等,這些細微功能的不同可能源自硬體的區別,也可能源自演算法中特徵提取方式的區別或 IMU 融合方式的區別,但是我相信作為兩家引領行業發展的公司,既然會拿出來面對大眾,一定已經保證了基本的體驗不會太差。




具體到兩者演算法架構來說,

基於 VIO 架構的 ARKit 更加側重於定位本身,比較輕量,在小範圍場景內使用不會有明顯的飄移感

,目前測試來看儘管可以返回每一幀的 3D 點,但是並不是很穩定,也不算準確,只是用於平面擬合使用,其實目前已經可以在現有 API 的基礎上開發出多平面識別的功能,但是這會非常依賴於畫面中的特徵點。整體看 ARKit 使用更加流暢,幀率也較高,對於用戶來說體驗是非常好的。




基於原 Tango 架構的 ARCore 在定位之外,會比較注重三維重建的部分

,畢竟Tango本身已經依靠深度攝像頭實現了實時的三維重建,ARCore 輸出的 3D 點至少也是半稠密的。所以從功能來說,ARCore 在未來的想像力會更大一些,不過這也不是沒有代價的,ARCore 的計算量也會更大一些,所以流暢性會有所欠缺,幀率也低於 ARKit,不過定位的精度可能會優於 ARKit(還有待進一步的測試),並且具備重定位的功能。




當然一定要分高下的話,

單從體驗來說,暫時我會更看好蘋果一些,因為蘋果可以完全控制自己後續的手機的硬體配置

,這就導致為了覆蓋率的 Google 在體驗上很難不有所犧牲,更難保證每一款安卓手機的效果都那麼一致,比如聯想和華碩兩款 Tango 手機的體驗就不一致,這方面比較類似 iOS 和安卓的區別。




明年 AR 的發展會怎麼樣?




可以確定的一點是,隨著 ARCore 的發布,AR 功能已經有能力覆蓋整個移動端,所以 AR 已經開始正式面對 C 端用戶,甚至比 VR 更容易被大眾所接觸,後續可以預見到的是,兩類公司一定會開始積極擁抱 AR:




第一,目前國內的手機廠商幾乎全都是安卓系統,所以肯定會開始與 Google 接觸或開發自身的 AR 底層能力,這個過程可能會持續半年到一年,

部分有實力的廠商會支持到今年甚至去年發布的旗艦手機以保證足夠的覆蓋率。

至少明年各大廠的旗艦手機一定會包含 AR 能力,已知的至少已經有華為、華碩、LG等,Google 自稱的1億台設備肯定是有底氣的。




第二,國內各行業的應用生態大佬會開始著手開發和 AR 功能相關的產品,包含泛娛樂、電商、社交等多個領域。其實目前除了微信比較有克制力以外,各大應用或多或少都已經包含了和 AR 相關的產品,AR 掃也好,人臉的互動也好,LBS 定位也好,大眾已經開始逐漸接受虛實結合的交互方式。




初步猜測明年這個時候會有 30% 的用戶手機具備 AR 能力,兩年後會達到 50% 甚至更高,同時這些都是使用高端手機的有消費能力的用戶,是各類公司重點關注的

,而到時候 AR 應用生態一定會比現在有所好轉。具備想像力的玩法和應用一旦受到熱捧,那麼肯定會被作為某個功能產品融入目前的各類超級 APP中。




類似 BAT 這種級別的公司,目前雖然都對 AR 有所表示,但是 AR 並不是其核心業務或產品。我個人雖然看好 AR,但也承認手機端的 AR 和 PC 端上的互聯網,或智能移動端的 APP 相比還不在一個量級上。所以只要明年能夠看準 AR 應用的大趨勢,在功能和產品上不被競爭對手超越太多,那麼超級 APP 對應的大公司之間在 AR 方面就不會有大的差距,當然業務本身的差距不在比較範圍內。




而對一些中小型的公司來說,AR 可能會更值得關注,因為 AR 有機會影響移動端的流量分配,一時成為熱門的話,對剛起步的 APP 來說是非常重要的,而明年的 AR 產品會非常有可能製造熱點話題或玩法。對於那些主打 AR 的應用來說,不論是遊戲,或者是社交,明年都會有更好的環境和發展。




空間定位的底層演算法被 ARKit 和 ARCore 佔據後,AR 行業後續還有什麼可研究的?




這個問題在知乎上有很多人私信問我,類似的問題還有目前想從事 AR 相關的工作應該如何入手?這裡仔細回答一下。            




首先是演算法方面,可以比較明確的說,任何對硬體沒有控制力的公司,想從底層去統一 AR 都是幾乎不可能的,這不僅僅是一個技術的問題。

儘管 ARkit 和 ARCore 目前在功能上還有不足,比如很多人提到的識別、2D/3D跟蹤、語義分析等等,這些後續都有可延拓的空間,但是兩家 SDK 為了開發者儘可能簡單的入手,開放的 AP I也相對非常直接,而以上這幾個功能除了識別比較獨立之外,其餘都需要和底層演算法有相對深入的耦合,這就導致想在這兩家 SDK 上增加功能變的非常困難。




當然不排除 Google 未來會開源 ARCore,這樣至少安卓端的 AR 演算法還有很多可以做的事情。而相對獨立的識別演算法一直是人工智慧領域最重點研究的問題,不論是圖像、物體還是人臉,都是熱門的大方向,從事相關研究的人也比較多,當下競爭激烈。




如果拋開手機端來說,高通和部分晶元廠商同樣看到了 AR 的發展潛力,基於 GPU、DSP 或 FPGA 等特定計算單元的空間定位演算法晶元或硬體模組已經有一些比較不錯的成果,更不用說最近大熱的人工智慧晶元,所以未來的 AR 眼鏡公司也不一定會投入人力去做很多底層演算法的事情,因為不和晶元做對接的純演算法也是幾乎不可能得到好的體驗。能耗、幀率、性能優化等等事情都必須在晶元層面的基礎上去做,這個從 HoloLens 和 其餘眼鏡的區別來看已經比較明顯了。




總的來說,

AR 演算法本身就是一個軟硬結合的研發工作,我不能說小公司完全沒有機會,但是難度會非常高,而大公司有資源和人力去投入這沒有什麼問題

,在 AR 未來相對較長的發展歷程來說,確實不能一直等硬體公司來滿足業務需求,偏重業務型的公司可以憑藉自身的研發能力作出好的產品,硬體公司肯定會反向跟進,這對 AR 行業來說這是一個良性循環。 




其次是引擎方面

,這個看似不是一個很值得分析的方面,目前支持 AR 的第一引擎毫無疑問是 Unity,幾乎市面上 80% 的 DEMO 都是用 Unity 開發的,並且所有演算法 SDK 在推出的第一時間都會包含 Unity 的版本。但是這是從完全的 AR 應用角度來說,所謂完全的 AR 應用即是以 AR 為核心交互的應用,這裡大部分是遊戲,少部分是一些行業的初級應用。這並不是全部的需求,還有很多大型的 AP P都需要 AR 的功能,但這些大型 APP 不可能使用 Unity這麼龐大的引擎,至少在 5G 和更大容量的手機存儲標準沒有普及前是不可能的。



大家開發 AR 內容最熟悉的引擎




對此有兩種解決辦法,第一個是使用輕量化的 Native 3D 渲染引擎,並且這個引擎需要和市面上的主流 AR SDK 對接良好,這是目前幾乎大部分的大型 APP 的解決方案,市面上所有可以看到的具備 AR 功能的大型 APP 幾乎底層都有一個自研的 3D 引擎。這是一個比較浪費人力的工作,每一家的引擎都或多或少有一些區別,都是獨立研發的(目前市面上 3D 引擎開發非常搶手),所以

一個輕量化的,可嵌入大型APP,並且可以對接所有 AR SDK 的 Native 3D 引擎是目前比較稀缺的




第二個解決方案就是 Web AR,相比 Native 引擎來說,Web AR 具備良好的開放性,不需要更新任何的客戶端代碼,也就沒有大家頭疼的發版問題(尤其在 iOS 封禁了熱更新之後),所有工作都可以在 Web 端解決,這非常適合一些更新迭代很快並且交互定製型很強的 AR 產品,比如 AR 掃一掃的營銷需求。




ARKit 和 ARCore 都已經在 github 上有了 Web AR 的版本,同時國內外一些知名的 Web 內核也開始增加 AR 的相關功能,蘋果和 Google 未來也會支持 WebRTC (即 Web端可以訪問調用攝像頭和語音設備的技術),這些都表明業界非常看好 Web AR 的便利性和發展。




不過 Web AR 目前也存在一些問題,Web 3D 渲染的性能和覆蓋率目前和 Native 引擎還有一定差距,Web 端和底層演算法的對接及同步目前還需要一定的優化,體驗距離完全 Native 的方式還有差距(WebRTC 可以優化這類問題,但是目前還沒有普及),Web AR 方面人才稀缺,並且未來前景很好,很可能成為AR 發展的核心技術之一,不論是公司還是個人都值得大力投入。




如何交互,或許比技術問題更難以解決




然後是產品和交互方面,這個看似不是一個技術問題,但卻是目前最難解決的問題

。在當下 AR 底層技術剛剛發展起來還不成熟的時候,交互和產品的設計都依賴於了解 AR 技術背後的原理,比如想引導用戶對世界坐標系初始化,那麼交互設計自身就需要理解為什麼單目演算法需要一個初始化的過程以及到底需要如何初始化,如果沒有這個過程可能會帶來怎樣的後果。再比如如何引導用戶在空間移動,這個是之前圖形界面完全不存在的方式,交互設計師要明白用戶手持手機在空間中移動這本身就是 AR 世界裡最重要的一種交互方式。




而在產品層面,產品設計需要思考 AR 到底帶來的區別有哪些,如何連接人和物,如何連接人和空間,連接之後要給予用戶哪些刺激讓用戶持續的互動,目前的演算法對空間的理解到了哪種程度,如何最大化的展現給用戶虛實結合的效果,手持手機的時間最好控制在多久的範圍內等等這些問題。




相比於演算法或技術來說,以上這些問題目前還沒有一個好的答案,蘋果在這方面已經做出了相關的一些工作,給交互設計和產品設計的建議已經發布出來,這是非常好的開端,當然要很好解決這些問題,不僅僅是技術人員的投入,產品經理和交互設計師,甚至視覺設計師可能都需要參與一起探索。





Blippar 推出了一款 AR 掃描引擎應用




最後也是最關鍵的,一直在限制 AR 應用生態發展的核心問題,即真實世界的數據化和 3D 化程度不足。眾所周知目前深度學習大熱, 但是絕大部分的識別演算法除了網路結構或參數本身的調優之外,最依靠的就是訓練數據本身,不論是物體識別演算法,還是基於語義的空間感知演算法,如果沒有海量的數據進行訓練,那麼後續的功能改進都是空談。




知名 AR 工具 Blippar 之前一直在嘗試達到萬物可掃的效果,而且似乎確實某種程度上實現了,但是它選擇了犧牲認知事物的粒度,

當用戶掃描一雙鞋子的時候其實並不是想知道這是鞋子,可能更想了解的是這是哪一款鞋子,而如果演算法需要識別到這麼細緻的程度,則必須依賴幾乎每一雙鞋子的訓練數據

,這方面當下還沒有好的數據獲得方式,或者說從數據採集到標註數據的整個流程目前還不是很清晰。國內在數據採集標準方面比較理想的解決方案是眾包平台,之前很火的人工智慧音箱大部分是通過眾包平台來獲得語音的訓練數據,但是眾包平台水平參差不齊,也很難保證數據的標準和一致性,這個問題還需要很長時間的優化發展才可能幫助 AR 演算法更好的理解世界。




內容問題,更直接的說即 3D 模型問題

,因為 AR 帶來的是全 3D 的世界,而之前圖形界面對應的核心內容是文字、圖片、視頻等,這些內容目前沒有一個好的方式放置在 3D 世界中,或者換句話說,

如果僅僅是把 2D 世界的內容移植到 3D 世界,對用戶來說並不是一件很有意義的事情。




那麼想呈現一個好的 AR 體驗,3D 模型的供給就是基礎中的基礎,目前除了遊戲或電影領域有大量的人工 3D 建模師以外,在其他領域幾乎很少,之前國內知名的幾個電商平台都發布過商品 3D 化的計劃,但是目前線上可以看到的 3D 產品依然很少,也側面說明 3D 化工作的難度。




AR 畢竟不單單是一個遊戲工具,除了遊戲外,想真正作為一個基礎工具解決實際需求,那麼必須有更快捷的方式來生產 3D 模型。說到這裡這自然會讓人想到三維重建,當下三維重建的硬體和軟體都有很多,但是都還沒有達到足夠成熟的狀態,或者說足夠便利的程度,除了成本相對較高外,三維重建的流程還沒有標準化,不同演算法和硬體對於三維重建的對象和操作人員的技術也有一些要求,這就導致三維重建目前還是一個學習成本較高的工作,還需要一段時間的發展和普及。




基本熱門的問題就是以上這些,從 AR 行業來看,

我認為 ARCore 的發布代表 AR 技術全面進入 C 端,後續會是內容和技術互相促進,更新迭代的時期。在 AR 眼鏡到來之前,手機端是一個不得不做,並且值得做好的平台

,希望 Google 和蘋果可以保持良性競爭的關係,為大眾帶來體驗更好的技術,同時也希望開發者們可以喜歡 AR,帶來更多有價值的 AR 應用。












喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 沉浸感 的精彩文章:

雙十一淘寶繼續秀「黑科技」,去年是 VR Buy+,今年是 AR Buy+
亮風台首席架構師候曉輝:移動AR產品如何做好性能優化
全景照片不怕歪!Facebook 用神經網路矯正扭曲的地平線
大神解讀:谷歌 ARCore 就是低配版 Tango,它比蘋果 ARKit 好在哪?
HTC 考慮賣掉 Vive,VR真的這麼不景氣?

TAG:沉浸感 |