AR/VR專家告訴你：人機交互的未來場景長啥樣？

最新 09-07

沉浸感按：本文原載於微信公眾號「51CTO技術棧」，作者為uSens凌感科技技術研發副總裁馬賡宇，雷鋒網授權轉發。

2016 年被大家稱為 VR 元年，當時用戶能感受到的僅僅是最初級的 VR 體驗，就是一些頭盔硬體，把手機插在頭盔里。

目前，在 VR/AR、自動駕駛、無人機這些新興領域，傳統的交互方式已經不能滿足用戶的需求。隨著深度學習、計算機視覺等領域的突破性進展，一些新的交互方式已經成為可能。

基於過往經驗來看，研發 VR/AR 技術主要就是打造沉浸感，沉浸感是 VR/AR 帶給用戶不同於手機的特殊體驗。實現沉浸感，需要有交互、顯示和移動性這三方面技術支撐，以下內容，我們將以交互技術為核心展開。

在 AR/VR 領域中，交互不再用滑鼠和鍵盤，大部分交互技術均採用手柄。還有位置跟蹤技術，在一些高檔的 VR 設備中會提供，但成本較高，且需要連接電腦或主機來實現。未來，可能會採用用手直接抓取的方式，目前也有很多手勢交互方案提供商。

uSens 主要側重 AR/VR Interaction：

左側的 HCI（(Human-ComputerInteraction）就是人機交互界面，uSens 主要提供 Gesture（手勢識別）、View Direction（頭轉向識別）和 Position Tracking（位置追蹤）。右側是顯示技術，AR 和 VR 的顯示技術雖不同，但交互技術卻相通。

手勢交互技術

如下圖，手勢交互分為符號型、間接型和直接型三種：

符號型交互。如左一圖中顯示，這位男士做了 OK 的手勢，可通過圖形或其他方式識別，進而實現交互。

手持工具間接交互。如中間圖二所示，人手持鎚子砸釘子，這樣的場景用手柄可以很好的模擬。

直接和物體交互。如右圖所示，用手直接和物體進行交互，這樣的場景就需要對手的三維模型進行精確識別。

如下圖，是常見的硬體對三個場景的實現能力分析：

Game Pad。普通遊戲手柄，三種手勢交互場景都不可以實現。

6DOF Controller。是當前 VR 常用的手柄，比較適合拿著一個物體進行交互，如手持刀劍等，比較自然。但是手勢型和直接交互這兩種不能實現。

HoloLens。可以識別點擊和手張開這兩種手勢，只能實現符號手勢方式。

3D Hand Tracking 與 uSens Fingo。可通過手的形狀以及三維模型，實現這三種手勢方式。

手勢交互技術的使用場景

手勢交互技術的使用場景很廣泛，不光在 VR 領域，如下圖所示：

如圖中所示，像 Game、3D UI、Drive、Public Display、Medical 和 Intelligent Home 等，前三種是為了更好的體驗，後三種則是在公共場合下的應用；像手術、做飯等出於乾淨、衛生等方面考慮。

基於AI的手勢交互

uSens 從 2014 年開始，用深度學習演算法來解決手的識別問題。雖然研究手勢識別的人不多，但是和圖像識別、人臉識別一樣，都可以用深度學習來實現。

uSens 用深度學習研發 26 自由度手勢識別，可以從圖像裡邊把手的關節點和關節點角度與位置識別出來。

如下圖，是 26 自由度手勢識別演算法的大致思路：

參考 2014 年深度學習的一個案例，主要是借鑒 CNN 方式，不同圖像通過不同尺度的 CNN 進行卷積，得到一個大的向量，再用兩層全連接的深度網路得到關節點的 heat-maps。

heat-maps 就是關節點在圖像上的概率分布，如上黑框中所示，藍色的點就是小指指尖分布圖，在這個點權重比較大，其他位置減弱。得到每個關節點的權重圖，再用反向動力學、濾波等方法，就可以跟蹤出手 26 自由度的運動。

運動跟蹤（空間定位技術）

如下圖，是運動追蹤的主要應用場景：

如圖中所示，運動追蹤最早在軍事上使用，如導彈、飛機等需要在空中定位自己的位置，空間定位技術優化之後用於智能機器人、無人車、掃地機器人等。

VR/AR 也需要這樣的空間定位技術，如下是當前研發和掌握空間定位技術的公司及產品：Google Tango、Microsoft Hololens、Qualcomm VR SDK、Apple ARKit、Snapchat、Facebook和 uSens。

空間定位技術/視覺辦法

空間定位技術需要結合視覺和感測器兩方面的信息。

如下圖，是視覺特徵模型：

如圖右側中所示，是一個相機成像，通過相機觀測三維空間中的一個點，可以得到一張圖像，3D 點和圖像滿足下放投影方程。

左邊是三個比較常用的問題：

空間定位。3D 點 (x，y，z)，2D 投影 (u，v)，求解相機姿態 (R，T)。

三角化。已知相機姿態 (R, T)，求解 3D 點 (x，y，z)。

SLAM。僅已知 2D 投影 (u，v)，求解相機姿態 (R，T)，3D點 (x，y，z)。

視覺SLAM方法

視覺 SLAM 方法包含 Tracking 和 Mapping 兩個模塊，Tracking 模塊的功能是已知 3D 點位置，求解每幀圖像的相機 pose。Mapping 模塊的功能是用來更新 3D 點的位置。

視覺特徵

空間定位技術的視覺特徵可分為如下兩種：

基於圖像特徵點的方法，如 PTAM，ORB。

直接法，比較像素灰度差，如 LSD-SLAM、DSO-SLAM。

求解方法

根據上圖所示方程，求解方式有基於濾波的演算法和基於優化的演算法兩種，這些方法目前沒有好壞之分，在實際系統中都可以達到相似效果。

空間定位技術/感測器

上述的視覺方法能夠達到實用的程度，要歸功於感測器的進步及感測器信號融合到演算法中，使得系統性能得到提升。

如下圖，是感測器：Mechanic Gyroscope、LaserGyroscope 和 MEMs Gyroscope：

如上圖，左一是 Mechanic Gyroscope（機械陀螺儀），利用角動量保持不變的特性。當中間的轉子保持高速旋轉，但中間轉子方向不變，這樣可以得到設備的旋轉方向。這樣老式的機械陀螺儀用於幾百年前的輪船中。

當前，Laser Gyroscope（激光陀螺儀）高精度陀螺儀都是用激光的方式，如上圖中間小圖所示，用於導彈在空中飛行，幾個小時誤差約在 100 米左右。

激光陀螺儀中間有一個激光源，向兩個方向發射激光。如物體靜止不動，兩條光線的光路長度相同，在接收端的兩條光路相差是零；如果物體旋轉，兩條光路就會發生特別微小的變化，就會產生相差，通過識別相差，得到整個設備的旋轉速度。

MEMs Gyroscope（微機械陀螺儀），用於手機或 VR 頭盔中。這種陀螺儀做的很小，會用到一些機械結構來識別運動。

在微機械陀螺儀中，有兩個可以活動的扇片，當物體旋轉，扇片會保持不動，通過識別角度，就可以推斷旋轉速度。

這種微機械陀螺儀會比激光械陀螺儀差很多，如單獨使用是沒辦法達到預期效果，所以必須要結合陀螺儀和視覺信息一起進行。

IMU（慣性測量單位）

如下圖，是 IMU 中的陀螺儀和加速度計：

IMU 中的陀螺儀，輸出的是相鄰時刻相機旋轉的角度。IMU 中的加速度計，輸出的是相鄰時刻相機的加速度，即速度的變化率。

空間定位技術/感測器存在的問題

如下圖，是感測器存在的問題：

感測器數據採樣有離散和漂移的，如圖一所示，連續線是實際的加速度，但是 IMU 採樣是離散的，所以最高點並沒有採樣到，導致結果出現有誤差。

IMU 得到的加速度是包含重力的，實際中，重力產生的加速度是遠大於一般移動時產生的加速度，所以要去掉重力就需精確估計朝向。

IMU 和相機的相對位置和方向影響很大，兩個位置是不在一起的，它們之間有相對位移且由於工業生產原因，兩者之間的相差很小一個角度。

經研究發現，哪怕角度差一度，對最後整個系統的精度影響也會很大，所以必須在線標定兩者之間的角度和位移。

IMU 和圖像的採集時間不一致，相機採樣頻率大概是 60、30 幀，但 IMU 採樣頻率很高，一般都是 500、800、1000，採樣頻率、採樣時間不一。

解決這些問題的方式是：感測器+視覺融合

如下圖是預積分與攝像機標定：

當 IMU 的採樣率比圖像高很多時，採用預積分的方法，可以把圖像幀之間的 IMU 信息積分起來，當成一量。這樣就不需要優化每幀 IMU 的點。

相機 IMU 和世界坐標系之間的關係，需要精確的標定，如果差一度，整個系統就會完全崩潰。

空間定位技術/ATW

ATW（Asynchronous Timewarp）是一種生成中間幀技術，可有效減小延遲, 通過預測未來的雙眼位置來提前渲染。

相機圖像採集，SLAM 演算法，渲染，這些過程都需要處理時間，統稱為「Motion to Photon Latency」。在 VR 應用中，需要小於 20ms，才能保證用戶不會眩暈。

如下圖，是渲染過程：

從圖中看出，整個過程包括了很多運算，有圖像獲取時間、演算法處理時間和渲染時間，渲染結果到最終結果顯示時間，這些可以通過 IMU 數據得到，但有些必須經過預測。

uSens Hardware

如下圖是 uSens 的硬體產品進化過程體現在更小、compact、更易於嵌入式、功耗更低。

如下圖，是硬體規格（Hardware Spec）：

產品硬體經過幾次迭代，從尺寸上和功耗上都比之前小很多。紅色標註是對效果影響比較大的因素，如全局曝光解析度、雙系統、左右相機同時採樣等。

未來，VR/AR 技術面臨的問題

如下圖是智能視覺系統：

當前應用在 VR/AR 場景中，實際上它可以應用如上圖所示的更多場景中，比如廣告機、車載手勢識別、機器人和無人機。

人機交互技術的發展由兩方面的因素決定：一方面是用戶希望擁有更自然的交互方式；另一方面是技術的進步使得交互更加自然和方便。未來人機交互方式將會包含自然手勢理解和環境感知這兩個核心功能。

VR/AR技術還在路上，未來還需面臨以下三大問題：

產品碎片化。一個新的硬體出世，早期總會產生很多碎片，當前的 AR 產品生產公司有很多，都想搶佔市場，發布自己的產品，對其他家產品比較排斥，進而整體環境非常封閉。

內容缺乏。手機端 VR 內容都相對單一，體驗也不是很好。

技術進步。當前有很多廠商正在研發能帶來更好沉浸感效果的 VR 技術，只為給用戶帶來更好的體驗。

來源：以上內容由編輯王雪燕根據馬賡宇老師在WOTI全球創新技術峰會——巔峰論壇的演講內容整理。

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 沉浸感 的精彩文章:

※Magic Leap 正在研發超薄硅光學晶元
※微軟的MR平台可以和Vive、Oculus一戰嗎？我們體驗了一下宏基的頭盔
※雙十一淘寶繼續秀「黑科技」，去年是 VR Buy+，今年是 AR Buy+
※天貓互動技術專家：有了 ARCore 和 ARKit，AR 行業還能做啥？
※亮風台首席架構師候曉輝：移動AR產品如何做好性能優化

TAG:沉浸感 |