快手上線手部姿態估計功能

科技 04-25

隨著技術的發展，研發人員越來越希望尋找一些不同的人機交互方式，其中實時手部姿態估計就是科學家們重點關注的研究方向之一。簡單的說，手部姿態估計是讓計算機理解人體肢體語言的一種手段。通過該技術，人機交互不再限於文字介面或者滑鼠鍵盤控制的用戶圖像界面。

快手上線手部姿態估計功能

打開今日頭條，查看更多圖片

近日，快手上線了手部姿態估計功能，成為行業首家。這個功能讓普通人動動手，就可以實現酷炫的特效。

用戶只要按照說明做出相應的手勢，就可以被加上各種有意思的特效。用戶在使用這款產品拍攝時，演算法會自動識別出手型類別，並估計手部關鍵點位置。根據關鍵點位置和手型類別，可以產生不同的特效效果或者跟畫面內容進行人機交互。用戶既可以通過手型觸發相應的特效效果，也可以實現指節級精準控制。

揭秘手勢識別，快手解決了哪些問題？

手勢識別技術由快手 2016 年組建的 Y-Lab 團隊手勢研發小組研發。這一年，為了研發出更多能給用戶帶來新奇體驗的新技術，快手組建了一支由高學歷研發人員組成的隊伍，研究領域涉及人工智慧、機器學習、計算機視覺、計算機圖形學和增強現實等。2018 年，為了讓技術能更好的和產品結合，快手將 Y-Lab 更名為Y-tech。

快手上線手部姿態估計功能

據 Y-tech 手勢研發組負責人介紹，手勢識別技術是指檢測圖片或視頻中的人手，並預測檢出人手的手型以及關鍵點位置的技術。

常見的手勢識別技術包括：手型識別、二維手部姿態估計和三維手部姿態估計。從手型識別到三維手部姿態估計，需要識別的信息越來越多，研發困難指數級增加。在上面演示的功能里，就包含了：人手檢測、手型識別和二維手部姿態估計。

目前手型識別在業界已比較成熟，而二維手部姿態估計目前還不是很成熟，據介紹，快手應該是業界首家在移動端上應用該技術的公司。而三維手部姿態估計技術難度較大，目前只能通過特殊的硬體，比如雙目和深度攝像頭才能實現。

研發手勢識別過程中，Y-tech 團隊積累了很多技術和解決方案，包括演算法策略、網路結構設計、模型優化和底層加速等，這些經驗也完全可以復用到其他場景中。

相比於目前人工智慧領域落地比較廣泛的人臉識別，手勢識別技術存在著一些技術難點，Y-tech 手勢研發負責人表示：「手部的自由度很高，自遮擋嚴重，特徵不明顯，相對人臉會更難一些。」

以快手為例，目前這一功能可同時檢測多手，支持多達17種手型識別，並能夠識別 21 個手部二維關鍵點。為了實現這些功能，研發團隊克服了不少難題：

人手在相機中的佔比較小，高效的進行小目標檢測目前在業界是很難的問題；
人手自遮擋嚴重、關節活動自由度高；
用戶手機只有單目圖像，需純靠視覺演算法實現；
用戶手機攝像頭拍攝質量不同，用戶在擺同樣手型時方式多樣。

該負責人表示，團隊先是改進了檢測演算法的框架，提高了小目標的檢測能力，並且根據人手的特點，融合先驗知識，降低問題複雜度，達到了提升預測效果。

由於不同用戶手機的運算能力是不同的，而同一款軟體要想被更多用戶使用，就要兼顧各種機型的情況，快手AI實驗室通過兩方面解決了這一難題：

一、在演算法層面，研發人員設計了高效的神經網路結構，並且在不同的機型上採用了不同演算法策略；

二、在工程實現上，通過快手自研的 YCNN 對不同手機的硬體架構做了高度的適配和性能優化，能夠使用 CPU、GPU、NPU、DSP 等多種運行模式，解決了AI技術運行受限於用戶設備計算量的問題。

下一步：未來將嘗試三維手部重建

對於快手來說，在手機應用中增加手勢識別功能是一項嘗試，功能上肯定是有不少需要完善的地方，研發團隊告訴我們，目前該產品演算法對運動模糊和手部重疊的處理還不完善，是接下來需要重點解決的問題，並且未來團隊會嘗試在端上進行三維手部重建，為更精確的動作識別和交互做技術儲備。除了在短視頻領域有所應用，在遊戲、增強現實、直播、教育等領域應用手勢識別技術也將成為一種趨勢，同樣也是快手探索的方向。

手勢識別技術發展至今，已經有不少企業在不同的領域進行過嘗試，未來手勢識別的應用場景也是十分廣闊的，除了小手識別和運動模糊等傳統問題之外，如何結合端上雙目攝像頭和深度攝像頭信息提升手勢識別效果也將是行業重點關注的問題。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 動點科技 的精彩文章:

※Google將TikTok 從印度 Play Store 下架
※Parrot 的全新 Anafi 專業無人機配有熱成像儀

TAG:動點科技 |