Google 帶來了一種手語識別演算法，讓你明白別人究竟在比劃啥

新聞 08-21

對於絕大部分人來說，通過說話進行交流是一件理所當然的事情。但世界上還存在著另外一小部分群體，他們由於先天或者後天的原因，並不能做到這些我們認為理所當然的事情，對於某些有聽覺與語言障礙的人士來說，手語才是他們之間交流的方式。

問題是，手語雖然解決了他們之間交流的方式，但對於習慣了說話的大部分人來說，手語和外星語言可能沒有什麼本質區別。如何方便地將手語轉化成口語，成為近年來一個新的研究課題，而 Google AI 實驗室帶來的新演算法可能成為解決這個問題的新方案。

這個新技術採用了一些巧妙高效的方法，而且隨著機器學習的效率越來越高，僅僅使用手機就能夠實現高精度的手部與手指追蹤，這帶來了很多新的可能性。

image description. 圖片來自：xxx

「當前最先進的方法都是依賴於性能強大的桌面環境，而我們的方法可以在手機上實現實時追蹤，甚至能擴展到多個手部，」Google 的研究人員這樣在官方博客中寫道。強悍的手部追蹤演算法是一項具備挑戰性的計算機視覺任務，因為手部經常會因為動作造成遮擋，並且缺乏高對比度模式。

不僅如此，手部的動作通常速度很快而且微妙，這不是計算機所擅長的那種實時追蹤，即便使用多攝像頭和深度感應裝置的 SignAll ，追蹤每個動作依然是件困難的事情。

在這種情況下，研究人員只能夠盡量減少計算機需要篩選的數據量，才能提高其反應速度和追蹤精度。

首先，他們放棄了對整個手部大小和位置進行追蹤，相反，他們只讓系統找到手掌部位，這不僅是手部最獨特可靠的部分，而且接近矩形，這意味著系統不用處理大量複雜的圖案。

當手掌部分被首先識別時，延伸出的手指部分會被單獨識別和分析，一個單獨演算法會將其分配上 21 個坐標，大致描繪出指關節以及指尖，包括手指部分伸出去了多遠，而且系統還可以根據手掌的大小和角度進行猜測。

為了完成手指識別的部分，研究人員必須手動將這 21 個坐標點添加到各種不同姿勢和光照條件下的大約 30000 個手掌圖片中。就像往常一樣，每一個強悍的機器學習系統在開始階段都需要研究人員辛勤的喂數據。

確定了手的姿勢以後就簡單了，將這些姿勢與目前已知的手語含義進行相關聯，從簡單的字母、數字一直到具有特定名詞含義的手勢都會有覆蓋。最後，一種反應迅速且準確的手勢識別演算法誕生了，而且可以在智能手機上運行而不是桌面端。

這種演算法的出現還能夠改進那些現有的識別系統，不過距離 AI 真正理解手語依然還有很長的一段路要走，因為這是一種使用手勢、面部表情和其它一些細節呈現的一種與眾不同的豐富交流形式。但現在我們正向著越來越好的方向前進。

最後 Google 的研究人員寫道：「我們希望向更廣泛的研究和開發社區提供這種手勢感知功能，並期望創造性案例的出現，以刺激新應用和新研究途徑。」

題圖來源：Verywell Health

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 愛范兒 的精彩文章: