神「腦補」!只要一段話,就知道你的說話手勢
防不勝防!現在, AI只需要聽你的聲音,就能知道你說話手勢了。
這項「腦補力」Max的新研究,來自UC伯克利大學等機構,被今年的學術頂級會議CVPR 2019收錄。
在他們的研究中,只需要輸入一段語音,就預測出了說話人的手勢,基本沒有什麼違和感。
不信?看看美國知名脫口秀Last Week Night主持人Oliver就知道了,他的手勢已經被AI研究透了。說話的時候,肩膀什麼角度,手指如何揮動,預測得一清二楚。
而且,不僅僅是坐著的脫口秀主持人,他們的研究也覆蓋了其他各種場景:
站著的脫口秀主持人,說話的手勢比較豪放:
比如老師上課時,使用這樣的手勢:
看到這項研究之後,就有網友評論稱,不知道它能不能預測川普的魔性手勢?
也有人表示,還好這只是項研究,如果能夠應用到現實中,那還了得?
以後打電話,一邊在電話里說著愛對方,一邊卻搞著小動作,會暴露的。
怎麼實現的?
手勢,是人們在說話過程中自發發出的行為,用於補充語音信息,來幫助更好地傳遞說話人的想法。
通常情況下, 說話的時候,手勢與話語都是有關聯的。但想要從話語中獲取手勢信息,還需要學習音頻和手勢之間的映射關係。在實踐中,還有不少麻煩:
首先,手勢和話語是非同步的,手勢可以出現在相應話語前、後或者期間。
其次,這是一項多模態的任務,說話人在不同的場合,說同樣的話,手勢可能不一致。
而且,每個人說話時的手勢也是非常特別的,不同的說話者傾向於採用不同的說話手勢。
為了解決這些問題,研究人員提出了一種時間跨模態翻譯的方法,採用端到端的方式將語音轉換成手勢,並使用了範圍非常大的時間背景來進行預測,以此克服非同步性問題。
他們建立了一個由10名說話人組成的144個小時的大型個人視頻數據集。為了體現出模型的適用範圍,說話人的背景不盡相同:有電視節目主持人、大學教師和電視上的福音傳道者。
他們討論的話題也跨越了很多話題,從死亡哲學、化學到搖滾音樂歷史、時事評論以及閱讀聖經、古蘭經等等。
現在,這一數據集已經對外開放。
具體是如何從話語中預測出手勢的呢?請看下圖:
給定一段語音,通過翻譯模型(G)預測說話人與話語匹配的手勢動作(手和胳膊的運動)。
然後採用回歸函數(L1)從數據中提出訓練信號,並通過度抗性鑒別器來確保預測的只是在時間上與話語是一致的,並符合說話人的風格。
然後用一種現有的視頻合成方法來生成說話人說出這些話時的樣子。
整個卷積網路,由一個音頻編碼器和一個1D UNet翻譯架構組成。音頻編碼器採用2D對數-梅爾頻譜圖作為輸入,並通過一系列卷積對其進行下採樣,從而產生與視頻採樣率相同的1D信號(15 Hz)。
UNet翻譯架構隨後通過L1回歸損失學會將該信號映射到手勢向量的時間堆棧。
之所以使用UNet架構進行翻譯,是因為它的瓶頸為網路提供了過去和未來的時間上下文,允許高頻時間信息流過,從而能夠預測快速的手勢運動。
雖然L1回歸是從數據中提取訓練信號的唯一方法,但它存在回歸均值的已知問題,這種回歸均值會產生過度平滑的運動。為了解決這個問題,添加了一個以預測的姿態序列的差異為條件對抗性鑒別器。
研究團隊
這一研究的作者,大部分來自UC伯克利。
一作為Shiry Ginosar,UC伯克利計算機系的博士生。之前是人機交互領域的研究員,曾經在CMU計算機系做訪問學者。
共同一作為Amir Bar,是一名生活在伯克利的機器學習工程師。目前,在Zebra Medical Vision工作,致力於提高醫療保健領域的效率。
他們在論文中說,這一研究是朝著對話手勢的計算分析邁出的一步,之後也可以用於驅動虛擬任務的行為。
最後,送上傳送門:
論文地址:
http://people.eecs.berkeley.edu/~shiry/speech2gesture/
源代碼即將公開:
https://github.com/amirbar/speech2gesture
本文轉載自【量子位】
※華為最強自研 NPU 問世,麒麟 810 「拋棄」寒武紀
※可惜!程序員應聘阿里P7崗,面試都過了,結果卻敗在了…
TAG:程序員之家 |