「火眼金睛」的 AI:透過聲音看到臉
網上衝浪時,如果突然收到一位陌生美女的好友申請,你會不會同意?假如你添加對方為好友,她要求和你通話,你聽到她的聲音也是甜甜的。她向你尋求幫助,索要錢財,你貪圖「美色」同意了,卻不料對方真實身份是一名成年男子……
這種網路騙術層出不窮。不少人都擁有「偽聲」的天賦,再通過練習,可以輕易偽裝成老人、孩子,哪怕是與自己性別不符的聲音,更有甚者可以模仿動物、昆蟲,十分逼真,只憑耳朵根本無法分辨。
(來源:unsplash)
我們能從一個人說話的方式來大致推斷出他的長相?你無法辨別屏幕背後的人「是男還是女,是人還是狗」,但 AI 可以。
近日,來自康奈爾大學的科學家們,利用互聯網上數百萬人的在線視頻資料,設計並訓練了一個深度神經網路。模型在訓練過程中學習了視聽、音像、聲音和面部的關聯性,從而根據聲音來推測面部特徵。它可以通過一個簡短的音頻片段來重建一個人的臉部圖像,捕捉語言、口音、速度和發音等,從而推測年齡、性別、族裔、嘴唇形狀、嘴唇大小、骨骼結構等等。目前此模型只接受輸入音頻波形。
研究者提醒道,他們的目標不是重建一個準確的人的圖像,而是恢復與輸入語音片段相關的物理特徵。
此項研究成果發表在 2019 年的 CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上。其實,在 2018 年的大會上,就有過類似的研究了。不過當時的 AI 是做選擇題,在「聽」完音頻後,只能從提供的兩張人臉圖片中選出說話者,並不能自主模擬。今年可謂是大大的進步。
不過,由於這個 AI 只接受了捕捉許多個體共有的視覺特徵(與年齡、性別等相關)的訓練,有一定的局限性。因此,他只能生成長相平平的面孔,擁有與輸入語音片段相關的視覺特徵。它無法生成特定個體的圖像。也就是說,合成的圖片看起來會有點兒「大眾臉」,沒有太鮮明的個人特徵。
圖丨一些成功範例。(左)原始圖像,即,從視頻中截取的有代表性的演講者的臉;(中)從原始圖像中提取人臉特徵,進行人臉正前方化、光照歸一化;(右)語音人臉重構,通過解碼音頻中預測的人臉特徵計算得出。
可以看出,重建的臉部圖像與真實的長相還是有一定的差距。雖然可以還原部分的特徵,但卻無法準確到看起來像「一個模子里刻出來的」。
圖丨從同一視頻中(a)從不同視頻中(b)提取同一個人的語音片段進行人臉重建。
即便是同一個人,在不同的場合說話,語調、語氣也會有細微的差別。所以AI模擬出來的臉部圖像也有些許的差異。
圖丨部分失敗案例(a)高音調的男性聲音,例如孩子的聲音,可能會獲得具有女性特徵的面部圖像。(b)口語與種族不符。(c、d)與實際年齡不匹配。
此種 AI 提升的空間還很大。如果可以進一步提高捕捉聲音特徵的敏感性,將研究範圍擴展到胸腔的發聲,聲帶的震動頻率、方式,氣息的運用,語癖等,相信會得到更精準的面部重建圖像。
也有不少人提出了自己的疑惑。「聲音和外貌真的有關聯性嗎?」「頭部的三維結構編碼到一維的聲音之中,這個過程中會損失很多信息,準確度上升到一定程度就無法再提高了吧?」「對受過專業訓練的播音員能起作用嗎?」「能從聲音感知到身高及體重嗎?」希望科學家們在今後的研究中逐步解決這些問題。
有網友評論:「如果能準確重建出配音演員的臉,這個 AI 就真的逆天了。」這句話背後,是配音演員都有極強的聲音塑造能力,能夠掩蓋本來的聲音特質。
相信到了那個時候,這個 AI 用來對付犯罪分子早已不在話下。
-End-
參考:
https://speech2face.github.io/
請隨簡歷附上3篇往期作品(實習生除外)
※利用 85 個維度診斷冠心病人心梗可能性,機器學習模型超越人類醫師
※ARM 發布旗艦級IP搶攻5G,華為的下一代麒麟會掉隊嗎?
TAG:DeepTech深科技 |