你的聲音堪比DNA,在AI加持下妙用無限!
如果讓你單純聽一個人的聲音,你能聽出哪些信息?年齡?性別?還是家鄉?對於AI來說,這些都太沒難度了。最近,一項由美國麻省理工學院給出的研究表明,經過訓練的AI不僅能從聲音中獲取人們的性別、種族、年齡等信息,甚至連你長什麼樣它都能聽出來!
據了解,這一能完成「聽聲辨人」操作的AI,主要依賴一個叫Speech2Face的神經網路模型來完成訓練。該模型分為兩部分,一個是語音編碼器,負責對輸入的語音進行面部特徵分析和預測;另一個是面部解碼器,對輸入的面部特徵進行整合與生成。
在實際操作中,研究人員通過將一個百萬視頻剪輯而成的數據集放入模型,然後讓AI進行一段時間的自我訓練,之後只需憑藉6秒鐘左右的語音,AI就能實現對人臉特徵的採集和還原,並且呈現出效果不錯的圖像。
從MIT研究團隊給出的部分訓練成果,我們可以發現:Speech2Face能較好地識別出性別,對白種人和亞洲人也能較好地分辨出來,另外對30-40歲和70歲的年齡段聲音命中率稍微高一些。不過,由於AI的「聽覺」不是100%可靠,並且訓練素材不夠豐富,其也會產生不少的識別錯誤,同時對黑人聲音的辨別能力也偏弱。
雖然該技術還不是很完善,但滿足MIT最初的設想已經綽綽有餘。研究團隊指出,他們訓練AI這項功能並不是為了準確還原說話者模樣,而只是單純為了研究語音與相貌之間的關係,並以此來用語音生成各種可愛的卡通用戶頭像。
可能你會覺得這樣一個技術用作頭像生成有點大材小用,別擔心!因為其實類似的技術,目前其他研究機構也在積極開展中,並且有的已經投入到了一些有意義的應用場景。
比如卡內基梅隆大學曾發表過相似的研究,能夠從聲音猜測說話者的年齡、身高、體重、所處空間和環境信息。該大學研究人員認為聲音就像是人類的DNA一樣,蘊藏著豐富而獨特的信息,在各行各業中能夠獲得妙用。
他們在該技術識別和還原準確度超過60%的時候,開始正式投入社會進行應用測試。目前,美國海岸警衛隊仍在利用這項技術來識別惡意報警者,這項技術幫他們分辨出了報警者是否為惡作劇,同時縮小了調查的範圍,這讓他們每年減少了近150個惡作劇電話,節約了大量警力資源。
而據了解,卡內基梅隆大學的研究團隊最終的設想,是用AI這項「聽音識人」技術來遠程確診帕金森等疾病。希望這項技術能夠打開現代醫療的創新大門,為疑難雜症和一些絕症提供解決思路與辦法。
除了將類似技術用於刑偵和醫療之外,現實中,相同的技術還被應用到了銀行、保險、客服、招聘等眾多場景與領域。其中,滙豐、摩根等銀行採用聲紋識別的方式來保障用戶賬戶安全;大都會人手保險公司利用AI系統來識別客戶的情緒與感受;一些保險公司用這項技術來判斷來電者的意圖;還有一些公司則將該技術用於招聘......
此外,2017年豐田汽車還曾在CES大會上,將該技術應用到了駕駛當中。AI被載入在攝像頭、感測器、車載語音系統之上,協助判斷司機是否處於疲勞駕駛狀態,並及時作出提醒。這項技術讓司機的駕駛有更加了智能化的保障。
總而言之,不管是何種應用,AI「聽音辨人」的功能無疑是價值重大的,我們有理由相信,這項技術最終會越來越多的出現在往後的生活與生產之中。不過,AI未來如果想真正成為人們的好幫手和好夥伴,眼下還需要進一步的升級與突破,發展之路還需期待!
※三榜合一!機器人行業一周回顧5月25-31日
※從熒幕內到熒幕外,我們應該如何看待影視業的AI?
TAG:工控中國 |