Google開源新AI模型,語音區分準確率92%創新高
雷剛 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
一個AI音箱,認得每一個說話的對象。
所謂「千人千面」,此之謂也。小孩說話,它就依照小孩的喜好和模式,老人票友,它的智能推薦也相應變化……
總之一個音箱,對每一個跟他說話的人,都能分辨清楚——對人類再正常不過的能力,對AI卻並不容易。
幸好,Google今天把這種AI正在追求的能力,又往前推進了一步。
而且論文放出,核心演算法開源,就等你也來試試了。
RNN模型
Google的新方法,是通過遞歸神經網路(RNN)模擬說話者的輸入,只要開始發言,每個說話者都會建立一個屬於他的RNN模型,然後在過程中,不斷更新相應的RNN狀態。
加入我們正在進行一場多人會議,音頻輸入是線性的,但在Google這個模型中,會按照不同音色進行不同標註。
黃色代表一個發言者,紅色又是另一個,然後黃色嘉賓發言者又接著發言了。
之前在進行類似的研究時,通常基於聚類演算法,都是無監督學習的方法,因此給每個發言者打標籤不容易。
另外,發言者混合交織發言,讓無監督學習的模型最終效果亦打折扣。
但RNN不同,在這次研究者中,Google同學專門在中餐廳進行了訓練(其中幾位作者都是中國人)。
在中餐廳中,發言人未知且人數不確定。然後在開始發言後,他們一旦被識別,就會有對應的RNN模型,每個人都被建了一個,然後相應發言者有更新,就會在他的RNN模型上更新。
效果
論文中稱,他們把核心演算法放在數據集NIST SRE 2000 CALLHOME上驗證,最後得出的在線分類錯誤率(DER)低至7.6%。
更早之前,他們舊方法的錯誤率還是8.8%.
那92.4%的準確率意味著什麼呢?
對實時應用程序而言,已足夠高了。
意義
或許你會問了,有啥用嘞?
智能音箱自不必說了,如果你家音箱能認得你家每一個人,自然個性化的AI體驗會好很多很多。
另外在很多會議速記、影視作品配字幕配音的過程中,也能應用。
你可能也會用過一些所謂的「AI速記」產品,但一到多人會議就慘不忍睹了。
所以Google這次開源,可能會幫到他們。
至於更多實現或應用,感興趣的盆友,歡迎自己上手~
傳送門
論文地址:
https://arxiv.org/abs/1810.04719
開源地址:
https://github.com/google/uis-rnn
—完—
年度評選申請
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
活動策劃招聘
量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※這個品質超高的漫畫自動上色AI,讓你DIY出喜歡的配色
※谷歌最強NLP模型BERT如約開源,12小時GitHub標星破1500,即將支持中文
TAG:量子位 |