當前位置:
首頁 > 科技 > Google開源新AI模型,語音區分準確率92%創新高

Google開源新AI模型,語音區分準確率92%創新高

雷剛 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

一個AI音箱,認得每一個說話的對象。

所謂「千人千面」,此之謂也。小孩說話,它就依照小孩的喜好和模式,老人票友,它的智能推薦也相應變化……

總之一個音箱,對每一個跟他說話的人,都能分辨清楚——對人類再正常不過的能力,對AI卻並不容易。

幸好,Google今天把這種AI正在追求的能力,又往前推進了一步。

而且論文放出,核心演算法開源,就等你也來試試了。

RNN模型

Google的新方法,是通過遞歸神經網路(RNN)模擬說話者的輸入,只要開始發言,每個說話者都會建立一個屬於他的RNN模型,然後在過程中,不斷更新相應的RNN狀態。

加入我們正在進行一場多人會議,音頻輸入是線性的,但在Google這個模型中,會按照不同音色進行不同標註。

黃色代表一個發言者,紅色又是另一個,然後黃色嘉賓發言者又接著發言了。

之前在進行類似的研究時,通常基於聚類演算法,都是無監督學習的方法,因此給每個發言者打標籤不容易。

另外,發言者混合交織發言,讓無監督學習的模型最終效果亦打折扣。

但RNN不同,在這次研究者中,Google同學專門在中餐廳進行了訓練(其中幾位作者都是中國人)。

在中餐廳中,發言人未知且人數不確定。然後在開始發言後,他們一旦被識別,就會有對應的RNN模型,每個人都被建了一個,然後相應發言者有更新,就會在他的RNN模型上更新。

效果

論文中稱,他們把核心演算法放在數據集NIST SRE 2000 CALLHOME上驗證,最後得出的在線分類錯誤率(DER)低至7.6%。

更早之前,他們舊方法的錯誤率還是8.8%.

那92.4%的準確率意味著什麼呢?

對實時應用程序而言,已足夠高了。

意義

或許你會問了,有啥用嘞?

智能音箱自不必說了,如果你家音箱能認得你家每一個人,自然個性化的AI體驗會好很多很多。

另外在很多會議速記、影視作品配字幕配音的過程中,也能應用。

你可能也會用過一些所謂的「AI速記」產品,但一到多人會議就慘不忍睹了。

所以Google這次開源,可能會幫到他們。

至於更多實現或應用,感興趣的盆友,歡迎自己上手~

傳送門

論文地址:

https://arxiv.org/abs/1810.04719

開源地址:

https://github.com/google/uis-rnn

年度評選申請

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

活動策劃招聘

量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

這個品質超高的漫畫自動上色AI,讓你DIY出喜歡的配色
谷歌最強NLP模型BERT如約開源,12小時GitHub標星破1500,即將支持中文

TAG:量子位 |