Google開源新AI模型，語音區分準確率92％創新高

科技 11-13

雷剛發自凹非寺

量子位報道 | 公眾號 QbitAI

一個AI音箱，認得每一個說話的對象。

所謂「千人千面」，此之謂也。小孩說話，它就依照小孩的喜好和模式，老人票友，它的智能推薦也相應變化……

總之一個音箱，對每一個跟他說話的人，都能分辨清楚——對人類再正常不過的能力，對AI卻並不容易。

幸好，Google今天把這種AI正在追求的能力，又往前推進了一步。

而且論文放出，核心演算法開源，就等你也來試試了。

RNN模型

Google的新方法，是通過遞歸神經網路（RNN）模擬說話者的輸入，只要開始發言，每個說話者都會建立一個屬於他的RNN模型，然後在過程中，不斷更新相應的RNN狀態。

加入我們正在進行一場多人會議，音頻輸入是線性的，但在Google這個模型中，會按照不同音色進行不同標註。

黃色代表一個發言者，紅色又是另一個，然後黃色嘉賓發言者又接著發言了。

之前在進行類似的研究時，通常基於聚類演算法，都是無監督學習的方法，因此給每個發言者打標籤不容易。

另外，發言者混合交織發言，讓無監督學習的模型最終效果亦打折扣。

但RNN不同，在這次研究者中，Google同學專門在中餐廳進行了訓練（其中幾位作者都是中國人）。

在中餐廳中，發言人未知且人數不確定。然後在開始發言後，他們一旦被識別，就會有對應的RNN模型，每個人都被建了一個，然後相應發言者有更新，就會在他的RNN模型上更新。

效果

論文中稱，他們把核心演算法放在數據集NIST SRE 2000 CALLHOME上驗證，最後得出的在線分類錯誤率（DER）低至7.6%。

更早之前，他們舊方法的錯誤率還是8.8%.

那92.4%的準確率意味著什麼呢？

對實時應用程序而言，已足夠高了。

意義

或許你會問了，有啥用嘞？

智能音箱自不必說了，如果你家音箱能認得你家每一個人，自然個性化的AI體驗會好很多很多。

另外在很多會議速記、影視作品配字幕配音的過程中，也能應用。

你可能也會用過一些所謂的「AI速記」產品，但一到多人會議就慘不忍睹了。

所以Google這次開源，可能會幫到他們。

至於更多實現或應用，感興趣的盆友，歡迎自己上手~

傳送門

論文地址：

https://arxiv.org/abs/1810.04719

開源地址：

https://github.com/google/uis-rnn

—完—

年度評選申請

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

活動策劃招聘

量子位正在招聘活動策劃，將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入，並希望你能有一些活動策劃或運營的相關經驗。相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: