阿里開源自主研發的 DFSMN 語音識別模型，引谷歌論文引用

知識 06-08

近日，阿里巴巴達摩院機器智能實驗室語音識別團隊，推出了新一代語音識別模型—— DFSMN，不僅被谷歌等國外巨頭在論文中重點引用，更將全球語音識別準確率紀錄提高至 96.04%（基於世界最大的免費語音識別資料庫LibriSpeech）。

阿里在GitHub平台上開源了自主研發的DFSMN語音識別模型

這支平均年齡只有 30 歲的團隊還宣布，即日起向全世界企業與個人開源此次打破全球語音識別紀錄的 DFSMN 模型，使全球開發者都能共享這一成果，共同推進人工智慧技術的發展。這也使 DFSMN有望繼傳統的 LSTM 模型後，成為全球語音識別領域最主要的聲學識別模型之一，全球語音識別準確率也有望總體提高 10%。

著名語音識別專家，西北工業大學教授謝磊表示：「阿里此次開源的 DFSMN 模型，在語音識別準確率上的穩定提升是突破性的。是近年來深度學習在語音識別領域最具代表性的成果之一。對全球學術界和AI技術應用都有巨大影響。」

語音識別是人機交互中的核心技術，在智能音響、智能家居、機器人及自動駕駛等領域都有廣泛應用。在剛剛結束的雲棲大會武漢峰會上，裝有 DFSMN 語音識別模型的「AI收銀員」在與真人店員的 PK 中，在嘈雜環境下準確識別了用戶的語音點單，在短短 49 秒內點了 34 杯咖啡。此外，裝備這一語音識別技術的自動售票機也已在上海地鐵「上崗」。

DFSMN 語音識別模型，對比目前業界使用最為廣泛的 LSTM 模型，訓練速度更快、識別準確率更高。採用全新 DFSMN 模型的智能音響或智能家居設備，相比前代技術深度學習訓練速度提到了 3 倍，語音識別速度提高了 2 倍。

Github 鏈接：

https://github.com/alibaba/Alibaba-MIT-Speech

從Python入門-如何成為AI工程師

BAT資深演算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer，學完即推薦就業

如何用 RNN 實現語音識別？

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！