當前位置:
首頁 > 知識 > 阿里開源自主研發的 DFSMN 語音識別模型,引谷歌論文引用

阿里開源自主研發的 DFSMN 語音識別模型,引谷歌論文引用

近日,阿里巴巴達摩院機器智能實驗室語音識別團隊,推出了新一代語音識別模型—— DFSMN,不僅被谷歌等國外巨頭在論文中重點引用,更將全球語音識別準確率紀錄提高至 96.04%(基於世界最大的免費語音識別資料庫LibriSpeech)。

阿里在GitHub平台上開源了自主研發的DFSMN語音識別模型

這支平均年齡只有 30 歲的團隊還宣布,即日起向全世界企業與個人開源此次打破全球語音識別紀錄的 DFSMN 模型,使全球開發者都能共享這一成果,共同推進人工智慧技術的發展。這也使 DFSMN有望繼傳統的 LSTM 模型後,成為全球語音識別領域最主要的聲學識別模型之一,全球語音識別準確率也有望總體提高 10%。

著名語音識別專家,西北工業大學教授謝磊表示:「阿里此次開源的 DFSMN 模型,在語音識別準確率上的穩定提升是突破性的。是近年來深度學習在語音識別領域最具代表性的成果之一。對全球學術界和AI技術應用都有巨大影響。」

語音識別是人機交互中的核心技術,在智能音響、智能家居、機器人及自動駕駛等領域都有廣泛應用。在剛剛結束的雲棲大會武漢峰會上,裝有 DFSMN 語音識別模型的「AI收銀員」在與真人店員的 PK 中,在嘈雜環境下準確識別了用戶的語音點單,在短短 49 秒內點了 34 杯咖啡。此外,裝備這一語音識別技術的自動售票機也已在上海地鐵「上崗」。

DFSMN 語音識別模型,對比目前業界使用最為廣泛的 LSTM 模型,訓練速度更快、識別準確率更高。採用全新 DFSMN 模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提到了 3 倍,語音識別速度提高了 2 倍。

Github 鏈接:

https://github.com/alibaba/Alibaba-MIT-Speech

從Python入門-如何成為AI工程師

BAT資深演算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer,學完即推薦就業

如何用 RNN 實現語音識別?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

專訪訊飛病灶分割比賽優勝團隊,年內會將該演算法投入實用
中文突發事件語料庫

TAG:AI研習社 |