雲從科技刷新一項語音識別紀錄：將 Librispeech 數據集上的錯詞率降至 2.97%

新聞 11-15

雷鋒網 AI 科技評論按：10 月 29 日，雲從科技宣布在全球最大的開源語音識別數據集 Librispeech 上，將錯詞率（Worderrorrate，WER）降到了 2.97%，並將 Librispeech 的 WER 指標提升了 25%，超過阿里、百度、約翰霍普金斯大學等企業及高校，刷新了原先記錄。

將 Librispeech 數據集上的錯詞率降至 2.97%

Librispeech 是當前衡量語音識別技術的最權威主流的開源數據集，錯詞率（Worderrorrate，WER）是衡量語音識別技術水平的核心指標。

雲從科技刷新一項語音識別紀錄：將 Librispeech 數據集上的錯詞率降至 2.97%

打開今日頭條，查看更多精彩圖片

DS2：百度，ESPnet：約翰霍普金斯大學，DFSMN-CE：阿里

雲從科技在 Librispeech 數據集上將錯詞率（Worderrorrate，WER）降到了 2.97%，較之前提升了 25%。這項成果有利於語音識別技術的進步，也有助於推動語音識別帶來良好的智慧交互體驗。

雲從科技此次推出的語音識別模型 Pyramidal-FSMN 融合圖像識別與語音識別的優勢，將殘差卷積網路和金字塔記憶模塊的序列記憶網路相結合, 能夠同時有效的提取空間和時間上不同粒度的信息，對比目前業界使用最為廣泛的 LSTM 模型，訓練速度更快、識別準確率更高。

語音識別技術近年進展

2017 年 3 月，IBM 結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。「集中擴展深度學習應用技術終於取得了 5.5% 錯詞率的突破」。相對應的是去年 5 月的 6.9%。

2017 年 8 月，微軟發布新的里程碑，通過改進微軟語音識別系統中基於神經網路的聽覺和語言模型，在去年基礎上降低了大約 12% 的出錯率，錯詞率為 5.1%，聲稱超過專業速記員。相對應的是去年 10 月的 5.9%，聲稱超過人類。

2017 年 12 月，谷歌發布全新端到端語音識別系統（State-of-the-art Speech Recognition With Sequence-to-Sequence Models），錯詞率降低至 5.6%。相對於強大的傳統系統有 16% 的性能提升。

2018 年 6 月，阿里巴巴達摩院推出了新一代語音識別模型 DFSMN，將全球語音識別準確率紀錄提高至 96.04%，錯詞率降低至 3.96%。

2018 年 10 月，雲從科技發布全新 Pyramidal-FSMN 語音識別模型，將錯詞率（Worderrorrate，WER）降低至 2.97%，較之前提升了 25%。

Pyramidal-FSMN 語音識別模型原理解析

雲從科技提出的新型網路結構，能更加有效的提取空間和時間特徵的角度，為語音識別進一步發展提供了一些新的思路：

模型設計採用一種殘差卷積網路和金字塔記憶模塊的序列記憶網路相結合的結構；

訓練方式使用 lattice-free 最大互信息（lattice-free maximum mutual information，LF-MMI/Chain）與交叉熵（cross entropy，CE）損失函數相結合的多任務學習技術；

解碼部分採取 RNNLM rescoring 的方式，利用 RNN 提取一個句子中的長期語義信息，從而更有效地幫助聲學模型得到準確的句子。

如下圖所示，作者採用了由 6 層 Residual CNN 和 10 層 Pyramidal-FSMN 相結合的網路結構。前端網路借鑒了圖像識別中經典的 Residual CNN 結構，更有效地提取特徵與時間相互的關聯信息，同時 skip connection 避免了 CNN 網路加深之後梯度消失和梯度爆炸問題。在金字塔記憶模塊中，淺層的網路主要聚焦於音素本身的特徵學習，所以只需抽取短時上下文信息，而深層的網路由於已經學習到了足夠的固定時間的音素信息，需要學習長時間包括語義和語法特徵，所以深層抽取長時間的上下文信息。利用這樣的金字塔結構，既能減少參數，縮小模型結構，也能更加精巧的模擬人類處理語音信號的過程，提高識別效果。

雲從科技刷新一項語音識別紀錄：將 Librispeech 數據集上的錯詞率降至 2.97%

在損失函數部分，作者採用了基於 LF-MMI 的序列性訓練方式。同時為了解決序列性訓練容易導致過擬合的問題，又引入了傳統的交叉熵損失函數，在 LF-MMI 輸出之外加入另一個輸出層作為一個正則技術，通過設置交叉熵的正則化係數，兩個目標能夠有效地學習並且避免過擬合問題。

最後，作者使用了 RNNLM rescoring 技術對解碼做進一步處理。在沒有 RNNLM rescoring 的情況下，Pyramidal-FSMN 已經達到了目前最好的結果，rescoring 之後又有了更進一步的提升。

聲學模型和 RNNLM 的訓練數據完全基於 Librispeech 和通用的語言模型數據集，並沒有額外引入其他的訓練數據這樣的「技巧」性策略。

論文地址：https://arxiv.org/abs/1810.11352

相關介紹：

LibriSpeech 數據集：世界最大的免費語音識別資料庫，包含文本和語音的有聲讀物數據集，由 1000 小時的多人朗讀的清晰音頻組成，且包含書籍的章節結構。雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※農行區塊鏈實踐：2018年數字積分、養老金項目的得與思
※違反《徵信業管理條例》，中銀消費金融今年第二次收罰單

TAG:雷鋒網 |