學界｜詞錯率2.97%：雲從科技刷新語音識別世界紀錄

新聞 10-30

機器之心編輯，參與：淑婷、張倩、李澤南。

10 月 29 日，雲從科技宣布在語音識別技術上取得重大突破，在全球最大的開源語音識別數據集 Librispeech 上刷新了世界紀錄，錯詞率（Worderrorrate，WER）降低至 2.97%。這一研究將 Librispeech 的 WER 指標提升了 25%，超過阿里、百度、約翰霍普金斯大學等公司和機構，刷新原記錄。

雲從表示，這已是雲從在近半年以來第二次宣布刷新世界紀錄。今年 4 月，雲從科技跨鏡追蹤技術（ReID）技術在 Market-1501，DukeMTMC-reID，CUHK03 三個數據集刷新了世界紀錄，其中最高在 Market-1501 上的首位命中率（Rank-1 Accuracy）達到 96.6%，讓跨鏡追蹤技術（ReID）技術在準確率上首次達到商用水平。

學界｜詞錯率2.97%：雲從科技刷新語音識別世界紀錄

據介紹，雲從科技核心技術閉環包括人臉識別、智能感知與智能分析三個階段。語音識別技術是智能感知的重要部分，通過語音識別，機器就可以像人類一樣理解語言，進而能夠展開處理，進行反饋。

學界｜詞錯率2.97%：雲從科技刷新語音識別世界紀錄

近年來，在深度學習技術的幫助下，語音識別取得了很大進展，從實驗室開始走向市場，走向實用化。基於語音識別技術的輸入法、搜索和翻譯等人機交互場景都有了廣泛的應用。

Librispeech 是當前衡量語音識別技術的最權威主流的開源數據集，它是世界最大的免費語音識別資料庫，包含文本和語音的有聲讀物數據集，由 1000 小時的多人朗讀的清晰音頻組成，且包含書籍的章節結構。錯詞率（Worderrorrate，WER）是衡量語音識別技術水平的核心指標。

在技術研究的「最後一英里」，每 0.1 個百分點的進步都異常艱難。雲從科技在 Librispeech 數據集上刷新了業內最好的水平，將錯詞率（Worderrorrate，WER）降到了驚人的 2.97%，較之前提升了 25%，已超越人類專業速記員水平。該成果有望推動語音識別技術的大幅進步。

雲從科技此次推出的語音識別模型 Pyramidal-FSMN 融合圖像識別與語音識別的優勢，將殘差卷積網路和金字塔記憶模塊的序列記憶網路相結合, 能夠同時有效的提取空間和時間上不同粒度的信息，對比目前業界使用最為廣泛的 LSTM 模型，訓練速度更快、識別準確率更高。

Pyramidal-FSMN 語音識別模型原理解析

雲從科技提出的新型網路結構，能更加有效的提取空間和時間特徵的角度，為語音識別進一步發展提供了一些新的思路：模型設計採用一種殘差卷積網路和金字塔記憶模塊的序列記憶網路相結合的結構；

訓練方式使用 lattice-free 最大互信息（lattice-free maximum mutual information，LF-MMI/Chain）與交叉熵（crossentropy，CE）損失函數相結合的多任務學習技術；解碼部分採取 RNNLM rescoring 的方式，利用 RNN 提取一個句子中的長期語義信息，從而更有效地幫助聲學模型得到準確的句子。

作者採用了由 6 層 ResidualCNN 和 10 層 Pyramidal-FSMN 相結合的網路結構。前端網路借鑒了圖像識別中經典的 Residual CNN 結構，更有效地提取特徵與時間相互的關聯信息，同時 skipconnection 避免了 CNN 網路加深之後梯度消失和梯度爆炸問題。在金字塔記憶模塊中，淺層的網路主要聚焦於音素本身的特徵學習，所以只需抽取短時上下文信息，而深層的網路由於已經學習到了足夠的固定時間的音素信息，需要學習長時間包括語義和語法特徵，所以深層抽取長時間的上下文信息。利用這樣的金字塔結構，既能減少參數，縮小模型結構，也能更加精巧的模擬人類處理語音信號的過程，提高識別效果。

學界｜詞錯率2.97%：雲從科技刷新語音識別世界紀錄

在損失函數部分，作者採用了基於 LF-MMI 的序列性訓練方式。同時為了解決序列性訓練容易導致過擬合的問題，又引入了傳統的交叉熵損失函數，在 LF-MMI 輸出之外加入另一個輸出層作為一個正則技術，通過設置交叉熵的正則化係數，兩個目標能夠有效地學習並且避免過擬合問題。

最後，作者使用了 RNNLM rescoring 技術對解碼做進一步處理。在沒有 RNNLM rescoring 的情況下，Pyramidal-FSMN 已經達到了目前最好的結果，rescoring 之後又有了更進一步的提升。RNNLM 的訓練數據完全基於通用的語言模型數據集，並沒有額外引入其他的訓練數據這樣的「技巧」性策略。

論文：A NOVEL PYRAMIDAL-FSMN ARCHITECTURE WITH LATTICE-FREE MMI FOR SPEECH RECOGNITION

學界｜詞錯率2.97%：雲從科技刷新語音識別世界紀錄

論文地址：https://arxiv.org/abs/1810.11352

論文介紹

近年來，除了 GMM-HMM 模型，深度神經網路（DNN）已經被用作大辭彙量連續語音識別（LVCSR）系統的聲學模型 [1, 2]。前饋神經網路（FNN）等早期研究 [3] 只將當前時間步作為輸入。循環神經網路（RNN），尤其是長短期記憶網路（LSTM），憑藉其循環連接 [4] 和序列信息的使用在語音識別任務中表現出了優異的性能。卷積神經網路（CNN）應用了局部連接、權重共享和池化等技術，性能也超越了之前的研究成果 [8, 9]。

然而，RNN 的訓練依賴隨時間的反向傳播（BPTT）[10]，可能因計算複雜而導致時間消耗過多、梯度消失或爆炸 [11] 等問題。教師強制（teacher forcing）或教授強制（professor forcing）訓練可以在一定程度上解決該問題，但也會降低 RNN 的魯棒性。最近有人提出了一個前饋序列記憶網路（FSMN）[14]。該網路可以在沒有任何循環反饋的情況下建模長期關係。此外，為了構建非常深的神經網路架構，FSMN 還應用了殘差連接 [15]，這是對之前模型的巨大改進。與此同時，時延神經網路（TDNN）[16] 和分解的時延神經網路（TDNN-F）也大量應用了前饋網路。

學界｜詞錯率2.97%：雲從科技刷新語音識別世界紀錄

圖 1：FSMN(a) 和 DFSMN(b) 架構。

傳統的 DNN-HMM 混合聲學模型是根據交叉熵標準訓練的。由於語音識別是一個序列問題，在 CE 訓練後應用了幾個序列的判別訓練標準，如最大互信息（MMI）[18]，最小貝葉斯風險（MBR）[19] 和最小語音錯誤（MPE）[20]。受到 Connectionist Temporal Classification（CTC）在不同識別任務中的應用啟發 [21, 22]，我們開發了一種新的方法，稱為 lattice-free MMI（LF-MMI/Chain model）[23]。該方法可以在沒有任何 CE 初始化的情況下使用，因此需要的計算更少。

在本文中，我們提出了一種新的 CNN Pyramidal- FSMN（pFSMN）架構，該架構通過 LF-MMI 和交叉熵聯合訓練而得。金字塔架構被應用於記憶模塊中。在該架構中，頂層包含較短的上下文信息，而深層包含較長的上下文信息，這採用了適當的時間依賴性，同時減少了參數量。除此之外，每隔幾層添加一次殘差連接。為了從原始的 Mel-Frequency Cepstral Coefficients（MFCCs）中提取更精確的特徵，CNN 層被部署為前端。

雲從科技的研究人員在不同的語音識別任務上評估了該架構的表現。在 300 小時的 Switchboard 語料庫中，我們提出的架構實現了當前最低的錯詞率（WER），僅為 10.89%。而在 1000 小時的 Librispeech 語料庫中，WER 為 3.62%。此外，在我們的實驗中，RNN 語言模型（RNNLM）在解碼和 rescoring 方面取得了進步，與傳統的 N-gram 語言模型相比，該模型獲得了 1% 以上的絕對改進。

學界｜詞錯率2.97%：雲從科技刷新語音識別世界紀錄

表 1：新方法與之前的方法在 Librispeech 和 SWBD-300 任務上的對比。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※人工智慧賦能網路空間安全：模式與實踐
※令人困惑的 TensorFlow！(II)

TAG:機器之心 |