谷歌用新的語音數據擴增技術大幅提升語音識別準確率

新聞 04-24

雷鋒網 AI 科技評論按：把一段輸入音頻轉換為一段文本的任務「自動語音識別（ASR）」，是深度神經網路的流行帶來了極大變革的人工智慧任務之一。如今常用的手機語音輸入、YouTube 自動字幕生成、智能家電的語音控制都受益於自動語音識別技術的發展。不過，開發基於深度學習的語音識別系統還不是一個已經完善解決的問題，其中一方面的難點在於，含有大量參數的語音識別系統很容易過擬合到訓練數據上，當訓練不夠充分時就無法很好地泛化到從未見過的數據。

當對於圖像分類任務，當訓練數據的數量不足的時候我們可以使用各種數據擴增（data augmentation）方法生成更多數據，提高網路的表現。但是在自動語音識別任務中情況有所不同，傳統的數據擴增方法一般是對音頻波形做一些變形（比如加速、減速），或者增加背景雜訊，都可以生成新的訓練數據，起到把訓練數據集變大的效果，幫助網路更好地學習到有用的特徵。不過，現有的傳統音頻數據擴增方法會帶來明顯的額外計算能力開銷，有時也避免不了需要使用額外的數據。

在谷歌 AI 的近期論文《SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition》（SpecAugment：一個用於自動語音識別的簡單數據擴增方法，https://arxiv.org/abs/1904.08779）中，谷歌的研究人員們提出了一種擴增音頻數據的新方法，主要思路是把它看做是一個視覺問題而不是音頻問題。具體來說，他們在 SpecAugment 不再直接使用傳統的數據擴增方法，而是在音頻的光譜圖上（音頻波形的一種視覺表示）施加擴增策略。這種方法簡單、計算力需求低，而且不需要額外的數據。它能非常有效地提高語音識別系統的表現。雷鋒網 AI 科技評論根據谷歌技術博客介紹如下。

新的音頻數據擴增方法 SpecAugment

對於傳統語音識別系統，音頻波形在輸入網路之前通常都需要編碼為某種視覺表示，比如編碼為光譜圖。而傳統的語音數據擴增方法一般都是在編碼為光譜圖之前進行的，這樣每次數據擴增之後都要重新生成新的光譜圖。在這項研究中，作者們嘗試就在光譜圖上進行數據擴增。由於直接作用於網路的輸入特徵，數據擴增過程可以在網路的訓練過程中運行，而且不會對訓練速度造成顯著影響。

谷歌用新的語音數據擴增技術大幅提升語音識別準確率

音頻波形（時間-振幅）關係轉化為梅爾頻譜圖（時間-梅爾頻率），然後再輸入網路

SpecAugment 對光譜圖的修改方式有：沿著時間方向扭曲，遮蔽某一些頻率段的信號，以及遮蔽某一些時間段的發音。作者們選擇使用的這些擴增方式可以幫助網路面對時間方向的變形、部分頻率信號的損失以及部分時間段的信號缺失時更加魯棒。這些擴增策略的示意圖如下。

谷歌用新的語音數據擴增技術大幅提升語音識別準確率

圖中的梅爾頻譜圖經過了時間方向扭曲、多個頻率段信號遮蔽（橫條）以及多個時間段遮蔽（縱向條）。圖中的遮蔽程度有所誇張。

作者們在 LibriSpeech 數據集上用實驗測試了 SpecAugment 的效果。他們選取了三個語音識別常用的端到端 LAS 模型，對比使用數據擴增和不使用數據擴增的網路表現。自動語音識別模型表現的測量指標是單詞錯誤率（WER），用模型輸出的轉錄文本和標準文本對比得到。在下面的對比試驗中，訓練模型使用的超參數不變、每組對比中模型的參數數量也保持固定，只有訓練模型用的數據有區別（使用以及不使用數據擴增）。試驗結果表明，SpecAugment 不需要任何額外的調節就可以提高網路的表現。

谷歌用新的語音數據擴增技術大幅提升語音識別準確率

在 LibriSpeech 數據集上的測試中，每組測試中經過數據增強（藍色條）都取得了更低的單詞錯誤率。Test-other 數據集含有雜訊，Test-clean 數據集不含有雜訊

更重要的是，由於 SpecAugment 擴增後的數據里有故意損壞的部分，這避免了模型過擬合到訓練數據上。作者們進行了對比試驗如下，未使用數據擴增的模型（棕黃色線）在訓練數據集上取得了極低的單詞錯誤率，但是在 Dev-other（有雜訊測試集）和 Dev-clean（無雜訊數據集）上的表現就要差很多；使用了數據擴增的模型（藍色線）則正相反，在訓練數據集上的單詞錯誤率較高，然後在 Dev-other 和 Dev-clean 上都取得了優秀的表現，甚至在 Dev-clean 上的錯誤率還要低於訓練數據集上的錯誤率；這表明 SpecAugment 數據擴增方法不僅提高了網路表現，還有效防止了過擬合的發生。

谷歌用新的語音數據擴增技術大幅提升語音識別準確率

藉助 SpecAugment 取得前所未有的模型表現

由於 SpecAugment 可以帶來沒有過擬合的表現提升，研究人員們甚至可以嘗試使用更大容量的網路，得到表現更好的模型。論文作者們進行了實驗，在使用 SpecAugment 的同時，使用參數更多的模型、更長的訓練時間，他們分別在 LibriSpeech 960h 和 Switchboard 300h 兩個數據集上都大幅刷新了此前的最佳表現記錄（SOTA）。

作者們也為這種方法的出色表現感到驚訝，甚至於，以往在 LibriSpeech和 Switchboard 這樣較小的數據集上有優勢的傳統語音識別模型也不再領先。

谷歌用新的語音數據擴增技術大幅提升語音識別準確率