當前位置:
首頁 > 科技 > 無需建模:谷歌SpecAugment即可獲得最先進的語音識別性能

無需建模:谷歌SpecAugment即可獲得最先進的語音識別性能

谷歌AI研究人員現在將計算機視覺運用於聲波視覺,從而在不使用語言模型的情況下獲得最先進的語音識別系統性能。研究人員表示,SpecAugment方法不需要額外數據,在不改動底層語言模型的情況下就可以使用。

谷歌的AI實習生Daniel S. Park和研究科學家William Chan在今天的一篇博文中稱:「我們研究的一個意想不到的結果是,甚至在不藉助語言模型的情況下,使用SpecAugment訓練的模型其性能超過所有之前的方法。雖然我們的網路仍可以從添加語言模型中受益,但我們的結果令人鼓舞,因為它表明可以在不藉助語言模型的情況下,訓練可用於實際用途的網路。」

SpecAugment的工作原理一部分如下,將視覺分析數據增強應用於語音的視覺表示:聲譜圖。SpecAugment應用於聆聽、關注和拼寫(LAS)網路以處理語音識別任務,結果處理LibriSpeech960h(該數據集含有約1000小時長的英語口語)任務時獲得2.6%的單詞錯誤率(WER),處理Switchboard 300h(該數據集含有260小時長的英語通話)任務時獲得6.8%的單詞錯誤率。

自動語音識別(ASR)系統將語音翻譯成文本用於對話式AI,比如Home智能音箱中的谷歌助手或使用Gboard的口述工具處理電子郵件或簡訊的安卓智能手機。據普華永道2018年的一項調查顯示,降低單詞錯誤率是影響對話式AI採用率的一個關鍵因素。

比如說,近年來語言模型和計算能力方面的進步共同降低了單詞錯誤率,使得語音輸入比鍵盤輸入來得更快。

該成果詳見於發表在arXiv上的論文《SpecAugment:一種用於語音自動識別的簡單數據增強方法》。

持續改進是Alexa等智能助手的製造商經常號稱的優點之一,谷歌和亞馬遜近幾個月發表了詳細介紹用來加快技術變革的方法的多篇論文。

亞馬遜今天宣布,隔離背景雜訊有望使Alexa的語音識別準確率提高15%,而今年晚些時候半監督式訓練方法將用於改善Alexa語音識別,預計有望將準確率提高逾20%。

以下為谷歌官方博客對論文的解讀,作者AI實習生Daniel S. Park和研究科學家William Chan,經雲頭條編譯供各位參考:

自動語音識別(ASR)是指將音頻輸入內容轉錄成文本的過程,從深度神經網路的持續發展中獲益匪淺。因此,ASR已經在許多現代設備和產品中無處不在,比如谷歌助手、谷歌Home和YouTube。然而,開發基於深度學習的ASR系統方面仍存在著許多重大挑戰。其中的一個挑戰是:擁有許多參數的ASR模型往往過擬合訓練數據,訓練集不夠全面廣泛時就很難推廣到未見過的數據。

在沒有足夠數量的訓練數據這種情況下,可以通過數據增強(data augmentation)方法增加現有數據的有效大小,這有助於大大提高圖像分類領域中深度網路的性能。以語音識別為例,數據增強傳統上是指以某種方式(比如通過加快或減慢速度),使用來訓練的音頻波形變形,或者增加背景雜訊。這麼做的效果是使數據集實際上變龐大,因為單個輸入的多個增強版本在訓練過程中被饋送到網路中,還通過迫使網路學習相關特徵來幫助網路變得穩健。然而,增強音頻輸入的現有傳統方法帶來了額外的計算成本,有時還需要額外的數據。

我們在最近的論文《SpecAugment:一種用於語音自動識別的簡單數據增強方法》(https://arxiv.org/abs/1904.08779)中,採用了一種新的方法來增強音頻數據,將其視作視覺問題而非音頻問題。SpecAugment將增強策略直接應用於音頻聲譜圖(即波形的圖像表示),而不是像傳統做法那樣增強輸入音頻波形。這種方法簡單,運用起來計算成本低,而且不需要額外的數據。它在提高ASR網路的性能方面也異常高效,在處理ASR任務LibriSpeech 960h和Switchboard 300h時顯示出最先進的性能。

SpecAugment

在傳統的ASR中,音頻波形在作為網路的訓練數據被輸入之前通常被編碼成視覺表示,比如聲譜圖。訓練數據的增強通常應用于波形音頻,之後轉換成聲譜圖,以便每次迭代後,必須生成新的聲譜圖。在我們的方法中,我們研究的是增強聲譜圖本身的方法,而不是增強波形數據的方法。由於增強直接應用於網路的輸入特徵,因此可以在訓練過程中在線運行,而不顯著影響訓練速度。

在被饋送到網路之前,波形通常被轉換成視覺表示(在我們的例子中是對數梅爾聲譜圖;詳見該文的步驟1到步驟3)

SpecAugment改動聲譜圖的方法是,在時間方向上使聲譜圖變形,屏蔽連續頻道塊,並屏蔽話語塊。已經選擇這些增強方法來幫助網路穩健,可以防禦時間方向上的變形、頻率信息的部分丟失以及小段語音輸入的部分丟失。下面顯示了這種增強策略的示例。

增強對數梅爾聲譜圖的方法是,在時間方向上變形,屏蔽(多個)連續時步塊(垂直屏蔽)和梅爾頻道(橫向屏蔽)。聲譜圖的屏蔽部分以紫色顯示以示強調

為了測試SpecAugment,我們用LibriSpeech數據集進行了一番實驗:我們拿來了三個聆聽、關注和拼寫(LAS)網路,這是常用於語音識別的端到端網路,並比較了使用增強訓練的網路和不使用增強訓練的網路之間的測試性能。ASR網路的性能按照網路生成的轉錄對照目標轉錄的單詞錯誤率(WER)來加以測量。在這裡,所有超參數都保持不變,只有饋入網路的數據被改變。我們發現,SpecAugment可提高網路性能,不用對網路或訓練參數進行任何額外的調整。

使用增強和不用增強的LibriSpeech測試集上的網路性能。LibriSpeech測試集分成兩部分:test-clean和test-other,後者包含雜訊較大的音頻數據。

更重要的是,SpecAugment通過為網路提供有意破壞的數據來防止網路過擬合。舉例來說,下面我們演示了訓練集和開發(dev)集的WER如何通過使用增強和不用增強的訓練加以改進。我們發現,在不用增強的情況下,網路在訓練集上獲得了近乎完美的性能,而在乾淨的開發集和有雜訊的開發集上都性能欠佳。另一方面,在使用增強的情況下,網路在訓練集上很難獲得一樣好的性能,但在乾淨的開發集上實際上有更好的性能,在有雜訊的開發集上表現出類似的性能。這表明網路不再過擬合訓練數據;提高訓練性能將帶來更好的測試性能。

在使用增強和不用增強的情況下,訓練集、乾淨的(dev-clean)開發集和有雜訊的(dev-other)開發集的性能。

最先進的結果

我們現在可以專註於提高訓練性能,這可以通過使網路變大、從而為網路增添更多容量來實現。再輔以增加訓練時間,我們就能夠在處理LibriSpeech 960h和Switchboard 300h這兩項任務時獲得最先進(SOTA)的結果。

LibriSpeech 960h和Switchboard 300h這兩項任務的最先進結果的單詞錯誤率(%)。兩個任務的測試集都有乾淨的(clean/Switchboard)子集和有雜訊的(other/CallHome)子集。以前的SOTA結果取自Li等人(2019年,https://arxiv.org/pdf/1904.03288.pdf)、Yang等人(2018年,https://arxiv.org/pdf/1810.11352.pdf)和Zeyer等人(2018年,https://arxiv.org/pdf/1805.03294.pdf)。

我們使用的簡單增強方法非常高效――我們能夠大幅改進端到端LAS網路的性能,遠超過傳統ASR模型的性能,傳統ASR模型歷來在較小的學術數據集(比如LibriSpeech或Switchboard)上的表現好得多。

各種類型的網路在處理LibriSpeech和Switchboard任務的性能。隨著時間的推移,LAS模型的性能與經典模型(比如HMM)及其他端到端模型(比如CTC / ASG)的性能相當。

語言模型

語言模型(LM)在更龐大的純文本數據上進行訓練,它在通過利用從文本中學習的信息改進ASR網路的性能方面發揮了重要作用。然而,LM通常需要與ASR網路分開來訓練,可能在內存中顯得很龐大,因而難以裝在手機等設備中。我們研究的一個意想不到的結果是,使用SpecAugment訓練的模型甚至在不藉助語言模型的情況下性能超過所有之前的方法。雖然我們的網路仍可以從添加LM中受益,但我們的結果令人鼓舞,因為它表明可以在不藉助LM的情況下訓練可用於實際用途的網路。

使用和不用LM的LibriSpeech和Switchboard任務的單詞錯誤率。即使在加入語言模型之前,SpecAugment的性能也勝過以前最先進的方法。

過去ASR方面的工作大多專註於尋找更好的網路來加以訓練。我們的工作表明,尋找更好的方法來訓練網路是大有前景的另一個研究方向。

論文:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲頭條 的精彩文章:

SAP 雲總裁 Robert Enslin 辭職
黑客利用DNS劫持控制了多個國家的互聯網域名

TAG:雲頭條 |