當前位置:
首頁 > 新聞 > 語音識別訓練時間由7天降至11.5小時,IBM提出分散式深度學習技術

語音識別訓練時間由7天降至11.5小時,IBM提出分散式深度學習技術

語音識別系統構建過程通常由兩部分組成:訓練和識別,而訓練需要對預先收集的語音、文本等數據進行處理,獲取語音識別系統所需的模型。因而,訓練時間和模型大小至關重要。IBM 在其新發布的論文中提出一種非同步分散並行隨機梯度下降的分散式處理架構,將語音識別訓練時間縮短到了 11.5 小時。

可靠、穩健、可泛化的語音識別是機器學習領域一個持續的挑戰。通常,訓練自然語言理解模型需要包含數千小時語音和數百萬(甚至數十億)單詞文本的語料庫,以及能夠在合理時間內處理這些數據的強大硬體。

為了減輕計算負擔,IBM 在其新發布的論文《Distributed Deep Learning Strategies for Automatic Speech Recognition》中提出了一種分散式處理架構,該架構在流行的開源基準 Switchboard 上實現了以往 15 倍的訓練速度,而沒有損失準確率。論文作者表示,在包含多個顯卡的系統上部署該架構,它能夠將總的訓練時間從幾周縮短為幾天。

該論文計劃在下個月的 IEEE 國際聲學、語音與信號處理會議(ICASSP)上發表。

論文作者 Wei Zhang、Xiaodong Cui 和 Brian Kingsbury 在即將發表的博客中解釋稱:訓練類似蘋果的 Siri、谷歌助手、亞馬遜的 Alexa 這樣的自動語音識別系統需要複雜的編碼系統來將語音轉化為深度學習系統能夠理解的特徵,以及相應的解碼系統來將輸出轉化為人類可讀的文本。而模型也往往更大,導致大規模訓練變得更加困難。

該團隊的並行解決方案需要增加批量或可以一次性處理的樣本數量,但需要加以區分,這將會對準確率產生負面影響。相反,他們使用「原則性方法」將批量增加至 2560,同時應用了稱為非同步分散並行隨機梯度下降(ADPSGD)的分散式深度學習技術。

據研究人員解釋,大多數深度學習模型要麼採用同步方法(受慢系統影響較大),要麼採用基於參數伺服器(PS)的非同步方法(往往生成不太準確的模型)進行優化。相比之下,IBM 在去年一篇論文中首次詳細說明的 ADPSGD 是非同步和分散的,保證模型準確率處於基線水平,並為某些類型的模型優化提供加速。

在測試中,論文作者稱 ADPSGD 將 ASR 工作運行時間從單個 V100 GPU 上的一周縮短至 32-GPU 系統上的 11.5 小時。他們希望未來的工作演算法和系統可以處理更大的批量以及優化更強大的硬體。

Zhang、Cui 和 Kingsbury 寫道:「在半天內完成一項訓練是比較理想的,因為這樣能讓研究人員快速迭代開發新的演算法。同時還使得開發人員可以快速周轉時間,讓現有模型適應他們的應用程序,尤其適用於那些需要大量語音來實現魯棒性和可用性所需的高準確率的定製用例。」

原文鏈接:https://venturebeat.com/2019/04/10/new-ibm-technique-cuts-ai-speech-recognition-training-time-from-a-week-to-11-hours/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

INTERFACE#13 這周六,線下學習圖神經網路

TAG:機器之心 |