當前位置:
首頁 > 科技 > 從一周到11.5個小時,IBM新技術大幅縮短AI語音訓練時長

從一周到11.5個小時,IBM新技術大幅縮短AI語音訓練時長

4月11日消息,據外媒報道,IBM在其新發表的論文《分散式深度學習自動語音識別策略》(Distributed Deep Learning Strategies for Automatic Speech Recognition)中提出了一種分散式處理架構,該架構可以在流行的開源基準測試中使訓練速度提升15倍,並且不會損失準確性。該論文作者表示,將其部署在包含有多個顯卡的系統上,可以將訓練時長從幾周的時間減少到幾天。

從一周到11.5個小時,IBM新技術大幅縮短AI語音訓練時長

這項工作計劃於5月在IEEE聲學、語音和信號處理國際會議(ICASSP)上公布。

作為貢獻研究人員Wei Zhang、Xiaodong Cui和Brian Kingsbury在博客中寫道:「訓練像蘋果的Siri、谷歌智能助理和亞馬遜的Alexa那樣的自動語音識別(Automatic Speech Recognition,ASR)系統,需要複雜的編碼系統將語音轉換為深度學習系統和解碼系統能夠理解的功能,這些系統可以將輸出轉換為人類可讀的文本。更加複雜的模型將使大規模的訓練更加困難。」

從一周到11.5個小時,IBM新技術大幅縮短AI語音訓練時長

該團隊的並行化解決方案需要提高批量大小,即可以一次處理的樣本數量,而不是不加選擇地處理,否則就會影響準確性。他們將批量大小增加到2560個,同時應用一種被稱為非同步分散並行隨機梯度下降(ADPSGD)的分散式深度學習技術。

正如研究人員解釋的那樣,大多數深度學習模型要麼採用同步優化方法,這種方法受到緩慢系統的不成比例的影響,要麼採用基於參數伺服器(PS)的非同步方法,這種方法往往會導致模型不太精確。相比之下,ADPSGD(IBM於2018年在一篇論文中首次詳述的)是非同步和分散的,它保證了模型準確性的基線水平,並為某些類型的優化問題提供了加速。

在測試中,該論文的作者表示,ADPSGD將ASR作業的運行時間,從單個V100圖形處理器系統上的一周縮短到32圖形處理器系統上的11.5小時。ADPSGD留給未來工作演算法的時間,可以處理更大的批量和系統優化更強大的硬體。

Zhang、Cui和Kingsbury寫道:「在半天內完成訓練工作是可取的,因為它使研究人員能夠快速迭代開發新的演算法。這也可以使開發人員快速調整現有模型以適應他們的應用,尤其是在需要大量語音以實現穩健性和可用性所需的高精度的自定義用例中。」

訓練自然語言理解模型不僅需要強大的硬體基礎以及數千小時語音和數以百萬的文本單詞的語料庫,而且整個訓練過程中所耗費的時間也是非常漫長的。可以說IBM提出的分散式處理架構大大減輕了計算負擔。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 天極網 的精彩文章:

機械師發布會定檔4月18日 超強戰機將至
OPPO最強新機Reno系列明天發布:十倍光學變焦、驍龍855加持

TAG:天極網 |