當前位置:
首頁 > 最新 > 語音識別技術的研究進展與展望

語音識別技術的研究進展與展望

語音識別技術的研究進展與展望

王海坤,潘嘉,劉聰

科大訊飛股份有限公司人工智慧研究院,安徽 合肥 230088

Research development and forecast of

automatic speech recognition technologies

WANG Haikun, PAN Jia, LIU Cong

AI Research Institute of IFLYTEK Co., Ltd., Hefei 230088, China

【摘 要】

自動語音識別(ASR)技術的目的是讓機器能夠「聽懂」人類的語音,將人類語音信息轉化為可讀的文字信息,是實現人機交互的關鍵技術,也是長期以來的研究熱點。最近幾年,隨著深度神經網路的應用,加上海量大數據的使用和雲計算的普及,語音識別取得了突飛猛進的進展,在多個行業突破了實用化的門檻,越來越多的語音技術產品進入了人們的日常生活,包括蘋果的Siri、亞馬遜的Alexa、訊飛語音輸入法、叮咚智能音箱等都是其中的典型代表。對語音識別技術的發展情況、最近幾年的關鍵突破性技術進行了介紹,並對語音識別技術的發展趨勢做了展望。

【關鍵詞】自動語音識別;深度神經網路;聲學模型;語言模型

doi:10.11959/j.issn.1000-0801.2018095

【Abstract】

The purpose of automatic speech recognition (ASR) is to make the machine to be able to 「understand」 the human speech and transform it to readable text information. ASR is one of the key technologies of human machine interaction and also a hot research domain for a long time. In recent years, due to the application of deep neural networks, the use of big data and the popularity of cloud computing, ASR has made great progress and break through the threshold of application in many industries. More and more products with ASR have entered people』s daily life, such as Apple』s Siri, Amazon』s Alexa, IFLYTEK speech input method and Dingdong intelligent speaker and so on. The development status and key breakthrough technologies in recent years were introduced. Also, a forecast of ASR technologies』 trend of developmentwas given.

【Key words】automatic speech recognition, deep neural network, acoustic model, language model

1 引言

語音是人類最自然的交互方式。計算機發明之後,讓機器能夠「聽懂」人類的語言,理解語言中的內在含義,並能做出正確的回答就成為了人們追求的目標。這個過程中主要涉及3種技術,即自動語音識別(automatic speech recognition,ASR);自然語言處理(natural language processing,NLP),目的是讓機器能理解人的意圖;語音合成(speech synthesis,SS),目的是讓機器能說話。

語音識別技術的目的是讓機器能聽懂人類的語音,是一個典型的交叉學科任務,涉及模式識別、信號處理、物理聲學、生理學、心理學、計算機科學和語言學等多個學科。

語音識別技術的研究最早開始於20世紀50年代,1952年貝爾實驗室研發出了10個孤立數字的識別系統[1]。從20世紀60年代開始,美國卡耐基梅隆大學的Reddy等開展了連續語音識別的研究,但是這段時間發展很緩慢。1969年貝爾實驗室的Pierce J甚至在一封公開信中將語音識別比作近幾年不可能實現的事情,例如「將水轉化為汽油,從海里提取金子,治療癌症」等。20世紀80年代開始,以隱馬爾可夫模型(hidden Markov model,HMM)方法[2,3]為代表的基於統計模型方法逐漸在語音識別研究中佔據了主導地位。HMM模型能夠很好地描述語音信號的短時平穩特性,並且將聲學、語言學、句法等知識集成到統一框架中。此後,HMM的研究和應用逐漸成為了主流。例如,第一個「非特定人連續語音識別系統」是當時還在卡耐基梅隆大學讀書的李開復研發的SPHINX[4]系統,其核心框架就是GMM-HMM框架,其中GMM(Gaussian mixture model,高斯混合模型)用來對語音的觀察概率進行建模,HMM則對語音的時序進行建模。20世紀80年代後期,深度神經網路(deep neural network,DNN)的前身——人工神經網路(artificial neural network,ANN)也成為了語音識別研究的一個方向[5]。但這種淺層神經網路在語音識別任務上的效果一般,表現並不如GMM-HMM 模型。20世紀90年代開始,語音識別掀起了第一次研究和產業應用的小高潮,主要得益於基於GMM-HMM聲學模型的區分性訓練準則和模型自適應方法的提出。這時期劍橋發布的HTK開源工具包[6]大幅度降低了語音識別研究的門檻。此後將近10年的時間裡,語音識別的研究進展一直比較有限,基於GMM-HMM框架的語音識別系統整體效果還遠遠達不到實用化水平,語音識別的研究和應用陷入了瓶頸。

2006年Hinton[7]提出使用受限波爾茲曼機(restricted Boltzmann machine,RBM)對神經網路的節點做初始化,即深度置信網路(deep belief network,DBN)。DBN解決了深度神經網路訓練過程中容易陷入局部最優的問題,自此深度學習的大潮正式拉開。2009年,Hinton和他的學生Mohamed D[8]將DBN應用在語音識別聲學建模中,並且在TIMIT這樣的小辭彙量連續語音識別資料庫上獲得成功。2011年DNN在大辭彙量連續語音識別上獲得成功[9],語音識別效果取得了近10年來最大的突破。從此,基於深度神經網路的建模方式正式取代GMM-HMM,成為主流的語音識別建模方式。

2 語音識別聲學模型中深度神經網路的應用

2.1 深度學習比淺層模型更適合語音處理

深度學習(deep learning,DL)是指利用多層的非線性信號和信息處理技術,通過有監督或者無監督的方法,進行信號轉換、特徵提取以及模式分類等任務的機器學習類方法[10]的總稱。因為採用深層結構(deep architecture)[11] 模型對信號和信息進行處理,所以這裡稱為「深度」學習。傳統的機器學習模型很多屬於淺層結構(shallow structure)模型,例如支持向量機(support vector machine,SVM)、GMM、HMM、條件隨機場(conditional random field,CRF)、線性或者非線性動態系統、單隱層的神經網路(neural network,NN)等。原始的輸入信號只經過比較少的層次(通常是一層)的線性或者非線性處理以達到信號與信息處理,是這些結構模型的共同特點。淺層模型的優點在於在數學上有比較完善的演算法,並且結構簡單、易於學習。但是淺層模型使用的線性或者非線性變換組合比較少,對於信號中複雜的結構信息並不能有效地學習,對於複雜信號的表達能力有局限性。而深層結構的模型則更適合於處理複雜類型的信號,原因在於深層結構具備多層非線性變換[12],具有更強的表達與建模能力。

人類語音信號產生和感知就是這樣一個極其複雜的過程,並且在生物學上被證明具有明顯的多層次甚至深層次的處理結構[13]。所以,對於語音識別任務,採用淺層結構模型明顯有很大的局限性。利用深層次結構中的多層非線性變換進行語音信號中的結構化信息和更高層信息的提取,是更加合理的選擇。

2.2 DNN在語音識別系統中的應用和局限性

從2011年之後,基於DNN-HMM聲學模型[14-18]在多種語言、多種任務的語音識別上取得了比傳統GMM-HMM聲學模型大幅度且一致性的效果提升。基於DNN-HMM語音識別系統的基本框架如圖1所示,採用DNN替換GMM模型來建模語音觀察概率,是其和傳統的GMM-HMM語音識別系統最大的不同。前饋型深度神經網路(feed-forward deep neural network,FDNN)由於比較簡單,是最初主流的深層神經網路。

圖1 基於DNN-HMM的語音識別系統框架

使用DNN 取代GMM主要有以下幾個原因:DNN 可以將相鄰的語音幀拼接起來作為輸入特徵,使得更長時的結構信息得以描述;DNN的輸入特徵可以是多種特徵的融合,也可以是離散或者連續的特徵;不需要對語音數據分布進行假設,也是使用DNN估計HMM狀態的後驗概率分布的一個特點。

語音識別的特徵提取需要首先對波形進行加窗和分幀,然後再提取特徵。訓練GMM模型的輸入是單幀特徵,DNN則一般採用多個相鄰幀拼接在一起作為輸入,這種方法使得語音信號更長的結構信息得以描述,研究表明,特徵拼接輸入是DNN相比於GMM可以獲得大幅度性能提升的關鍵因素。由於說話時的協同發音的影響,語音是一種各幀之間相關性很強的複雜時變信號,正要說的字的發音和前後好幾個字都有影響,並且影響的長度隨著說話內容的不同而時變。雖然採用拼接幀的方式可以學到一定程度的上下文信息,但是由於DNN輸入的窗長(即拼接的幀數)是事先固定的,因此DNN的結構只能學習到固定的輸入到輸入的映射關係,導致其對時序信息的更長時相關性的建模靈活性不足。

2.3 遞歸神經網路在聲學模型中的應用

語音信號具有明顯的協同發音現象,因此必須考慮長時相關性。由於循環神經網路(recurrent neural network,RNN)具有更強的長時建模能力,使得RNN也逐漸替代DNN成為語音識別主流的建模方案。DNN和RNN的網路結構如圖2所示,RNN在隱層上增加了一個反饋連接,是其和DNN最大的不同。這意味著RNN的隱層當前時刻的輸入不但包括了來自上一層的輸出,還包括前一時刻的隱層輸出,這種循環反饋連接使得RNN原則上可以看到前面所有時刻的信息,這相當於RNN具備了歷史記憶功能。對於語音這種時序信號來說,使用RNN建模顯得更加適合。

圖2 DNN和RNN的結構區別示意

但是,傳統的 RNN在訓練過程中存在梯度消失的問題,導致該模型難以訓練。為了克服梯度消失問題,有研究人員提出了長短時記憶(long-short term memory,LSTM)RNN[19]。LSTM-RNN 使用輸入門、輸出門和遺忘門來控制信息流,使得梯度能在相對更長的時間跨度內穩定地傳播。雙向LSTM-RNN (BLSTM-RNN)對當前幀進行處理時,可以利用歷史的語音信息和未來的語音信息,從而容易進行更加準確的決策,因此也能取得比單向LSTM更好的性能提升。

儘管雙向LSTM-RNN的性能更好,但它並不適合實時系統,由於要利用較長時刻的未來信息,會使得該系統具有很大時延,主要用於一些離線語音識別任務。基於此,研究人員提出了延遲受控BLSTM(latency control-BLSTM)[20] 和行卷積BLSTM等模型結構,這些模型試圖構建單向LSTM和BLSTM之間的折中:即前向LSTM保持不變,針對用來看未來信息的反向LSTM做了優化。在LC-BLSTM結構中,標準的反向LSTM被帶有最多N幀前瞻量的反向LSTM替代,而在行卷積模型中被集成了N幀前瞻量的行卷積替代。

2.4 基於FSMN的語音識別系統

目前國際上已經有不少學術或工業機構在進行RNN架構下的研究。目前效果最好的基於BLSTM-RNN的語音識別系統存在時延過大的問題,這對於實時的語音交互系統(如語音輸入法),並不合適。儘管可以通過LC-BLSTM和行卷積BLSTM將BLSTM做到實時語音交互系統,由於RNN具有比DNN更加複雜的結構,海量數據下的RNN模型訓練需要耗費大量的時間。最後,由於RNN對上下文相關性的擬合較強,相對於DNN更容易陷入過擬合的問題,容易因為訓練數據的局部問題而帶來額外的異常識別錯誤。

為了解決以上問題,科大訊飛結合傳統的DNN框架和RNN的特點,研發出了一種名為前饋型序列記憶網路(feed-forward sequential memory network,FSMN)的新框架[21],具體如圖3所示。FSMN的結構採用非循環的前饋結構,只需要180 ms的時延,就達到了和BLSTM-RNN相當的效果。

FSMN的結構示意如圖3(a)所示,其主要是基於傳統DNN結構的改進,在DNN的隱層旁增加了一個「記憶模塊」,這個記憶模塊用來存儲對判斷當前語音幀有用的語音信號的歷史信息和未來信息。圖3(b)畫出了記憶模塊左右各記憶N幀語音信息的時序展開結構。需記憶的歷史和未來信息長度N可根據實際任務的需要來調整。FSMN記憶塊的記憶功能是使用前饋結構實現的,這點有別於傳統的基於循環反饋的RNN模型。採用這種前饋結構存儲信息有兩大好處:首先,傳統雙向RNN必須等待語音輸入結束才能對當前語音幀進行判斷,雙向FSMN對未來信息進行記憶時只需要等待有限長度的未來語音幀即可,這個優點使得FSMN的時延是可控的。實驗證明,使用雙向FSMN結構,時延控制在180 ms時就能取得和傳統雙向RNN相當的效果;其次,傳統簡單的RNN實際並不能記住無窮長的歷史信息,而是只能記住有限長的歷史信息,原因是其訓練過程中存在梯度消失的問題。然而FSMN的記憶網路完全基於前饋展開,在模型訓練過程中,梯度則沿著記憶塊與隱層的連接權重(如圖3所示)往回傳給各個時刻,對判斷當前語音幀的影響的信息通過這些連接權重來決定,而且這種梯度傳播是可訓練的,並且在任何時刻都是常數衰減,以上的實現方式使得FSMN也具有了類似LSTM的長時記憶能力,這相當於使用了一種更為簡單的方式解決了傳統RNN中的梯度消失問題。另外,由於FSMN完全基於前饋神經網路結構,也使得它的並行度更高,GPU計算能力可利用得更加充分,從而獲得效率更高的模型訓練過程,並且FSMN結構在穩定性方面也表現得更加出色。

圖3 FSMN結構示意

2.5 基於卷積神經網路的語音識別系統

卷積神經網路(convolutional neural network,CNN)的核心是卷積運算(或卷積層),是另一種可以有效利用長時上下文語境信息的模型[22]。繼DNN在大辭彙量連續語音識別上的成功應用之後,CNN 又在 DNN-HMM 混合模型架構下被重新引入。重新引入CNN最初只是為了解決頻率軸的多變性[23-26]來提升模型的穩定性,因為該混合模型中的 HMM 已經有很強的處理語音識別中可變長度話語問題的能力。早期CNN-HMM模型僅使用了1~2個卷積層,然後和全連接 DNN 層堆疊在一起。後來,LSTM 等其他 RNN 層也被集成到了該模型中,從而形成了所謂的 CNN-LSTM-DNN(CLDNN)[27]架構。

基於CNN-HMM框架的語音識別吸引了大量的研究者,但是始終鮮有重大突破,最基本的原因有兩個:首先是他們仍然採用固定長度的語音幀拼接作為輸入的傳統前饋神經網路的思路,導致模型不能看到足夠的上下文信息;其次是他們採用的卷積層數很少,一般只有1~2層,把CNN視作一種特徵提取器來使用,這樣的卷積網路結構表達能力十分有限。針對這些問題,科大訊飛在2016年提出了一種全新的語音識別框架,稱為全序列卷積神經網路(deep fully convolutional neural network,DFCNN)。實驗證明,DFCNN比BLSTM語音識別系統這個學術界和工業界最好的系統識別率提升了15%以上。基於DFCNN語音識別框架示意如圖4所示。

圖4基於DFCNN語音識別框架示意

如圖4所示,DFCNN先對時域的語音信號進行傅里葉變換得到語音的語譜圖,DFCNN直接將一句語音轉化成一張圖像作為輸入,輸出單元則直接與最終的識別結果(比如音節或者漢字)相對應。DFCNN的結構中把時間和頻率作為圖像的兩個維度,通過較多的卷積層和池化(pooling)層的組合,實現對整句語音的建模。DFCNN的原理是把語譜圖看作帶有特定模式的圖像,而有經驗的語音學專家能夠從中看出裡面說的內容。

為了理解DFCNN的優勢所在,下面從輸入端、模型結構和輸出端3個角度更具體地分析。首先,在輸入端,傳統語音識別系統的提取特徵方式是在傅里葉變換後用各種類型的人工設計的濾波器,比如Log Mel-Filter Bank,造成在語音信號頻域,尤其是高頻區域的信息損失比較明顯。另外,傳統語音特徵採用非常大的幀移來降低運算量,導致時域上的信息會有損失,當說話人語速較快的時候,這個問題表現得更為突出。而DFCNN將語譜圖作為輸入,避免了頻域和時域兩個維度的信息損失,具有天然的優勢。其次,從模型結構上來看,為了增強CNN的表達能力,DFCNN借鑒了在圖像識別中表現最好的網路配置,與此同時,為了保證DFCNN可以表達語音的長時相關性,通過卷積池化層的累積,DFCNN能看到足夠長的歷史和未來信息,有了這兩點,和BLSTM的網路結構相比,DFCNN在頑健性上表現更加出色。最後,從輸出端來看,DFCNN比較靈活,可以方便地和其他建模方式融合,比如和連接時序分類模型(connectionist temporal classification,CTC)方案結合,以實現整個模型的端到端聲學模型訓練。DFCNN語音識別框架可以方便地和其他多個技術點結合,實驗證明,在數萬小時的中文語音識別任務上,和目前業界最好的語音識別框架BLSTM-CTC系統相比,DFCNN系統獲得了額外15%的性能提升。

2.6 大規模語音數據下神經網路聲學模型的訓練

相比於傳統的GMM-HMM系統,基於DNN-HMM語音識別系統取得了巨大的性能提升[28,29]。但是DNN聲學模型的訓練卻非常耗時。舉個例子,在一個配置為E5-2697 v4的CPU上進行2萬小時規模的語音數據的聲學模型訓練,大概需要116天左右才能訓練完。造成這種情況的潛在原因是將隨機梯度下降(stochastic gradient descent,SGD)演算法作為神經網路訓練中的基本演算法,SGD演算法收斂相對較慢,而且是一個串列演算法,很難進行並行化訓練。而目前工業界主流的語音識別系統涉及的訓練數據一般為幾千小時甚至幾萬小時級別,因此,提高在大規模語音數據下深度神經網路的訓練速度和訓練效率,也成為了研究熱點和必須解決的問題。

由於深度神經網路的模型參數非常稀疏,利用這個特點,參考文獻[30]將深度神經網路模型中超過80%的較小參數都設置為0,幾乎沒有性能損失,同時模型尺寸大大減少,但是訓練時間並沒有明顯減小,原因是參數稀疏性帶來的高度隨機內存訪問並沒有得到太多的優化。進一步地,參考文獻[31]提出在深度神經網路中,用兩個低秩矩陣的乘積表示權重矩陣,實現了30%~50%的效率提升。

通過使用多個CPU或者GPU並行訓練來解決神經網路訓練效率是另外一種可行的方法。參考文獻[32,33]的方式是:把訓練數據分成許多小塊後並行地送到不同的機器來進行矩陣運算,從而實現並行訓練。參考文獻[34]的優化方案是:在模型的每遍迭代中,先將訓練數據分成N個完全不相交的子集,然後在每個子集中訓練一個sub-MLP,最後把這些sub-MLP進行合併網路結合。為了進一步提升並行效率,參考文獻[35]在上千個CPU核的計算集群實現了這種方式,深層網路的訓練主要是利用非同步梯度下降(asynchronous SGD)演算法。參考文獻[36]將非同步梯度下降演算法應用到了多個GPU中。在參考文獻[37]中,一種管道式的BP演算法被提了出來,該方法利用不同的GPU單元來計算神經網路中不同層,實現並行訓練的效果。實驗證明,相對使用單個GPU訓練,該方法通過使用4個GPU實現了3.1倍左右的效率提升。然而,不同計算單元之間極其頻繁的數據傳遞成為該類方法提升訓練效率的主要瓶頸。為此,為了更好地實現神經網路並行訓練,一種新的基於狀態聚類的多深層神經網路建模方法[38]被提出,該方法先將訓練數據在狀態層面進行聚類,在狀態層面進行不相交的子集劃分,使得不同計算單元神經網路之間的數據傳遞規模大幅度減小,從而實現每個神經網路完全獨立的並行訓練。使用4塊GPU,在聚類數為4類的情況下,在SWB(SwitchBoard)數據集上的實驗表明,這種狀態聚類的多神經網路方法取得了約4倍的訓練效率提升。

3 語音識別語言模型中深度神經網路的應用

深度學習理論除了在聲學模型建模上獲得了廣泛的應用外,在語音識別系統另外的重要組件——語言模型上也得到了應用。在深度神經網路普及之前,語音識別系統主要採用傳統的統計語言模型N-gram模型[39]進行建模。N-gram模型也具備明顯的優點,其結構簡單且訓練效率很高,但是N-gram的模型參數會隨著階數和詞表的增大而指數級增長,導致無法使用更高的階數,性能容易碰到瓶頸,在訓練語料處於相對稀疏的狀態時,可以藉助降權(discounting)和回溯(backing-off)等成熟的平滑演算法解決低頻詞或不可見詞的概率估計問題,以獲得比較可靠的模型估計。

在20世紀初,一些淺層前饋神經網路被用於統計語言模型建模[40]。神經網路語言模型是一種連續空間語言模型,平滑的詞概率分布函數使得它對於訓練語料中的低頻詞和不可見詞的概率估計更為頑健,具有更好的推廣性,在語音識別任務上也取得了顯著的效果[41]。最近幾年,相關研究人員也將深層神經網路用於語言模型建模,並取得了進一步的性能提升[42]。

然而,前饋神經網路語言模型只能夠處理固定長度的歷史信息,其仍然存在N階假設,即在預測當前詞概率的時候只與之前N-1個詞有關,這在一定程度上影響了模型的準確性。實際上,人類能夠記憶和處理的歷史信息要長久得多,而標準的RNN正好能夠通過循環網路結構記憶和處理任意長度的歷史信息,因此參考文獻[43]將RNN引入語言模型建模中。RNN相比於前饋神經網路取得了更好的性能。然而,由於基於RNN的深層網路的複雜特性,模型的訓練訓練依舊非常耗時,在大文本(100 GB ~ 1 TB)語料上幾乎不可實現。參考文獻[44]提出在GPU上將多個句子拼接為數據組(mini-batch)同時參與訓練,大幅度地提升了RNN的訓練效率。科大訊飛基於參考文獻[45]的方法進一步改進,將RNN的輸出層基於詞聚類進行了分解,在中文LVCSR任務上獲得了50倍以上的訓練效率提升。在提高訓練效率的基礎上,RNN模型相對於傳統N-gram模型也獲得了5%以上的識別效果提升,這也進一步驗證了RNN的有效性。參考文獻[46]提出了基於LSTM(long short-term memory)的RNN語言模型結構,通過對網路結構的調整,有效解決了RNN語言模型訓練中存在梯度消失(gradient vanishing)的問題[47],並獲得了一定的性能提升。

4 深度學習、大數據和雲計算之間的關係

基於深度學習的語音識別技術在21世紀初走向舞台的中央,並不只是由於深度學習類機器學習演算法的進步,而是大數據、雲計算和深度學習這3個要素相互促進的結果。

不同於之前GMM-HMM語音識別框架表達能力有限、效果對於大規模數據易飽和的情況,深度學習框架所具備的多層非線性變換的深層結構,則具有更強的表達與建模能力,使得語音識別模型對複雜數據的挖掘和學習能力得到了空前的提升,使得更大規模的海量數據的作用得以充分的發揮。大數據就像奶粉一樣,「哺育」了深度學習演算法,讓深度學習演算法變得越來越強大。

隨著移動互聯網、物聯網技術和產品的普及,更重要的是採用雲計算的方式,使得多種類型的海量數據得以在雲端彙集。而對大規模的數據的運算的要求則又顯著提升了對於雲計算方式的依賴,因此雲計算成為了本次深度學習革命的關鍵推手之一。

深度學習框架在雲端的部署,則顯著增強了雲計算的能力。

正是由於深度學習、大數據和雲計算三者的相互促進,才成就了本次語音技術的進步,成就了本次人工智慧的浪潮。

5 總結和展望

本文對語音識別領域的研究狀況和最近幾年的關鍵突破性技術做了比較詳細的介紹。首先簡要回顧了語音識別技術發展的歷史,然後重點介紹了深度神經網路在語音識別聲學模型建模中起到的引領作用,也介紹了各種形態(包括LSTM、FSMN、DFCNN等)的關鍵技術突破。相關研究證明,和傳統的GMM-HMM框架相比,深度學習在大辭彙量連續語音識別任務方面取得了30%~60%的性能提升。也介紹了深度聲學模型訓練的優化方法以及RNN在語言模型建模中的應用,在語言模型領域同樣能取得比傳統N-gram語言模型5%以上的識別效果提升。毫不誇張地說,深度學習技術的確給語音識別的研究和應用帶來了革命性的歷史突破。

語音識別技術進一步的研究熱點方嚮應該包含以下幾個。

首先是端到端的語音識別系統。在目前DNN-HMM的混合框架下,聲學模型中DNN、HMM兩個部分以及語言模型都是單獨訓練的。然而語音識別是一個序列識別的任務,如果能夠對聲學模型的各個部分以及語言模型進行聯合優化,並且去除類似於發音詞典等所有需要人工來設計的組件,必定能取得更進一步的效果提升。目前在聲學模型建模領域已經出現了端到端的模型應用,即將聲學模型中的各個組件做聯合優化,且優化目標是輸出的詞或音素序列,而不是使用交叉熵(cross entropy,CE)準則來優化一幀一幀的標註,比如連接時序分類準則(CTC)被引入[48-50],並且在多個任務上取得了一定的效果。另外,受到CTC的啟發,一種被稱為無詞圖最大互信息(lattice free maximum mutual information,LFMMI)的準則被提出,可以實現從頭訓練的深度神經網路,不需要使用交叉熵做網路的初始化。但是無論是CTC還是LFMMI,都不能稱為真正的端到端語音識別模型,它們仍需要發音詞典、語言模型等組件,需要大量的專家知識來輔助設計。受到在翻譯領域成功應用的Attention模型的啟發[51,52],Encoder-Decoder框架已經不明確區分聲學模型和語言模型,並且完全不需要發音詞典等人工知識,可以真正地實現端到端的建模。Encoder-Decoder框架的模型訓練難度很大並且收斂比較緩慢,目前Google(谷歌)和科大訊飛在新一代端到端框架下已經取得了正面的效果提升,後面應該會吸引更多的研究機構和學者進入該領域進行研究。

其次,直接利用時域波形語音建模來代替人工設計的特徵(比如Log Mel-Filter Bank等)。主要原因是原始的時域波形文件中的信息量是最豐富的,在通過人工設計提取一些特徵的同時也會拋棄一些信息,這些信息對於雜訊較大等複雜場景識別十分重要。研究人員也在這個領域進行了相關的工作[53,54],但是只取得了與人工設計特徵相當的效果。科大訊飛最新的研究成果證明,直接利用時域波形來建模在多個任務上都取得了10%以上的識別效果提升,並且認為該方面仍然會有巨大的提升潛力。

最後,利用多個麥克風信號和深度學習來聯合建模,用來提升遠場環境下的語音識別效果的研究也是近期和長期的熱點,但是如何將深度學習對於離線大數據的學習能力和傳統的信號處理對於瞬時信號處理能力結合起來,仍需要很多的研究工作要做。

參考文獻

[1] DAVIS K. H, BIDDULPH R, BALASHEK S. Automatic recognition of spoken digits[J]. Journal of the Acoustical Society of America, 1952, 24(6): 637.

[2] FERGUSON J D. Application of hidden Markov models to text and speech[EB]. 1980.

[3] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Readings in Speech Recognition, 1990, 77(2): 267-296.

[4] LEEE K F L M. An overview of the SPHINX speech recognition system[J]. IEEE Transactions on Acoustics Speech & Signal Processing Speech, 1990, 38(1): 35-45.

[5] WAIBEL A, HANAZAWA T, HINTON G. Phoneme recognition using time-delay neural networks[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1990, 1(2): 393-404.

[6] YOUNG S, EVERMANN G, GALES M, et al. The HTK book[EB]. 2005.

[7] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

[8] MOHAMED A R, DAHL G, HINTON G. Deep belief networks for phone recognition[EB]. 2009.

[9] YU D, DENG L. Deep learning and its applications to signal and information processing[J]. IEEE Signal Processing Magazine, 2011, 28(1): 145-154.

[10] DENG L. An overview of deep-structured learning for information processing[C]//Asian-Pacific Signal and Information Processing-Annual Summit and Conference (APSIPA-ASC), October 18, 2011, Xi』an, China. [S.l.:s.n.], 2011.

[11] BENGIO Y. Learning deep architectures for AI[J]. Foundations and Trends? in Machine Learning, 2009, 2(1): 1-127.

[12] HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation, 2002, 14(8): 1771-1800.

[13] BAKER J, DENG L, GLASS J, et al. Developments and directions in speech recognition and understanding[J]. IEEE Signal Processing Magazine, 2009, 26(3): 75-80.

[14] MOHAMED A R, DAHL G, HINTON G. Deep belief networks for phone recognition[EB]. 2009.

[15] SAINATH T N, KINGSBURY B, RAMABHADRAN B, et al. Making deep belief networks effective for large vocabulary continuous speech recognition[EB]. 2011.

[16] MOHAMED A, DAHL G E, HINTON G. Acoustic modeling using deep belief networks[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 14-22.

[17] DAHL G E, YU D, DENG L, et al. Context-dependent pre-trained deep neural networks for large vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42.

[18] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

[19] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[20] ZHANG Y, CHEN G G, YU D, et al. Highway long short-term memory RNNS for distant speech recognition[C]//2016 IEEE International Conference on Acoustics, Speech and Signal Processing, March 20-25, 2016, Shanghai, China. Piscataway: IEEE Press, 2016.

[21] ZHANG S L, LIU C, JIANG H, et al. Feedforward sequential memory networks: a new structure to learn long-term dependency[J]. arXiv:1512.08301, 2015.

[22] LECUN Y, BENGIO Y. Convolutional networks for images, speech and time-series[M]. Cambridge: MIT Press, 1995.

[23] ABDEL-HAMID O, MOHAMED A R, JIANG H, et al. Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition[C]//2012 IEEE International Conference on Acoustics, Speech and Signal Processing, March 20, 2012, Kyoto, Japan. Piscataway: IEEE Press, 2012: 4277-4280.

[24] ABDEL-HAMID O, MOHAMED A R, JIANG H, et al. Convolutional neural networks for speech recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014, 22(10): 1533-1545.

[25] ABDEL-HAMID O, DENG L, YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition[EB]. 2013.

[26] SAINATH T N, MOHAMED A R, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing, May 26-30, 2013, Vancouver, BC, Canada. Piscataway: IEEE Press, 2013: 8614-8618.

[27] SAINATH T N, VINYALS O, SENIOR A, et al. Convolutional, long short-term memory, fully connected deep neural networks[C]//2015 IEEE International Conference on Acoustics, Speech and Signal Processing, April 19-24, Brisbane, QLD, Australia. Piscataway: IEEE Press, 2015: 4580-4584.

[28] SEIDE F, LI G, YU D. Conversational speech transcription using context- dependent deep neural networks[C]// International Conference on Machine Learning, June 28-July 2, 2011, Bellevue, Washington, USA. [S.l.:s.n.], 2011: 437-440.

[29] DAHL G E, YU D, DENG L, et al. Large vocabulary continuous speech recognition with context-dependent DBN- HMMs[C]//ICASSP, May 22-27, 2011, Prague, Czech Republic. [S.l.:s.n.], 2011: 4688-4691.

[30] YU D, SEIDE F, LI G, et al. Exploiting sparseness in deep neural networks for large vocabulary speech recognition[C]//ICASSP, March 25-30, 2012, Kyoto, Japan. [S.l.:s.n.], 2012: 4409-4412.

[31] SAINATH T N, KINGSBURY B, SINDHWANI V, et al. Low-rank matrix factorization for deep neural network training with high-dimensional output targets[C]//ICASSP, May 26-31, 2013, Vancouver, BC, Canada. [S.l.:s.n.], 2013: 6655-6659.

[32] KONTáR S. Parallel training of neural networks for speech recognition[C]//13th International Conference on Text, Speech and Dialogue, September 6-10, 2010, Brno, Czech Republic. New York: ACM Press, 2006: 6-10.

[33] VESELY K, BURGET L, GRéZL F. Parallel training of neural networks for speech recognition[C]//13th International Conference on Text, Speech and Dialogue, September 6-10, 2010, Brno, Czech Republic. New York: ACM Press, 2006: 439-446.

[34] PARK J, DIEHL F, GALES M J F, et al. Efficient generation and use of MLP features for Arabic speech recognition[C]//Interspeech, Conference of the International Speech Communication Association, September 6-10, 2009, Brighton, UK. [S.l.:s.n.], 2009: 236-239.

[35] LE Q V, RANZATO M A, MONGA R, et al. Building high-level features using large scale unsupervised learning[J]. arXiv preprint arXiv:1112.6209, 2011.

[36] ZHANG S, ZHANG C, YOU Z, et al. Asynchronous stochastic gradient descent for DNN training[C]//IEEE International Conference on Acoustics, June 27-July 2, 2013, Santa Clara Marriott, CA, USA. Piscataway: IEEE Press, 2013: 6660-6663.

[37] CHEN X, EVERSOLE A, LI G, et al. Pipelined back-propagation for context-dependent deep neural networks[C]//13th Annual Conference of the International Speech Communication Association, September 9-13, 2012, Portland, OR, USA. [S.l:s.n.], 2012: 429-433.

[38] ZHOU P, LIU C, LIU Q, et al. A cluster-based multiple deep neural networks method for large vocabulary continuous speech recognition[C]//ICASSP, May 26-31, 2013, Vancouver, BC, Canada. [S.l.:s.n.], 2013: 6650-6654.

[39] JELINEK F. The development of an experimental discrete dictation recognizer[J]. Readings in Speech Recognition, 1990, 73(11): 1616-1624.

[40] BENGIO Y, DUCHARME R, VINCENT P. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003(3): 1137-1155.

[41] SCHWENK H, GAUVAIN J L. Training neural network language models on very large corpora[C]//Conference on Human Language Technology & Empirical Methods in Natural Language Processing, October 6-8, 2005, Vancouver, BC, Canada. New York: ACM Press, 2005: 201-208.

[42]AR?SOY E, SAINATH T N, KINGSBURY B, et al. Deep neural network language models[C]//NAACL-HLT 2012 Workshop, June 8, 2012, Montreal, Canada. New York: ACM Press, 2012: 20-28.

[43] MIKOLOV T, KARAFIAT M, BURGET L, et al. Recurrent neural network based language model[C]//11th Annual Conference of the International Speech Communication Association, September 26-30, 2010, Makuhari, Chiba, Japan. [S.l.:s.n.], 2010: 1045-1048.

[44] CHEN X, WANG Y, LIU X, et al. Efficient GPU-based training of recurrent neural network language models using spliced sentence bunch[EB]. 2014.

[45] MIKOLOV T, KOMBRINK S, BURGET L, et al. Extensions of recurrent neural network language model[C]//IEEE International Conference on Acoustics, May 22-27, 2011, Prague, Czech Republic. Piscataway: IEEE Press, 2011: 5528-5531.

[46] SUNDERMEYER M, SCHLUTER R, NEY H. LSTM neural networks for language modeling[EB]. 2012.

[47] BENGIO Y, SIMARD P, FRASCONI P. Learning long term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157.

[48] SAK H, SENIOR A, RAO K. Learning acoustic frame labeling for speech recognition with recurrent neural networks[C]//2015 ICASSP, April 19-24, 2015, Brisbane, QLD, Australia. [S.l.:s.n.], 2015: 4280-4284.

[49] SAK H, SENIOR A, RAO K, et al. Fast and accurate recurrent neural network acoustic models for speech recognition[J]. arXiv:1507.06947, 2015.

[50] SENIOR A, SAK H, QUITRY F D C, et al. Acoustic modelling with CD-CTC-SMBR LSTM RNNS[C]//2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), December 13-17, 2015, Scottsdale, AZ, USA. Piscataway: IEEE Press, 2015: 604-609.

[51] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. arXiv: 1409.0473, 2014.

[52] MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]//28th Annual Conference on Neural Information Processing Systems, December 8-13, 2014, Montreal, Canada. [S.l.:s.n.], 2014: 2204-2212.

[53] TUSKE Z, GOLIK P, SCHLUTER R, et al. Acoustic modeling with deep neural networks using raw time signal for LVCSR[EB]. 2014.

[54] SAINATH T N, WEISS R J, SENIOR A W, et al. Learning the speech front-end with raw waveform[EB]. 2015.

作 者 簡 介

王海坤(1984-),男,科大訊飛股份有限公司人工智慧研究院副院長,牽頭研發科大訊飛嵌入式識別系統和遠場識別系統,叮咚音箱技術總負責人,主要研究方向為語音識別、麥克風陣列語音信號處理、回聲消除、語音交互等。著有 40 多篇發明專利,多項研究成果獲得省級以上表彰。

潘嘉(1985-),男,科大訊飛股份有限公司人工智慧研究院語音識別組研究主管,科大訊飛學術委員會委員,主要研究方向為語音識別。在深度神經網路領域有極深的造詣,是科大訊飛語音識別系統研發的主要參與者。

劉聰(1984?),男,博士後,科大訊飛股份有限公司人工智慧研究院副院長,長期從事語音識別和人工智慧等相關領域的研究工作。從2014年底開始,全面負責科大訊飛人臉識別、醫學圖像識別、視頻監控等方向的研究工作,研究成果在多個內部產品中成功應用。2014 年獲得北京市科學技術獎一等獎,發表論文10餘篇,獲得專利10餘項。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 電信科學 的精彩文章:

基於PaaS技術的大數據云化平台實踐

TAG:電信科學 |