當前位置:
首頁 > 新聞 > 一文看懂深度學習在語音合成

一文看懂深度學習在語音合成

雷鋒網按:本文作者劉斌,中科院自動化所博士,極限元資深智能語音演算法專家,中科院-極限元智能交互聯合實驗室核心技術人員,曾多次在國際頂級會議上發表論文,獲得多項關於語音及音頻領域的專利,具有豐富的工程經驗

深度學習在 2006 年嶄露頭角後,近幾年來取得了快速發展,在學術界和工業界均呈現出指數級增長的趨勢;伴隨著這項技術的不斷成熟,深度學習在智能語音領域率先發力,取得一系列成功的應用。本文將重點分享近年來深度學習在語音生成問題中的新方法,圍繞語音合成和語音增強兩個典型問題展開介紹。


語音合成主要採用波形拼接合成和統計參數合成兩種方式。波形拼接語音合成需要有足夠的高質量發音人錄音才能夠合成高質量的語音,它在工業界中得到了廣泛使用。統計參數語音合成雖然整體合成質量略低,但是在發音人語料規模有限的條件下,優勢更為明顯。在上一期我們重點介紹了深度學習在統計參數語音合成中的應用,本期將和大家分享基於波形拼接的語音合成系統,圍繞 Siri 近期推出的語音合成系統展開介紹,它是一種混合語音合成系統,選音方法類似於傳統的波形拼接方法,它利用參數合成方法來指導選音,本質上是一種波形拼接語音合成系統。

單元選擇是波形拼接語音合成系統的基本難題,需要在沒有明顯錯誤的條件下將合適的基元組合在一起。語音合成系統通常分為前端和後端兩個部分,前端模塊對於提高語音合成系統的表現力起到非常重要的作用。前端模塊將包含數字、縮寫等在內的原始文本正則化,並對各個詞預測讀音,解析來自文本的句法、節奏、重音等信息。因此,前端模塊高度依賴於語言學信息。後端通過語言學特徵預測聲學參數,模型的輸入是數值化的語言學特徵。模型的輸出是聲學特徵,例如頻譜、基頻、時長等。在合成階段,利用訓練好的統計模型把輸入文本特徵映射到聲學特徵,然後用來指導選音。在選音過程中需要重點考慮以下兩個準則:(1)候選基元和目標基元的特徵必須接近;(2)相鄰兩個基元的邊界處必須自然過渡。可以通過計算目標代價和拼接代價評估這兩個準則;然後通過維特比演算法計算最優路徑確定最終的候選基元;最後通過波形相似重疊相加演算法找出最佳拼接時刻,因此生成平滑且連續合成語音。

Siri 的 TTS 系統的目標是訓練一個基於深度學習的統一模型,該模型能自動準確地預測資料庫中單元的目標成本和拼接成本。因此該方法使用深度混合密度模型來預測特徵值的分布。這種網路結構結合了常規的深度神經網路和高斯混合模型的優勢,即通過 DNN 對輸入和輸出之間的複雜關係進行建模,並且以概率分布作為輸出。系統使用了基於 MDN 統一的目標和拼接模型,該模型能預測語音目標特徵(譜、基頻、時長)和拼接成本分布,並引導基元的搜索。對於母音,有時語音特徵相對穩定,而有些時候變化又非常迅速,針對這一問題,模型需要能夠根據這種變化性對參數作出調整,因此在模型中使用嵌入方差解決這一問題。系統在運行速度、內存使用上具有一定優勢,使用快速預選機制、單元剪枝和計算並行化優化了它的性能,可以在移動設備上運行。


通過語音增強可以有效抑制各種干擾信號,增強目標語音信號;有效的語音增強演算法一方面可以提高語音可懂度和話音質量,另一方面有助於提高語音識別和聲紋識別的魯棒性。經典的語音增強方法包括譜減法、維納濾波法、最小均方誤差法,上述方法基於一些數學假設,在真實環境下難以有效抑制非平穩雜訊的干擾。基於盲分離的非負矩陣分解方法也得到了一定關注,但是這類方法計算複雜度相對較高;近年來,基於深度學習的語音增強方法得到了越來越多的關注,接下來重點介紹幾種典型的基於深度學習的語音增強方法。


這類方法通過深層神經網路模型建立帶噪語音和乾淨語音譜參數之間的映射關係,模型的輸入是帶噪語音的幅值譜相關特徵,模型的輸出是乾淨語音的幅值譜相關特徵,通過深層神經網路強大的非線性建模能力重構安靜語音的幅值譜相關特徵;神經網路模型結構可以是 DNN/BLSTM-RNN/CNN 等;相比於譜減、最小均方誤差、維納濾波等傳統方法,這類方法可以更為有效的利用上下文相關信息,對於處理非平穩雜訊具有明顯的優勢。


採用這類方法建模時模型的輸入可以是聽覺域相關特徵,模型的輸出是二值型屏蔽值或浮點型屏蔽值,最常用的聽覺域特徵是 Gamma 濾波器相關特徵,這種方法根據聽覺感知特性將音頻信號分成不同子帶提取特徵參數;對於二值型屏蔽值,如果某個時頻單元能量是語音主導,則保留該時頻單元能量,如果某個時頻單元能量是雜訊主導,則將該時頻單元能量置零;採用這種方法的優勢是,共振峰位置處的能量得到了很好的保留,而相鄰共振峰之間波谷處的能量雖然失真誤差較大,但是人耳對這類失真並不敏感;因此通過這種方法增強後的語音具有較高的可懂度;浮點值屏蔽是在二值型屏蔽基礎上進一步改進,目標函數反映了對各個時頻單元的抑製程度,進一步提高增強後語音的話音質量和可懂度。


目前主流的語音增強方法更多的關注於對幅值譜相關特徵的增強而保留原始語音的相位譜,隨著信噪比的降低相位譜失真對聽感的影響明顯增強,在低信噪比條件下,有效的相位重構方法可以有助於提高語音可懂度;一種典型的相位重構方法是利用基音周期線索對濁音段的相位進行有效修復,但是這類方法無法有效估計清音段的相位信息;複數神經網路模型可以對複數值進行非線性變換,而語音幀的複數譜能夠同時包含幅值譜信息和相位譜信息,可以通過複數神經網路建立帶噪語音複數譜和乾淨語音複數譜的映射關係,實現同時對幅值信息和相位信息的增強。

通過說話人分離技術可以將混疊語音中不同的說話人信息有效分離出來,已有的基於深度學習的說話人分離模型受限於說話人,只能分離出特定說話人的聲音;採用具有置換不變性的訓練方法得到的說話人分離模型不再受限於特定說話人;這種方法通過自動尋找分離出的信號和標註的聲源之間的最佳匹配來優化語音增強目標函數;模型的輸入是混疊語音的譜參數特徵,模型的輸出包含多個任務,每個任務對應一個說話人;在訓練過程中,對於訓練集中一個樣本內,每個任務固定對應某個說話人;可以採用 BLSTM-RNN 模型結構建模。


基於深度聚類的說話人分離方法是另一種說話人無關的分離模型,這種方法通過把混疊語音中的每個時頻單元結合它的上下文信息映射到一個新的空間,並在這個空間上進行聚類,使得在這一空間中屬於同一說話人的時頻單元距離較小可以聚類到一起;將時頻單元映射到新的空間跟詞矢量抽取的思想有些類似,可以通過 k 均值聚類的方法對時頻單元分組,然後計算二值型屏蔽值分離出不同說話人的語音,也可以通過模糊聚類的方法描述不同的時頻單元,然後計算浮點型屏蔽值後分離混疊語音。基於深層聚類的方法和基於 PIT 的方法有著各自的優勢,為了更有效的解決問題,可能需要將兩種方法有效的結合。


在深度學習生成模型方面的最新突破是生成對抗網路,GAN 在計算機視覺領域生成逼真圖像上取得巨大成功,可以生成像素級、複雜分布的圖像。GAN 還沒有廣泛應用於語音生成問題。本文介紹一種基於對抗網路的語音增強方法。這種方法提供了一種快速增強處理方法,不需要因果關係,沒有 RNN 中類似的遞歸操作;直接處理原始音頻的端到端方法,不需要手工提取特徵,無需對原始數據做明顯假設;從不同說話者和不同類型雜訊中學習,並將它們結合在一起形成相同的共享參數,使得系統簡單且泛化能力較強。

語音增強問題是由輸入含噪信號得到增強信號,這種方法通過語音增強 GAN 實現,其中生成網路用於增強。它的輸入是含噪語音信號和潛在表徵信號,輸出是增強後的信號。將生成器設計為全部是卷積層(沒有全連接層),這麼做可以減少訓練參數從而縮短了訓練時間。生成網路的一個重要特點是端到端結構,直接處理原始語音信號,避免了通過中間變換提取聲學特徵。在訓練過程中,鑒別器負責向生成器發送輸入數據中真偽信息,使得生成器可以將其輸出波形朝著真實的分布微調,從而消除干擾信號。


本文圍繞著近年來深度學習在語音合成和語音增強問題中的新方法展開介紹,雖然語音合成和語音增強需要解決的問題不同,但是在建模方法上有很多相通之處,可以相互借鑒。深度學習方法在語音轉換、語音帶寬擴展等領域也有著廣泛的應用,感興趣的讀者可以關注這一領域最新的研究成果。雖然深度學習的快速發展推動了智能語音產品的落地,但是仍有些問題不能依賴於深度學習方法徹底解決,例如提高合成語音的表現力、提高增強後語音的可懂度,需要在對輸入輸出特徵的物理含義深入理解的基礎上,有效的表徵信息,選擇合適的方法進行建模。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

請來了微軟亞太研發集團三號人物做掌門人,遲到的京東雲能追平嗎?
威馬汽車首款量產車100%聯網,與360信息安全合作今日落錘
亞馬遜要花50億美元建第二總部,是時候回顧下它的十年西雅圖擴張史了
小米MIX 2圖賞:除了更小「下巴」,「全面屏2.0」還有哪些亮點?
EMNLP最佳長論文作者獨家解讀:別讓機器學習放大性別偏見,其實男人也喜歡購物!

TAG:雷鋒網 |