「2019 年聲紋識別研究與應用學術討論會」成功舉辦，18 位特邀嘉賓，60 名企業代表探討聲紋識別技術

新聞 04-30

雷鋒網 AI 科技評論按，近日，「2019 年聲紋識別研究與應用學術討論會」在崑山杜克大學學術樓一樓報告廳舉辦。本次會議由中國計算機學會和崑山杜克大學聯合舉辦，由崑山市科學技術協會提供支持，協辦方包括崑山杜克大學大數據研究中心、清華大學媒體大數據認知計算研究中心和中國計算機學會語音對話與聽覺專業工作組。大會主席由崑山杜克大學電子與計算機工程副教授，美國杜克大學電子與計算機工程系客座研究員、博士生導師，武漢大學人工智慧研究所兼職教授李明和清華大學媒體大數據認知計算研究中心副研究員何亮共同擔任。

上午 9:00，崑山杜克大學學術事物副校長，美國杜克大學講席教授高海燕參加了開幕式並進行了開場致辭。

隨後，中國計算機學會語音對話及聽覺專業組副主任，上海交通大學計算機科學與工程系教授俞凱老師進行了致辭，他給大家介紹了本次會議的基本情況，感謝各位參會嘉賓的支持，呼籲語音界團結合作，舉辦更多的高水平學術活動。

「2019 年聲紋識別研究與應用學術討論會」成功舉辦，18 位特邀嘉賓，60 名企業代表探討聲紋識別技術

本次會議分為四個環節，第一個環節是關於深度學習的討論，第二個環節是對抗學習、說話人日誌相關技術的討論，第三個環節的主題是說話人編碼，第四個環節的討論內容是聯合學習。

第一個環節：深度學習

首先上台報告的是本次會議主席之一，崑山杜克大學電子與計算機工程副教授，美國杜克大學電子與計算機工程系客座研究員、博士生導師，武漢大學人工智慧研究所兼職教授李明，他的分享主題是「基於端到端深度學習的說話人和語種識別」。

他表示，語音作為語言的聲音表現形式，不僅包含了語言語義信息，同時也傳達了說話人語種，性別，年齡，情感，信道，嗓音，病理，生理，心理等多種豐富的副語言語音屬性信息。以上這些語言語音屬性識別問題從整體來看，其核心都是針對不定時長文本無關的句子層面語音信號的有監督學習問題，只是要識別的屬性標註有不同。

李明介紹了其團隊近期在 ICASSP，INTERSEECH 等語音領域重要國際會議上發表的工作：（1）提出基於字典池化的編碼層代替原有的平均池化層，效果顯著；（2）提出一種結合注意力機制的 CNN-BLSTM 網路框架，能有效地結合 CNN 和 BLSTM 各自的優勢，達到更好的系統性能；（3）引入 Center loss 和 Angular Softmax 以學習得到更具鑒別性的說話人特徵，後端僅僅使用餘弦相似度打分即可得到較好的說話人驗證性能；（4）提出在網路學習階段便引入長度歸一化機制，後端僅僅使用簡單的內積即可得到較好的說話人驗證性能。

最後，李明總結說，近年來，聲紋識別的研究趨勢正在快速朝著深度學習和端到端方向發展，其中最典型的就是基於句子層面的做法。他認為，在網路結構設計，數據增強，損失函數設計等方面還有很多工作去做，還有很大的提升空間。

第二個演講嘉賓是中國科學院聲學研究所研究員、博士生導師，中國科學院大學崗位教授，英國謝菲爾德大學公派訪問學者張鵬遠，他討論的內容是「基於深度學習的短時聲紋識別技術」。

他認為，在實際應用中，由於對基於語音的訪問控制需求的不斷增長，提升聲紋識別系統在短時語音情況下的性能變得尤為迫切。短時語音中說話人信息不足以及註冊和測試語音的文本內容不匹配，對於主流的基於統計建模的聲紋識別系統是一個嚴峻的挑戰。

為了從短時語音中精確提取表徵說話人個性信息的說話人特徵向量，他們團隊提出了一種雙路神經網路，從多個時間尺度來對說話人信息進行建模，並融合不同時間尺度的特徵來進行建模尺度的互補，顯著提升了短時語音條件下的系統性能。

團隊進一步針對說話人低維向量如 i-vector，embedding 等進行了後端建模的研究，提出了基於區分性學習方法的神經網路來最大化說話人的類間方差，同時最小化類內方差，網路將說話人的低維向量映射到更具說話人區分性的空間，從而使最終得到的低維向量能更好的進行說話人判決。

上午的第三個演講嘉賓是中國科學技術大學語音及語言信息處理國家工程實驗室副教授宋彥。宋彥老師長期從事人工智慧和語音信號智能處理研究，他的演講題目是「基於深度學習的說話人識別方法」。

他說，目前採用的深度說話人識別方法首先利用神經網路提取前端的幀級特徵，然後通過池化映射獲得可以表示說話人特性的段級向量，最後採用 LDA/PLDA 等後端建模方法進行度量計算。

相對於傳統的 i-vector 生成過程，基於深度學習的說話人識別方法優勢主要體現在區分性訓練和利用多層網路結構對局部多幀聲學特徵的有效表示上。如何進一步改進現有的深度說話人學習方法是現階段的一個研究熱點。

對於這一問題，他介紹了三種方法：結合密集空洞卷積和注意力機制的幀級特徵提取方法、基於跨層雙線性池化操作的段級特徵映射方法和基於深度判別分析優化目標實現的端到端的說話人識別方法。

第二個環節：對抗學習、說話人日誌

首先上台的是西北工業大學計算機學院教授、博士生導師謝磊。他和大家分享了「深度對抗學習在說話人識別中的應用」有關的內容。

他提及，對抗學習在計算機視覺領域應用非常廣泛，在語音領域也用到的很多，近兩年來，和語音相關對抗學習研究的文章數量明顯增長。

生成式對抗網路 (GAN) 的主要目的是用在數據生成、降噪、等很多場景裡面。它還被用在領域自適應裡面，形成一個新的分布。第三個廣泛的應用是生成對抗樣本，這會對分類系統產生大的困擾。很多研究者用對抗樣本攻擊機器學習的系統，在原始數據上增加一些擾動，生成樣本，經過神經網路之後就有可能識別成完全不同的結果。這個思想在圖像處理領域非常活躍，會造成錯誤識別，引起了自動駕駛，安全等領域的研究人員的廣泛關注。

在語音領域，GAN 可以用在語音識別、口音自適應上，通過多任務學習和梯度反轉層來進行口音或信道的自適應，然後加上其他方法可以得到較好的效果。聲紋識別也存在各種不匹配的問題，在聲紋識別上也可以使用這一思想。同樣的思想也用在了 TTS 語音合成領域，目的是把不同的音素解耦成說話人，風格等，去除雜訊對建模的影響。

隨後，廈門大學副教授，全國人機語音通訊會議（NCMMSC）常設委員，福建省傑出青年基金獲得者洪青陽和聽眾探討了「基於對抗多任務學習的抗噪魯棒說話人識別」相關的經驗。

洪青陽表示，聲紋識別是比較小眾的研究，對很多人來說是比較陌生的領域，但隨著技術的發展，現在學術界和工業界越來越重視這方面的研究。最開始研究用的是早期的英語數據，現在數據處理的難度越來越大，有中文數據、長語音，數據中還可能有短語音、雜訊等。

針對雜訊環境下說話人識別系統下降問題，洪青陽團隊設計對抗多任務網路來提取具有高雜訊魯棒性的說話人特徵。該網路結構包含有三個部分：一個編碼器（encoder）, 一個說話人分類器（speaker classifier）和一個判別器（discriminator）。在訓練過程中，編碼器和說話人分類器聯合訓練使 speaker embedding 更具有說話個體與個體之間的區分性，判別器和編碼器進行對抗訓練使得編碼器映射得到的 embedding 包含更少的雜訊信息。通過這種對抗多任務訓練，他們能夠得到具有雜訊魯棒性的 speaker embedding，實驗結果表明，新的 embedding 在不同雜訊干擾的情況下均獲得較好的性能提升。

上午最後一個演講的是中國科學技術大學副教授杜俊，他的演講題目是「Recent Progress on Speech Enhancement for Speaker Diarization in Realistic Environments」。

他透露，他們團隊做了一些說話人日誌相關的研究。例如開會的語音，怎麼區分每個發言人。目前主流的方法是對數據進行加噪處理，但是他們採用的方法是降噪，加噪後分類的區分度會降低。2018 年，團隊在 Github 上開源了一個工具，可以用來降噪。他們的網路和主流神經網路的區別在於中間層的設計不一樣。

他提及，語音降噪裡面最重要的是信噪比，而深度學習的方法傾向於降噪，由此帶來的問題是可能會把語音層度給破壞掉。於是他們設計了一個將信噪比分為多個階段去學習的網路，分而治之，這樣的好處是在每個過程中，在幹什麼比較清晰。隨後他們做了一些測試，在兩個數據集上進行了測試，發現他們的方法在增強效果上獲得了提升。除了雜訊問題之外，語音重疊是目前最有挑戰性的問題，很多說話人日誌問題都是由於 overlap 的影響沒有得到很好的解決。

最後他總結說，可以使用更多的訓練數據來增強泛化能力；尤其是在高度不匹配的情況下，用「分層級分階段」的語音增強方法來處理數據。

他還談到，他們目前正在做的工作有：充分利用所有的學習目標探索後處理；在去噪架構中加入去混響；檢測重疊語音，分離說話人等。

第三個環節：說話人編碼

下午第一個演講的是清華大學語音語言中心副研究員，中心常務副主任王東，他演講的主題是「說話人識別中的嵌入向量歸一化」。

他介紹道，PLDA 和 LDA 的基本思路一樣，都用到了 speaker 的信息。LDA 和 PLDA 都能得到很好的效果，雖然 PLDA 包含 LDA，但是 LDA 和 PLDA 加在一起效果會更好，產生這種現象的原因可能是因為歸一化的問題。

然後，他又接著講了 LDA，PLDA 和 PCA 在三種方法的特點，介紹了他們的工作。最後，他總結說，VAE 可以得到更好的 embedding；基於 VAE 的編碼在邊緣上是高斯約束的；約束邊緣可以導致更好的歸一化先驗；在只有自己或者採用 PLDA 的時候，正規化 embedding 的表現更好等。

下午第二個做報告的是上海交通大學計算機科學與工程系副教授，博士生導師，上海交大-思必馳聯合實驗室副主任錢彥旻，他的分享主題是「Recent Advances in Deep Embedding Learning for Speaker Identification and Spoofing Detection」。

他表示，說話人識別和欺騙檢測近年來受到學術界和業界的廣泛關注，人們希望在實際應用中設計出高性能的系統。基於深度學習的方法在該領域得到了廣泛的應用，在說話人識別和反欺騙方面取得了新的里程碑。

然而，在真實複雜的場景下，面對短語音、雜訊的破壞、信道失配、大規模等困難，開發一個魯棒的系統仍然是非常困難的。深度嵌入學習是進行說話人識別和反欺騙的一個重要途徑，在這方面已有一些著名的研究成果。如之前的 d-vector 特徵和當前普遍使用的的 x-vector 特徵。

他說，從 2013 年到現在，他們團隊發表了 20 多篇說話人識別和反欺騙方面的論文，這些文章大部分是關於說話人識別的。隨後，他介紹了他們的一些論文。他們的第一個工作，是 speaker embedding 的數據增強，第二個工作是 speaker embedding 的後處理。目前存在的問題的較大的模型表現很好但是需要的計算資源大，較小的模型需要的資源少但是效果太差。改進的方法是構建性能良好的小型說話人識別嵌入模型。

第三個環節以西北工業大學教授，博士生導師張曉雷的演講作為結尾。

張曉雷表示，傳統聲紋識別演算法通常首先優化代理損失函數，例如分類錯誤率，然後使用 DET 曲線或 EER 作為評價指標，這造成了優化目標和評價指標之間的不匹配。

隨後，他介紹了兩種直接優化評價指標的度量學習後端演算法。第一種演算法在餘弦相似度框架下最小化 EER，第二種演算法在馬氏距離相似度量框架下最大化部分 ROC 曲線下面積（pAUC）；這兩種後端演算法都可作為深度神經網路的優化目標。

基於餘弦相似度量的方法存在局部最優化的問題，需要提供好的初始點。在優化損失度量的時候，高斯分布之間的方差也會變大，需要讓這個方差在可控的範圍內。這個演算法的缺陷是，對參數的調節比較敏感，造成這個現象的原因是，其優化目標是非凸的。

為了解決這三個問題，他們團隊提出了基於馬氏距離相似度量框架。(1) 優化目標 pAUC 是聲紋識別的全局評價指標，AUC 是 pAUC 的特例; (2) 基於馬氏距離，所構造的目標函數是凸函數。該方法有很多優點，可以通過參數設定，輕鬆的選擇難分的樣本對; 也可以靈活與不同前端結合，如 i-vector / x-vector; 還可以很容易推廣到 End-to-End 的框架下。

第四個環節：聯合學習。

首先上台的是清華大學媒體大數據認知計算研究中心，副研究員何亮。

他告訴我們，語音是日常生活中簡潔高效的自然溝通方式，承載了大量信息。主流研究常從單一角度切入，忽視不同屬性間相互影響。從語音產生機制來看，語音的多維屬性是緊耦合的；從聽感知理論來看，語音的多維屬性信息是共同感知，相互存進。

基於上面的認知，他們團隊進行聯合識別研究，利用貝葉斯公式將目標問題轉化為數學表述，推導五種聯合識別方法，探索論證網路結構、優化策略和迭代收斂性等。基於前期的 I-vector 和潛在類別模型等研究基礎，他和大家探討了如下工作：

基於通用語音識別資料庫，構建並開源聯合識別數據集；
基於 DNN-HMM、CTC 語音識別系統，x-vector、DNN i-vector 說話人識別系統，實現並驗證聯合識別系統，重點是網路共享和迭代優化方法；
基於分解層次化變分自動編碼器和多目標優化對抗生成網路，設計通用聯合識別網路。
未來，我們的技術應該是什麼方向？他對此進行了思考。

他認為，未來有 3 個技術方向可以進行深入研究，一是沿著深度神經網路的主線，利用對抗生成、端到端、網路結構，代價函數等技術對系統性能進一步提升；二是和語音合成相結合的聯合學習以及對抗識別；三是和語音識別結合的聯合學習。

隨後演講的是清華大學電子系教授歐智堅，他的報告題目是「簡潔的說話人識別及語音識別」。

他給大家分享了他們團隊 3 個方面的工作：

1）引入 Joint Bayesian 鑒別分析替代現在主流的 PLDA（Probabilistic Linear Discriminant Analysis），不需要指定子空間的維數且提高了說話人識別的性能。

2）引入 Angular Softmax Loss 到說話人驗證，不需要 Triplet 數據選擇，更容易使用且訓練穩定，取得了同等實驗條件下優異識別性能，對類別空間為開集的模式識別研究具有指導意義。

3）提出使用神經時序分類（CTC）狀態拓撲的條件隨機場（CRF）方法，簡稱 CTC-CRF。在 WSJ、Switchboard、Librispeech 三個常用基準數據集上，CTC-CRF 的性能表現均超過了標準 CTC 模型、基於注意力的模型以及現在廣為流行的 Kaldi 工具包中的端對端模型（End-to-end Chain-model），同時具有訓練流程簡潔、能充分利用詞典及語言模型從而數據利用效率高等優勢，展示出巨大潛力。

最後，中國科學技術大學電子工程與信息科學系副教授郭武、清華大學電子工程系老師張衛強做了主題為「複雜環境下語音數據的說話人識別及關鍵詞檢索初探」的報告。

他們認為，說話人識別和關鍵詞檢索目前有 3 個瓶頸問題還沒有很好地解決：（1）數據來源廣泛，大量語音數據不再是安靜環境或合作方式下採集，這使得聲學條件非常複雜，傳統的特徵提取與表徵方式受到挑戰；（2）多種語種混雜，數據中含有多種語種/方言/口音的數據混合或切換，這使得單一語種關鍵詞檢索系統的無法湊效，說話人識別系統的性能顯著降低；（3）有效資源稀缺，對於小語種或方言，標註數據極其有限，發音字典難以獲取，並且普遍缺少專家知識，這使得傳統的依靠大量資源的建模方法根本無法使用，必須探索新的範式。

針對以上問題，他們兩個課題組聯合做了一系列的攻關。針對說話人識別，他們從兩方面進行了改進。（1）他們針對傳統的 TDNN 或者 CNN 對語音特徵層的編碼信息提取不足的問題，提出採用門控的 CNN（GCNN）來對語音特徵層進行編碼提取說話人底層信息；進一步，他們將門控的信息引入到注意力機制中，從而可以保證最有說話人區分性的信息用來形成表達說話人的 x-vector。（2）得分規整可有效調整說話人測試得分分布，使得分分布接近正態分布，從而提升整體判決的準確率。在測試集與訓練集或者開發集不匹配的情況下，如何從大量不匹配的數據中選擇得分得到規整參數是保證系統性能的關鍵。他們利用無監督聚類手段對這些得分進行聚類，採用混合高斯模型來擬合得分分布，只挑選均值最大的一個高斯單元來作為得分規整的參數並將其應用於說話人的得分規整。

針對關鍵詞檢索，他們主要針對低資源場景進行研究。（1）對於有幾十小時訓練數據的情況，他們分別對特徵序列和文本序列進行 embedding，然後進行端到端的建模，可以擺脫對語音識別系統的依賴。（2）對於有若干樣例的情況，我們採用關鍵詞-填充詞的思路，為每個關鍵詞建立模型和搜索路徑，可以進行語種無關的關鍵詞檢索。（3）對於僅有一個樣例的，我們先用神經網路提取合適的特徵表示，然後進行模板匹配，可以進行「零資源」關鍵詞檢索。

在這四個演講環節結束後，企業嘉賓上台與學術界老師們共同探討了聲紋識別技術目前的發展現狀，未來可能的發展趨勢以及自己的學習經歷等等。最後，嘉賓們討論了下次會議相關事宜。

至此，本次會議圓滿結束。

本次會議到場的校外聽眾超過 130 人，特邀演講嘉賓 18 人，參會高校教師 15 人，參會企業代表 60 人，參會研究生 36 人，在線觀看直播的人數也達到了幾千人。在每個環節中，聽眾們的討論都非常激烈，同學們的提問異常踴躍，嘉賓們學識淵博，不厭其煩地解答相關技術問題，到場的聽眾都受益匪淺。相信明年的學術研討會一定會更加精彩，期待！

雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※CES發起方聯合IBM、谷歌等公司制定醫療人工智慧新標準
※帝國理工：如何用 AI 解決 80% 專科醫生擔憂的心律裝置移植手術難題

TAG:雷鋒網 |