百度Deep Speaker：可用於端到端的大規模說話人識別

新聞 05-11

選自Baidu.Research

作者：Chao Li、Ajay Kannan 和 Zhenyao Zhu

機器之心編譯

參與：吳攀

百度Deep Speaker：可用於端到端的大規模說話人識別

對話常常涉及到多個說話人，在這樣的場景中，機器需要具備識別不同說話人的能力才能發揮更大的價值。近日，百度的一篇論文提出一種新的端到端的基於神經網路的說話人識別系統 Deep Speaker，實驗表明該系統顯著優於之前的基於 DNN 的 i-vector 方法。今天早些時候，百度發布了一篇技術博客對這項研究進行了解讀，機器之心對本文進行了編譯介紹，論文原文請訪問：https://arxiv.org/abs/1705.02304

說話人識別（speaker recognition）演算法的目標是根據音頻確定說話人的身份。常見的識別任務有兩種：驗證（確定說話人是否是其宣稱的身份）和說話人身份識別（從一組說話人中分辨出未知音頻的說話人）。

這項技術有很多不同的應用。比如說，聲紋（voiceprint）可以被用於登錄設備。說話人身份驗證可被用作金融交易的額外安全步驟。此外，智能家庭助手這樣的共享設備也可以使用這項技術來為當前用戶提供個性化服務。

最近一些使用神經網路來進行說話人識別的論文已經在傳統的 i-vector 方法的基礎上實現了提升，可參考來自 Interspeech 教程的原論文和幻燈片。

原論文：http://www.crim.ca/perso/patrick.kenny/IS090079.PDF
幻燈片：http://people.csail.mit.edu/sshum/talks/ivector_tutorial_interspeech_27Aug2011.pdf

i-vector 方法假定任何話語都可被分解為一個依賴於說話人和信道變化的分量與另一個相對於這些因素不變的分量。i-vector 說話人識別是一個多步過程，涉及到使用來自多個說話人的數據來評估一個通用背景模型（Universal Background Model，通常是高斯混合模型）、收集足夠的統計數據、提取 i-vector、以及最後使用一個分類器來進行識別任務。

一些論文已經將 i-vector 流程中的某些部分替換為了神經網路，另一些研究則在訓練端到端的說話人識別模型——不管是依賴於文本的方法（用戶必須說出同樣的話語，比如喚醒詞），還是獨立於文本的方法（模型不知道話語中的詞）。我們推出了一款端到端的神經說話人識別系統 Deep Speaker，其在依賴於文本和獨立於文本的場景中都表現良好。這意味著不管你是使用喚醒詞來激活你的家庭助手，還是在會議上講話，該系統都能夠在訓練之後識別出說話人的身份。

Deep Speaker 包含用於從音頻中提取特徵的深度神經網路層，還帶有基於餘弦相似度（cosine similarity）的時間池化（temporal pooling）和 triplet loss。我們探索了使用 ResNet 啟發的卷積模型和循環模型來提取聲學特徵。

百度Deep Speaker：可用於端到端的大規模說話人識別

圖註：我們使用了 triplet loss，其之前曾被用於人臉識別。在訓練階段，我們選擇一個說話人的一個話語，然後計算一個嵌入（標記為 Anchor）。然後我們生成另外兩個嵌入，一個來自同一個說話人（標記為 Positive），另一個來自不同的說話人（標記為 Negative）。在訓練階段，我們會努力使 anchor 嵌入和 positive 嵌入之間的餘弦相似度高於 anchor 嵌入和 negative 嵌入之間的餘弦相似度。

我們在三個不同的數據集上演示了 Deep Speaker 的有效性，其中既包括依賴於文本的任務，也包含獨立於文本的任務。其中一個數據集 UIDs 包含大約 250,000 個說話人，在我們所知的文獻中，這是目前最大規模的。實驗表明 Deep Speaker 的表現顯著優於基於 DNN 的 i-vector 方法。比如，在一個獨立於文本的數據集上，Deep Speaker 在說話人驗證任務上達到了 1.83% 的等錯誤率（EER），並且還在有 100 個隨機採樣的候選者的說話人識別任務上得到了 92.58% 的準確度。相比於基於 DNN 的 i-vector 方法，Deep Speaker 的 EER 下降了 50%，準確度提高了 60%。

百度Deep Speaker：可用於端到端的大規模說話人識別

圖註：我們在實驗中使用的三個數據集分別是 UIDs、XiaoDu 和 MTurk。其中 UIDs 和 XiaoDu 是普通話數據集，MTurk 是英語數據集。UIDs 和 MTurk 是獨立於文本的數據集，XiaoDu 是依賴於文本的數據集——基於百度的喚醒詞。為了試驗不同的訓練集大小，我們使用了全 UIDs 數據集（Train250k）和一個大約包含 5 萬個說話人的子集（Train50k）。在評估階段，我們選擇 1 個 anchor，然後隨機選擇 1 個 anchor positive 樣本和 99 個 anchor negative 樣本來進行測試。

我們還發現 Deep Speaker 可以學習到獨立於語言的特徵。當僅在普通話語音上訓練時，Deep Speaker 在英語的驗證和識別任務上分別實現了 5.57% 的 EER 和 88% 的準確度。此外，相比於沒有使用普通話預訓練的模型，首先使用普通話訓練然後再繼續使用英語訓練的模型在英語識別準確度上得到了提升。這些結果說明 Deep Speaker 可以跨語言學習識別說話人的聲學特徵，即使這些語言聽起來非常不同。

這些結果與 Deep Speech 2（https://arxiv.org/abs/1512.02595）一道，說明同樣的架構可以學會識別極其不同的語言的語音。

有關 Deep Speaker 模型、訓練技術和實驗結果的詳情，請參閱論文，以下是該論文的摘要：

論文：Deep Speaker：一種端到端神經說話人嵌入系統（Deep Speaker: an End-to-End Neural Speaker Embedding System）

百度Deep Speaker：可用於端到端的大規模說話人識別

我們提出了 Deep Speaker，這是一個基於神經網路的說話人嵌入系統（neural speaker embedding system），這個系統可以將話語映射到一個超平面，從而可以通過餘弦相似度來衡量說話人的相似度。由 Deep Speaker 生成的嵌入可以被用在很多任務中，包括說話人識別、說話人驗證和聚類。我們的實驗使用了 ResCNN 和 GRU 架構來提取聲學特徵，然後平均池化以生成語句層面說話人嵌入，並用基於餘弦相似度的 triplet loss 來訓練。在三個不同數據集上的實驗表明 Deep Speaker 的表現要優於基於 DNN 的 i-vector 的基準結果。例如，在一個獨立於文本的數據集上，Deep Speaker 將說話人驗證的等錯誤率（EER）相對降低了 50%，把說話人識別的準確率相對提升了 60%。我們還有一些實驗結果表明調整在普通話上訓練過的模型可以提升英語說話人識別的準確率。

百度Deep Speaker：可用於端到端的大規模說話人識別

圖 1：Deep Speaker 架構示意圖

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※深度布局AI的Nvidia在GTC大會上強調了哪些重點？
※研學社 · 入門組｜《終極演算法》前兩章總結及第三章學習
※讓黑白影像重獲新生：UC 伯克利提出實時神經網路著色模型
※深度定製：揭秘Graphcore深度學習晶元加速軟體
※Facebook提出全新機器翻譯：準確度超越谷歌且還快九倍

TAG:機器之心 |

您可能感興趣

※解密：OpenAI和DeepMind都用的Transformer是如何工作的
※Deep Voice Report個人翻譯
※你的模型可以輕鬆使用TPU了！DeepMind 開源分散式機器學習庫TF-Replicator
※結合符號主義和DL:DeepMind提出端到端神經網路架構PrediNet
※AlphaGo後再出神作！DeepMind打造AlphaFold擊敗人類，精度碾壓人類專家！
※Deep Lifestyles Supply Co. 推出「Los Angeles@Tokyo」別注服裝系列
※DeepMind忍不住了！AlphaStar戰勝人類可不是你們想的那樣
※谷歌、DeepMind和OpenAI都在用的Transformer是如何工作的？
※多圖詳解 DeepMind 的超人類水準星際爭霸 AI「AlphaStar」
※iOS限免App精選：Deep Whois
※AlphaGo之父DeepMind再出神作，PrediNet原理詳解
※DeepMind回應一切：AlphaStar兩百年相當於人類多長時間？
※DeepMind高管回答：Alpha zero 的強化學習是否真的不要訓練數據？
※結合符號主義和深度學習，DeepMind提出新型端到端神經網路架構 PrediNet
※The deepest oath is wait for you世上最深情的誓言，是我等你！
※DeepMind私貨公開，推出分散式機器學習庫，TensorFlow、Keras可用
※多任務智能體的一大步：DeepMind 一次搞定 57種Atari 遊戲的 PopArt
※多任務智能體的一大步：DeepMind 一次搞定 57種Atari 遊戲的 PopArt
※從deepfakes被禁止，看TensorFlow的泛濫應用
※一座銹跡斑斑的教學樓獲獎無數 The Story of Deep Red CorTen Steel