騰訊論文入選Interspeech 2017：在單通道語音分離中應用的深度神經網路的訓練優化

新聞 08-23

雷鋒網 AI 科技評論按：2017年8月20日，語音通信領域的國際頂級學術會議Interspeech 2017在瑞典斯德哥爾摩召開，騰訊音視頻實驗室王燕南博士的一篇論文入選，並獲邀在大會作了oral報告。

Interspeech是由國際語音通信協會ISCA（International Speech Communication Association）組織的語音研究領域的頂級會議之一，是全球最大的綜合性語音信號處理領域的科技盛會，該會議每年舉辦一次，每次都會吸引全球語音信號領域以及人工智慧領域知名學者、企業以及研發人員參加。

今年的Interspeech，除了學術界巨擘之外，蘋果、谷歌、微軟、亞馬遜、騰訊、阿里巴巴、百度、滴滴等在內的國內外知名公司也悉數亮相。騰訊音視頻實驗室王燕南博士論文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入選 Interspeech 2017。

下圖為歷年Interspeech論文收錄情況，過去三年收錄文章的數量分別為614、746、779。

王博士的論文主要內容是研究在單通道語音分離中應用的深度神經網路的訓練優化，該技術旨在從混合的多個說話人的語音信號中分離出目標說話人的語音，在語音識別、語音通話以及殘疾人助聽領域等均具有重要應用。

在這篇論文中，王博士的研究著重於改進單通道語音分離匯總基於深度神經網路的頻譜映射方法中常用的最小均方誤差準則（MMSE, minimum mean squared error）。在基於深度神經網路的單通道語音分離中，通過多類回歸方法從混合語音頻譜中恢複目標說話人的語音，主要是基於MMSE準則最小化網路輸出的語音頻譜和目標頻譜的差異。對此，王博士等人通過對深度神經網路的輸出的預測錯誤進行統計分析，發現輸出的對數功率譜每一維分量都服從一個單峰分布，如下圖所示：

由此引入零均值的高斯分布函數來描述神經網路的預測錯誤矢量，引入對其進行概率分布的學習，從而使用最大似然估計方法訓練深度神經網路的參數，如下圖所示。

通過實驗對比發現，基於該最大似然方法訓練的神經網路分離的語音在不同的客觀指標上均超過了使用傳統的最小均方誤差準則訓練的神經網路。

另外，通過在驗證集上的reconstruction loss的變化情況對比，王博士等人發現該模型有更強的泛化能力，而在收斂速度上，該方法也具有明顯的優勢，對比情況如下圖所示。

關於王燕南博士

王燕南，畢業於中國科學技術大學語音信號與信息處理國家工程實驗室，研究領域包括語音增強和分離、語種識別、手寫識別等，在Interspeech等著名語音國際會議以及IEEE Transaction on Audio,Speech and Language Processing期刊發表多篇文章，在無監督語音分離方法上做出了重要貢獻。王博士於2017年加入騰訊音視頻實驗室，專註於語音增強以及分離等前端信號處理領域研究。

關於騰訊音視頻實驗室

騰訊音視頻實驗室，組建於2016年11月，專註於音視頻通信技術的前瞻性研究，包括全球實時音視頻網路優化，音視頻編解碼前沿演算法研究、計算機視覺圖像處理、基於AI 的音頻語音增強、聲音美化及音視頻質量評測等。

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Hyperledger Sawtooth 問世，以太坊開發者再添企業級開源框架
※優必選獲IJCAI 2017最佳學生論文獎，13篇論文入選國際頂級人工智慧會議
※美國人開發了一個有趣的網站，可以算出你被機器人搶飯碗的概率
※不產樁、不賣樁、不建樁，雲快充希望為充電樁行業提供更好用的「淘金」工具
※他們造了一個自動挖掘工具，能找到比核武器更可怕的漏洞

TAG:雷鋒網 |

您可能感興趣

※Google論文解讀：輕量化卷積神經網路MobileNetV2
※Imagination PowerVR 2NX神經網路加速器成功入選人工智慧優秀案例Top 100
※ImaginationPowerVR 2NX神經網路加速器成功入選人工智慧優秀案例Top 100
※StoneTemple：76.2％的社交網路鏈接內容是新聞
※一文了解Word2vec之Skip-Gram訓練網路的3種技術
※Windows Server 2016 與 Linux 的一些網路性能測試
※ICLR 2018 | 斯坦福大學教授Christopher Manning提出全可微神經網路架構MAC：可用於機器推理
※McAfee報告：全球97％的垃圾郵件皆來自Necurs和Gamut殭屍網路
※大數據科普：神經網路入門-監督學習 Supervised Learning
※Ian Goodfellow 最新論文：神經網路也能 Debug
※《社交網路》The Social Network 豆瓣8.1
※乾貨巨獻：Openshift3.9的網路管理大全.加長篇-Openshift3.9學習系列第二篇
※pix2code——深度神經網路傑作！
※語義分割網路DeepLab-v3的架構設計思想和TensorFlow實現
※IWC 萬國表 Pilot』s Watch Chronograph網路限定版
※神經網路在客戶分層上的應用—Autoencoder
※TPU加AutoML：50美元快速訓練高效的ImageNet圖像分類網路
※淺入淺出TensorFlow 6—實現AlexNet和VGG等經典網路
※CVPR2018搶先看 | DiracNets：無需跳層連接，訓練更深神經網路，結構參數化與Dirac參數化的ResNet
※從AlexNet到MobileNet，帶你入門深度神經網路