百度發布語音生成器Deep Voice 2，可生成數百種聲音

科技 05-26

GIF/1.7M

圖：pixabay

今年2月，百度矽谷人工智慧實驗室發布了Deep Voice 1，它是一個完全用深度神經網路生成人類語音的系統。與其他神經文本到語音（TTS）系統不同的是，Deep Voice 1可以實時運行，並且能夠快速地合成音頻，使其可以用於諸如媒體和對話界面之類的互動式應用。通過訓練能夠從大量數據和簡單特徵（而不是定製設計的手工傳遞途徑）學習的深度神經網路，我們實時創建了一個非常靈活的高質量語音合成系統。

今天，百度發布Deep Voice 2，它是Deep Voice系統的下一個迭代。這次升級只用了三個月，百度已經能夠將系統從20小時的演講和單聲道，擴展到數百小時，並擁有數百種聲音。Deep Voice 2可以從數百種語音中學習，並完美地模仿它們。與傳統系統不同，傳統的系統需要來自單個語音的數十個小時的音頻，Deep Voice 2可以從每個語音不到半小時的數據中吸取數百種獨特的聲音，同時實現高音質。

Deep Voice 2通過尋找不同聲音之間的共同特徵來學習語音。具體來說，每個聲音對應於單個向量——約50個數字，總結如何產生模仿目標語音的聲音。與所有以前的TTS系統不同，Deep Voice 2從頭開始學習這些特徵，沒有任何關於什麼使聲音可以區分的指導。

摘要：我們介紹一種增強神經文本到語音（TTS）的技術，具有低維度可訓練的語音嵌入以從單個模型生成不同的聲音。作為起點，我們展示了對於單語音神經TTS：Deep Voice 1和Tacotron的兩種最新技術的改進。我們引入Deep Voice 2，其基於與Deep Voice 1相似的傳遞途徑，但構建了更高性能的構建塊，並且在Deep Voice 1中展現了顯著的音頻質量改進。通過引入後處理神經聲碼器來改進Tacotron，顯示音頻質量明顯提高。然後，我們演示了在兩個多語音TTS數據集上為Deep Voice 2和Tacotron進行多語音合成的技術。結果顯示，單個神經TTS系統可以從每個語音的不到半小時的數據中學習數百種獨特的聲音，同時實現高音頻質量合成並且幾乎完美地保持語音的特性。

有關Deep Voice 2的更多信息，請閱讀完整論文：

來源：Baidu Research

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人圈 的精彩文章:

※馭勢科技吳甘沙：六萬億美元的智能駕駛很美好，但問題更值得關注
※黑中盤勝，AlphaGo再贏柯潔一局附：人機對弈五十年小史
※世界機器人大會又來了！今年的看點有哪些？
※自打Google的TPU2橫空出世後，我們還差一個用途詳解呢

TAG:機器人圈 |

您可能感興趣

※Google Assistant加入更多聲音和個性化語音支持
※浙大研發AudioFace：隨心錄語音就能實時生成3D面部動畫
※Microsoft Soundscape iOS 應用：3D 聲音為盲人語音導航
※將文本轉語音速度提高38倍，這個FastSpeech真的很fast
※Nuance語音激活技術現可用於世界上功耗最低的CEVA-TeakLite系列音頻/語音DSP
※Nuance語音激活技術現可用於CEVA-TeakLite系列音頻/語音DSP
※語音識別＋FaceID HomePod2有望趕超Alexa
※速度快十倍，Google Assistant語音助手迎來全面革新！
※Things Gateway 0.5版：引入語音智能助手
※谷歌宣布ARCore1.2將支持區域網聯機，Adobe發布了可語音操控的VR程序Project new View
※雲從科技刷新一項語音識別紀錄：將 Librispeech 數據集上的錯詞率降至 2.97%
※老牌音箱 Sonos 煥新計：加入四大語音助手，支持 Airplay 2
※DingDong 叮咚 LLSS-A1 語音智能音箱新功能體驗Soomal
※Google Assistant 語音助手將支持更多語言，比 Siri 更加智能
※Sonos發布智能條形音響Beam 可用Siri語音控制放歌
※DingDong 叮咚 LLSS-A1 語音智能音箱新功能體驗 [Soomal]
※Adobe 宣布收購語音應用平台 Sayspring
※SoundHound與現代合作為現代Venue提供印度口音英語語音支持
※Google Voice正式收到VoIP互聯網語音電話
※又一款搭載谷歌語音助手智能音箱上市 Como Audio發布SpeakEasy