當前位置:
首頁 > 科技 > 百度發布語音生成器Deep Voice 2,可生成數百種聲音

百度發布語音生成器Deep Voice 2,可生成數百種聲音

GIF/1.7M

圖:pixabay

今年2月,百度矽谷人工智慧實驗室發布了Deep Voice 1,它是一個完全用深度神經網路生成人類語音的系統。與其他神經文本到語音(TTS)系統不同的是,Deep Voice 1可以實時運行,並且能夠快速地合成音頻,使其可以用於諸如媒體和對話界面之類的互動式應用。通過訓練能夠從大量數據和簡單特徵(而不是定製設計的手工傳遞途徑)學習的深度神經網路,我們實時創建了一個非常靈活的高質量語音合成系統。

今天,百度發布Deep Voice 2,它是Deep Voice系統的下一個迭代。這次升級只用了三個月,百度已經能夠將系統從20小時的演講和單聲道,擴展到數百小時,並擁有數百種聲音。Deep Voice 2可以從數百種語音中學習,並完美地模仿它們。與傳統系統不同,傳統的系統需要來自單個語音的數十個小時的音頻,Deep Voice 2可以從每個語音不到半小時的數據中吸取數百種獨特的聲音,同時實現高音質。

Deep Voice 2通過尋找不同聲音之間的共同特徵來學習語音。具體來說,每個聲音對應於單個向量——約50個數字,總結如何產生模仿目標語音的聲音。與所有以前的TTS系統不同,Deep Voice 2從頭開始學習這些特徵,沒有任何關於什麼使聲音可以區分的指導。

摘要:我們介紹一種增強神經文本到語音(TTS)的技術,具有低維度可訓練的語音嵌入以從單個模型生成不同的聲音。作為起點,我們展示了對於單語音神經TTS:Deep Voice 1和Tacotron的兩種最新技術的改進。我們引入Deep Voice 2,其基於與Deep Voice 1相似的傳遞途徑,但構建了更高性能的構建塊,並且在Deep Voice 1中展現了顯著的音頻質量改進。通過引入後處理神經聲碼器來改進Tacotron,顯示音頻質量明顯提高。然後,我們演示了在兩個多語音TTS數據集上為Deep Voice 2和Tacotron進行多語音合成的技術。結果顯示,單個神經TTS系統可以從每個語音的不到半小時的數據中學習數百種獨特的聲音,同時實現高音頻質量合成並且幾乎完美地保持語音的特性。

有關Deep Voice 2的更多信息,請閱讀完整論文:

來源:Baidu Research


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器人圈 的精彩文章:

馭勢科技吳甘沙:六萬億美元的智能駕駛很美好,但問題更值得關注
黑中盤勝,AlphaGo再贏柯潔一局 附:人機對弈五十年小史
世界機器人大會又來了!今年的看點有哪些?
自打Google的TPU2橫空出世後,我們還差一個用途詳解呢

TAG:機器人圈 |

您可能感興趣

Google Assistant加入更多聲音和個性化語音支持
浙大研發AudioFace:隨心錄語音就能實時生成3D面部動畫
Microsoft Soundscape iOS 應用:3D 聲音為盲人語音導航
將文本轉語音速度提高38倍,這個FastSpeech真的很fast
Nuance語音激活技術現可用於世界上功耗最低的CEVA-TeakLite系列音頻/語音DSP
Nuance語音激活技術現可用於CEVA-TeakLite系列音頻/語音DSP
語音識別+FaceID HomePod2有望趕超Alexa
速度快十倍,Google Assistant語音助手迎來全面革新!
Things Gateway 0.5版:引入語音智能助手
谷歌宣布ARCore1.2將支持區域網聯機,Adobe發布了可語音操控的VR程序Project new View
雲從科技刷新一項語音識別紀錄:將 Librispeech 數據集上的錯詞率降至 2.97%
老牌音箱 Sonos 煥新計:加入四大語音助手,支持 Airplay 2
DingDong 叮咚 LLSS-A1 語音智能音箱新功能體驗Soomal
Google Assistant 語音助手將支持更多語言,比 Siri 更加智能
Sonos發布智能條形音響Beam 可用Siri語音控制放歌
DingDong 叮咚 LLSS-A1 語音智能音箱新功能體驗 [Soomal]
Adobe 宣布收購語音應用平台 Sayspring
SoundHound與現代合作 為現代Venue提供印度口音英語語音支持
Google Voice正式收到VoIP互聯網語音電話
又一款搭載谷歌語音助手智能音箱上市 Como Audio發布SpeakEasy