百度推出Deep Voice 2,實時合成百種口音
安妮 編譯整理
量子位出品 | 公眾號 QbitAI
今天,百度宣布推出Deep Voice 2,距離第一代Deep Voice的推出才過去兩個多月。這個文字轉語音系統可以實時合成幾百種口音的音頻,而且,模仿每個人的聲音只需要用半小時音頻進行訓練。
想聽音頻示例?鏈接:
http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/
Deep Voice系列是一類實時語音合成神經網路系統(Real-Time Neural Text-to-Speech for Production),由深度神經網路搭建而成。第一代Deep Voice需要用幾小時的音頻進行訓練才能搭建好模型,一個系統還只能學習一個人的語音。
相比之下,Deep Voice 2顯然具備更好的性能。它只需要用半個小時音頻來訓練,而且一個系統可以學習模仿數百個人的聲音,單就學習速度而言,比第一代快了好幾倍。
Siri推出帶口音的語音版本耗時甚久,那是因為每一種新口音都需要真人提供的成千上萬小時的音頻來訓練。之後,程序員需要還需要花很長時間對其進行軟體調試,教它如何說話。前後一加,研究時間自然就很長了。
在技術上講,Deep Voice的二代比一代到底強在哪?
Deep Voice 2 採取了不同的研究策略:首先,它在數百個人聲中尋找共性,建立一個人類音頻模型;之後,再將模型微調,設計出不同的聲音特性。這個系統不需要人類為其作出任何手動調整,「給它正確的數據,它就能學會重要的特徵,」百度矽谷AI實驗室Deep Voice組的工程師Andrew Gibiansky說。
百度矽谷AI實驗室
百度也為Deep Voice2的應用作出了設想。它們認為,這項技術可以用在數字助手語音回復人類指令上,在很多語音合成應用上也具有相當大的潛力。「實時合成多種語音的能力將對未來的個人助手和電子閱讀器帶來巨大的影響,」百度在官微里寫著,「比如,用不同的音色為你讀電子書。」
百度也不是唯一踏足語音合成這片地的公司了。去年9月,谷歌的Deep Mind團隊發布了WaveNet。WaveNet是一個使用深度學習技術構建的人聲編碼器,其合成的音頻質量比傳統的語音合成系統要高出許多。不僅科技巨頭想分語音合成這杯羹,很多初創公司也打算涉及。上個月,量子位也報道了一家加拿大初創公司Lyrebird,他們的系統通過1分鐘的音頻樣例就可以模仿出獨特的人聲。
WaveNet原理圖
※OpenAI發布DQN實現,提出5點做強化學習模型的最佳方法
※輸了!柯潔首戰告負AlphaGo,哈薩比斯:這不是人機大戰
TAG:量子位 |