谷歌用機器學習技術優化語音助手聽起來更自然更口語化

最新 03-29

騰訊數碼訊（米可）谷歌剛剛發布了一款全新的人工智慧語音合成器，它屬於谷歌機器學習雲工具套件中的一部分。這項名為「Cloud Text-to-Speech」的服務面向的是任何需要語音合成服務的開發者或企業，無論是應用、網頁還是虛擬助理均可。這項服務的特別之處在於，雲文本內容到語音功能的轉換，通過WaveNet驅動，該軟體是由谷歌旗下英國人工智慧子公司DeepMind負責開發。

這項服務之所以很特別，主要有兩個原因。首先自從谷歌在2014年收購DeepMind以來，該公司一直探索將谷歌的人工智慧轉化為有形產品。這就意味著利用DeepMind的演算法，能夠將谷歌中心的冷卻成本降低40%，同時DeepMind還可以進軍醫療保健行業。不過，如果直接將WaveNet整合到雲服務中，可能會更有意義。尤其是在谷歌試圖從微軟和亞馬遜手中爭奪雲業務的同時，將其作為人工智慧技術差異化的主要手段。

GIF

其次，DeepMind的人工智慧語音合成技術是目前行業最先進、最可實現的技術之一。大多數的語音合成器（包括蘋果Siri）都使用了所謂的「連接合成」技術，在這個過程中，程序會儲存單個音節，然後再將其組合到一起，形成單詞和句子。雖然這種方法最近幾年在不斷進步，但是聽起來語調還是非常呆板生硬。

相比之下，WaveNet使用了機器學習來從頭開始生成語音，實際上它分析了一個巨大的人類語音資料庫的波形，並且以每秒2.4萬個樣本的速度對其重新創建。最終的結果我們能夠感受到一些微妙的變化，包括口音和唇音等。當谷歌在2016年首次推出WaveNet的時候，當時的研究環境計算量太大，目前該技術已經被大幅精簡，可以更好的進行下一步研究。

WaveNet在去年10月首次被整合到谷歌Google Assistant中（儘管只支持英文和日文），但現在已經可以在雲文本到語音等多種方式選擇。谷歌表示，新的服務可以提供32種不同的聲音，支持12種語言，用戶可以定製高音和語速等細節。所以現在我們可以準備好迎接一輪更真實、跟貼近生活的語音助手了。未來她甚至可以代替你和自己的老闆通電話。

來源：The Verge

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※Science：機器學習成功挑戰交叉偶聯反應
※谷歌開源的機器學習技術，它用來尋找新的行星

TAG:機器學習 |

谷歌用機器學習技術優化語音助手 聽起來更自然更口語化

谷歌用機器學習技術優化語音助手聽起來更自然更口語化