當前位置:
首頁 > 最新 > 谷歌用機器學習技術優化語音助手 聽起來更自然更口語化

谷歌用機器學習技術優化語音助手 聽起來更自然更口語化

騰訊數碼訊(米可)谷歌剛剛發布了一款全新的人工智慧語音合成器,它屬於谷歌機器學習雲工具套件中的一部分。這項名為「Cloud Text-to-Speech」的服務面向的是任何需要語音合成服務的開發者或企業,無論是應用、網頁還是虛擬助理均可。這項服務的特別之處在於,雲文本內容到語音功能的轉換,通過WaveNet驅動,該軟體是由谷歌旗下英國人工智慧子公司DeepMind負責開發。

這項服務之所以很特別,主要有兩個原因。首先自從谷歌在2014年收購DeepMind以來,該公司一直探索將谷歌的人工智慧轉化為有形產品。這就意味著利用DeepMind的演算法,能夠將谷歌中心的冷卻成本降低40%,同時DeepMind還可以進軍醫療保健行業。不過,如果直接將WaveNet整合到雲服務中,可能會更有意義。尤其是在谷歌試圖從微軟和亞馬遜手中爭奪雲業務的同時,將其作為人工智慧技術差異化的主要手段。

GIF

其次,DeepMind的人工智慧語音合成技術是目前行業最先進、最可實現的技術之一。大多數的語音合成器(包括蘋果Siri)都使用了所謂的「連接合成」技術,在這個過程中,程序會儲存單個音節,然後再將其組合到一起,形成單詞和句子。雖然這種方法最近幾年在不斷進步,但是聽起來語調還是非常呆板生硬。

相比之下,WaveNet使用了機器學習來從頭開始生成語音,實際上它分析了一個巨大的人類語音資料庫的波形,並且以每秒2.4萬個樣本的速度對其重新創建。最終的結果我們能夠感受到一些微妙的變化,包括口音和唇音等。當谷歌在2016年首次推出WaveNet的時候,當時的研究環境計算量太大,目前該技術已經被大幅精簡,可以更好的進行下一步研究。

WaveNet在去年10月首次被整合到谷歌Google Assistant中(儘管只支持英文和日文),但現在已經可以在雲文本到語音等多種方式選擇。谷歌表示,新的服務可以提供32種不同的聲音,支持12種語言,用戶可以定製高音和語速等細節。所以現在我們可以準備好迎接一輪更真實、跟貼近生活的語音助手了。未來她甚至可以代替你和自己的老闆通電話。

來源:The Verge


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

Science:機器學習成功挑戰交叉偶聯反應
谷歌開源的機器學習技術,它用來尋找新的行星

TAG:機器學習 |