谷歌語音合成系統再升級,AI:安能辨我是人機?
12月,谷歌公布了一篇研究論文,詳細闡述一個名為「Tacotron 2」的人工智慧(AI)文字-語音轉換系統。Tacotron 2生成的聲音與人類相似,甚至達到真假難辨的程度。需要指出的是,這篇論文尚未進行同行評議。
Tacotron 2是谷歌的第二代文字-語音轉換技術,由兩個深度神經網路構成。第一個網路負責將文本轉化成聲譜圖,也就是讓音頻可視化。聲譜圖隨後傳輸給的WaveNet系統:WaveNet 是一種用於生成原始音頻波形的深層神經網路模型,讀取聲譜圖後生成與文本相匹配的音頻。聲音與人聲高度相似,還能聽出相應的節奏變化。
WaveNet由 Alphabet人工智慧研究實驗室DeepMind於2016年提出。在過去一年裡,DeepMind 和谷歌的團隊創建了一個速度快 1000 倍的新模型,大幅提高了效率,解決了之前計算速度太慢的問題。今年10月份,DeepMind 正式宣布新的並行WaveNet開始在現實世界中落地商用。
在論文中,谷歌團隊表示WaveNet由卷積神經網路構建,在訓練階段該網路就會確定語音的底層結構,訓練好的網路每生成的一個樣本都會參考前一個樣本的屬性,所產生的聲音包含自然語調和如嘴唇形態等參數。
谷歌研究人員表示Tacotron 2能夠處理髮音難度較大的單詞和名字,它還可以從混合數據集中創建獨特聲音,不過它的「口音」取決於它接受訓練時的聲音。同時,它能夠根據讀音改變發聲方式。例如,字首大寫的單詞它會像人類一樣使用重音,以突出它們在句子中的重要性。此外,該系統還具備處理文本中少量的單詞錯誤的功能,在英文文本的轉換閱讀中可分辨細小差異。
不過,Tacotron2系統目前接受的訓練只能模仿一名女性的聲音,如果想模仿男性或者其他女性,還需要再次接受訓練。
與谷歌進行的其它核心人工智慧研究不同,這項技術能夠立即讓谷歌受益。2016年WaveNet上線後,就能幫助谷歌助手生成逼真的美國英語和日語語音。在走出實驗室並進行完善後,投入使用的Tacotron 2將進一步提高谷歌助手的競爭力。
這項語音系統的突破,也使谷歌在國際智能語音技術競賽中再次領先。不過在國內市場中,谷歌語音技術的中文語義理解不是很深入,百度、科大訊飛等企業在中文語音處理技術方面還是稍佔先機。
語音合成是百度AI的代表技術之一。去年在百度語音三周年的活動現場,百度語音技術團隊就成功利用「情感語音合成技術」,合成出張國榮生前的聲音,並以他的聲音回應粉絲的祝福,引得眾多粉絲圍觀。如今,百度語音技術的應用場景也大大擴展,進入到教育、出行、翻譯等各個領域,形成從技術模型、場景開發到行業應用的矩陣。
今年11月,百度還宣布語音技術全系列介面永久免費開放,提供語音識別、語音合成、語音喚醒多平台軟體開發工具包。「免費」支持眾多開發者和合作夥伴的背後,可能還是蘊含著著坐中文智能語音技術頭把交椅的野心。
編輯:Bixby
圖片:部分源自網路
本文為未來圖靈(futureturing)獨家文章,轉載請申請授權並註明來源。
TAG:未來圖靈 |