百度人工智慧實驗室發布語音合成系統Deep Voice
百度發布了最新的「深度語音(Deep Voice)」系統,該系統在幾乎沒有人為干預的情況下,只需數小時就學會了如何交談。
在深度學習技術實用化的軍備競賽中,谷歌公司可謂「鶴立雞群」。例如,谷歌DeepMind藉助深度學習技術創造出的機器,在視頻遊戲和古老的圍棋比賽中的表現讓人類自愧弗如。此外,去年,在深度學習技術的加持下,谷歌翻譯(Google Translate)的性能也得到了極大的提升。
如此一來,就引出了一個非常有趣的問題,其他公司如何奮力直追呢?藝術家安迪·沃霍爾早就說過:每個人都有15分鐘的成名時間,現在輪到百度公司了。
2013年,百度在矽谷創辦了人工智慧研究實驗室,此舉不禁讓人意興盎然:百度想做什麼?今天,百度人工智慧實驗室向外界展示了其在語音合成方面的研究成果。目前,語音合成領域面臨的一個「攔路虎」是,盡量減少幕後調整的數量。百度取得的重大進展在於,該公司研製出了一款深度學習機器,能大規模地消除這種人為干預,最終得到了一套名為「深度語音(Deep Voice)」的文本轉語音系統,其在幾乎沒有人為干預的情況下,只需數小時就學會了交談。
讓我們先說說背景。在現代社會,文本轉語音系統我們司空見慣,比如導航應用程序、通話時鐘、手機應答系統等,都可見其「倩影」。一般而言,這種系統的製造流程如下:錄製單一說話者的大量語音片段,建立一個大型語音資料庫,然後將這些語音糅雜在一起合成出新句子。
但此類系統存在的問題在於,如果沒有錄製一個全新的語音資料庫,這套系統很難切換到新的說話者或改變他們句子中的重音。因此,計算機科學家們一直希望另闢蹊徑,製造出一套系統,能在需要的時候,從零開始實時合成語音。
去年,谷歌的「深度思維」團隊在該領域取得了重大突破。他們發布了一個神經網路,能夠一邊傾聽實時語音的聲波,一邊將聲波與文本腳本進行比較,從而學會了如何說話。經過訓練後,這一系統能基於給定的文本,生成合成語音。「深度思維」團隊將這一系統稱為「波網(WaveNet)」。
儘管WaveNet技術無疑可算是計算機語音合成領域的一大突破,但其也有諸多不足。首先,在訓練過程中,WaveNet仍需要很多人為調整;另外,WaveNet需要無比強大的運算能力,因此,其是否能在真實世界中實時合成語音還是個未知數。
但現在,百度表示,他們已經克服了上述問題。百度使用的方法非常簡單:它使用深度學習技術將文本轉化為可感知地最小且各不相同的聲音單元-「音素(phenomes)」。接著,再使用一種語音合成網路來複制這些聲音。百度的方法與谷歌公司的方法最顯著的差異在於,整個過程的每個階段都由深度學習進行,因此,一旦被訓練,幾乎不需要人類調整。
以單詞「hello」為例,百度的系統首先必須區分出音素的邊界,方式如下:「(靜音HH)、(HH,EH)、(EH,L)、(L,OW),(OW,靜音)」,接著,它將這些音素「喂入」一個語音合成系統,該系統說出了這個單詞。
新系統無法控制的變數僅限於音素上的重音、音素之間的時間間隔以及聲音本身的頻率,這使百度公司能改變說話者的聲音以及單詞所表達的情感。
當然,要做到這些也需要大量計算。真實語音的採樣率(音頻採樣率是指錄音設備在一秒鐘內對聲音信號的採樣次數,採樣頻率越高,聲音的還原就越真實、越自然)處於48KHZ的範圍內。因此,一台計算機生成每個樣本的時間約為20微秒(一百萬分之一秒)。鑒於製造聲音的過程涉及幾層系統,所以,每層必須在1.5微秒內完成自己的工作。
百度的研究人員說:「為了實時進行推斷,我們必須密切注意不要重複計算任何結果,將整個模型存儲在處理器緩存(與主存相對)內,並最大程度地利用可用的計算單元。」
儘管如此,百度公司的研究人員稱,使用他們的這一系統可以做到實時合成語音,而且,他們也在亞馬遜公司的「土耳其機器人(Mechanical Turk)」對其進行了測試。整個測試過程需要大量傾聽者對音頻質量進行排序,同時將其與原初的人類錄音進行比較。
百度說,結果表明,他們的語音合成系統合成出的語音的質量很高,「我們將推斷優化到超實時的速度,結果表明,這些技術能被應用來實時生成流式音頻。」
但更重要的是這套系統的效用,科學家們可以在全新的數據集合上快速地對這套系統進行訓練。研究人員說:「我們的系統可以在沒有人為介入的情況下進行訓練,這顯著簡化了製造文本轉語音系統的過程。」
谷歌公司也一直致力於使文本轉語音系統變得更好,「深度思維」去年在推出WaveNet時曾在twitter上發文稱:「讓人類和機器對話是人機交互領域長久以來的夢想」,這也是科幻小說作者們數十年來的夢想,文本轉語音是其中重要的一部分。
當然,在百度公司不斷完善其語音合成系統的過程中,谷歌也不可能裹足不前。他們將推出什麼驚喜,我們拭目以待。
※男子把汽水倒入速食麵里做實驗,測試結果讓人直冒冷汗
※NASA建造寒冷原子實驗室 擬送小盒子至宇宙
※這個青石板築起的學院美術館,成了藝術和思想的實驗室
※兩部知名手機沉入9米深海里,最後實驗讓人蹬大眼睛
※手把手做實驗!如何機智如我地測出大米中的砷
TAG:實驗 |
※Google Cloud更新了人工智慧語音工具
※MoneyBrain公開以深度學習為基礎的語音合成技術
※Microsoft To-Do整合Cortana:用語音創建待辦事項
※GazeLab推出Giiro智能語音機器人
※谷歌的DIY智能語音套件包含Raspberry Pi
※谷歌開源Live Transcribe語音識別轉文字工具
※谷歌宣布ARCore1.2將支持區域網聯機,Adobe發布了可語音操控的VR程序Project new View
※Sonos發布智能條形音響Beam 可用Siri語音控制放歌
※Facebook確認正為Portal和Oculus產品開發AI語音助手
※YouTube VR推出Gear VR版,支持多人語音互動
※新系統新體驗 Reno+ColorOS 6不止語音助手
※HERE與SoundHound合作 將地圖和位置數據集成到Houndify語音AI平台
※Nokia 諾基亞 9 PureView智能手機語音通話測評報告Soomal
※使用Amazon Alexa語音命令可以控制SimpliSafe家庭安全系統
※谷歌AIY Voice Kit智能語音開發套件安裝和使用體驗農步祥
※谷歌AIY Voice Kit智能語音開發套件安裝和使用體驗 [農步祥]
※又一款搭載谷歌語音助手智能音箱上市 Como Audio發布SpeakEasy
※Facebook 正在為其 Portal 和 Oculus 產品開發 AI 語音助理
※Facebook 正在為其 Portal和Oculus 產品開發 AI 語音助理
※Google Voice正式收到VoIP互聯網語音電話