專利解密聽說這項技術將會完全顛覆播音行業！

科技 07-05

集微網消息，日前，在保加利亞舉辦的第六屆世界通訊社大會上，新華社AI合成主播亮相當天的「人工智慧「專題討論會。與真人無異的播報引發全場轟動。

新華社與會代表在討論會上分別介紹了用漢語播報新聞的「新小萌」、用俄語播報新聞的「麗莎」（Lisa）和一位用英語播報新聞的男主播，其中麗莎是由新華社、俄羅斯塔斯社和中國搜狗公司共同研發的，三位虛擬新聞主持人在外型、口型、聲音和姿態方面都達到以假亂真的程度，讓與會者感到十分驚喜。

這麼厲害的技術，源自於新華社和搜狗科技的合作。語音合成技術又稱文語轉換(TTS，Text-to-Speech)技術，即將文字轉換為語音的技術，該技術賦予計算機像人一樣自如說話的能力，使用戶與機器之間的信息溝通更加舒服自然。

其實早在17年1月23日，搜狗就申請了一項名為「語音合成方法和裝置、用於語音合成的裝置」的發明專利（申請號為：201710051436 .7），申請人為北京搜狗科技發展有限公司。

下面就跟隨小編一起了解一下這項神奇技術背後的細節吧。首先來看該設計的總體框架：

如上圖所示是基於隱馬爾可夫模型（HMM）的語音合成方法，其具體包括了訓練階段和合成階段兩部分。並且為了提高HMM模型的魯棒性、複雜度和訓練數據量之間的均衡性，其中還涉及到了決策樹等機器學習方法。

訓練階段可以理解為人類從孩子時期開始學習語音，這時需要大量的素材來供學習以及要有人來監督小孩子的學習過程。對於語音合成訓練階段也同樣是如此，從錄音資料庫中獲取訓練錄音數據，並對訓練錄音數據進行參數提取，以得到對應的聲學參數，該聲學參數可以包括：頻譜參數、基頻參數和時長參數中的至少一種。這裡面還包含著基於訓練錄音數據以及對應的文本生成標註信息。HMM模型就根據這些參數來不斷進行學習，訓練得到一個較好的模型，來完成音頻合成任務。

在合成階段，可以對給定的待合成文本進行屬性分析(如上下文屬性分析等)，接著，依據所述HMM模型，得到待合成文本對應的狀態級預測參數；然後採用參數生成演算法，依據所述狀態級預測參數，生成所述待合成文本對應的幀級聲學參數；最後，依據所述幀級聲學參數，(例如通過語音合成器)得到所述待合成文本對應的合成語音。

以上就是語音合成所包含的整體框架，在實際應用中，就可以按照上圖的流程，進行所述待合成文本的語音合成，以得到所述待合成文本對應的合成語音。接下來我們用一個簡單的圖示來說明這個過程是如何完成的。

如上圖是語音合成裝置的運行流程，該實例流程中包含了：文本接收模塊、清濁性判定模塊以及合成語音獲取模塊。

文本接收模塊用於接收待合成文本。

清濁性判定模塊，用於在所述待合成文本的語音合成過程中，依據頻譜參數對所述待合成文本對應狀態或者幀的清濁性進行判定，以得到對應的清濁性判定結果。

合成語音獲取模塊依據所述清濁性判定結果，得到所述待合成文本對應的合成語音。這樣就得到了一段合成的語音來朗讀我們所需要朗讀的文字內容。

在了解了工作原理之後，我們再從硬體設計上來了解語音合成這一過程的具體實現方式。上圖所示是根據基於HMM的語音合成方法設計的一種用於語音合成的裝置圖例，該裝置可用於智能手機、計算機以及各種終端，以便於人們來完成文字到語音的轉換。

處理元件可以包括多個處理器來執行指令，完成語音轉換的全部或者部分步驟。存儲器可以存儲各種類型的數據以便於支撐在終端上的操作，電源組用於提供電力，音頻組用於輸入或者輸出音頻信號，感測器組件為終端提供各個方面的狀態評估，通信組件用於為終端和其他設備之間進行有線或者無線方式的通信。

有了上述硬體的支撐，就可以輕鬆的實現語音合成了。語音合成的效果首現就給人們帶來了震撼的效果，不知道在技術高度發展的以後，該技術的出現會對於現有的行業例如播音以及同傳等帶來什麼樣的影響，讓我們拭目以待。（校對/Juran）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 半導體投資聯盟 的精彩文章:

※2025年核心產業規模將達500億元？南京打造AI產業地標
※特朗普打電話來接嗎？任正非：他願打我也聽不懂英文

TAG:半導體投資聯盟 |

專利解密 聽說這項技術將會完全顛覆播音行業！

專利解密聽說這項技術將會完全顛覆播音行業！