當前位置:
首頁 > 新聞 > 語音識別首次全平台比拼,訊飛依圖BAT各家演算法差異巨大

語音識別首次全平台比拼,訊飛依圖BAT各家演算法差異巨大

12月11日,人工智慧公司依圖科技公布了在中文語音識別技術上的最新突破。在全球最大的中文開源資料庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)僅為3.71%,相比原業內領先者提升約20%,大幅刷新現有紀錄。依圖還聯合微軟Azure推出依圖語音開放平台,並攜手華為發布「智能語音聯合解決方案」,將依圖領先的語音識別技術提供給廣泛的第三方應用開發者,共同推動智能語音行業的進步。

語音識別首次全平台比拼,訊飛依圖BAT各家演算法差異巨大

打開今日頭條,查看更多圖片

依圖首席創新官呂昊博士

語音識別首次全平台比拼,訊飛依圖BAT各家演算法差異巨大



語音識別技術遠未成熟,技術透明度差

近年來,深度學習的爆發驅動了語音識別技術的高速發展,但相較於人臉識別在準確率方面的高增速來說,語音識別的發展仍較為緩慢。儘管一些機構已宣傳達到了人類水平,但大多數情況下都來自安靜、近場等受限場景。對於電話、語音節目、遠場等更複雜場景,則需要針對性地開發不同模型,但實際應用中的不確定性,使理想和現實仍有較大差距,導致應用場景難以得到更大突破。

對語音識別來說,語速、語態、語氣、口音等都會顯著影響識別的準確率。一般認為,字錯率在低於3%時不會影響可讀性,而超過15%則毫無可讀性。這兩個數據可認為是語音識別的兩條紅線,而在不同場景下,不同演算法的表現可能會有很大差異。在中文語音識別技術領域,漢語的博大精深帶來的同音不同意等問題,更對語音識別的處理難度帶來極大挑戰,顯著影響最終的使用體驗。

依圖首席創新官呂昊博士表示,「語音識別技術經歷了漫長的發展進化,但至今都只能在受限的場景下才能達到較好的使用效果。我們認為,核心技術的突破,依然是當前破局中文語音識別發展的關鍵。在語音識別領域,依圖科技是一名新生,但立志推動行業創新與發展,做世界最好的中文普通話語音識別技術。」

語音識別首次全平台比拼,訊飛依圖BAT各家演算法差異巨大


訊飛依圖BAT各家演算法差異巨大,訊飛依圖位列第一陣營

依圖此次推出的中文語音識別演算法,與業內原有領先者相比,不僅大幅提升了識別準確率,且在單個演算法模型上,有極為出色的多場景適用性表現。在業內近期公開的AISHELL-2的三個測試子集,以及來自第三方的近場口音測試集、近場安靜聊天測試集、語音節目測試集、電話測試集、遠場測試集中,依圖均處於業界領先水平,且字錯率幾乎全部在15%以下。其中,在AISHELL2-2018A-EVAL數據集中,依圖的識別準確率高達96.29%,字錯率(CER)僅為3.71%,領先行業第二名約20%。通過「聽寫大會」微信小程序,讓用戶可以直觀感受到語音識別技術的真實表現,在業界也屬首次,公開透明的體驗各類演算法的水平差異。

AISHELL-2是AISHELL Foundation和希爾貝殼宣布的開源資料庫,數據規模達1000小時,是目前全球最大的中文開源資料庫。它由1991名來自中國不同口音區域的發言人參與錄製,經過專業語音校對人員轉寫標註,通過了嚴格質量檢驗,資料庫文本正確率在96%以上,錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業生產等12個領域。

語音識別首次全平台比拼,訊飛依圖BAT各家演算法差異巨大

語音識別首次全平台比拼,訊飛依圖BAT各家演算法差異巨大

聽寫大會小程序


中文語音識別機器和人還有差距,產業發展任重道遠

基於在語音識別領域的技術突破,依圖與微軟也宣布進一步深化合作夥伴關係,聯合推出依圖語音開放平台。該平台將基於微軟Azure雲,將行業領先的語音識別技術能力開放給廣泛的第三方應用開發者,並攜手為廣大用戶和客戶提供更全面的服務及更好的體驗。在聯合發布語音開放平台之後,依圖與微軟還將在智能語音領域展開更深層次的合作,共建AI生態。

依圖還攜手華為聯合發布「智能語音聯合解決方案」,該方案基於依圖語音開放平台及華為全棧全場景昇騰(Ascend)系列晶元和面向數據中心側的Atlas 300 AI加速卡,將雙方強大的技術研發能力與生態服務能力深度結合,形成軟硬體一體化的聯合解決方案。藉助該解決方案,第三方應用開發者可進一步提升開發效率,從業界領先的語音技術中受益。

語音識別是AI理解世界最重要的組成部分,也是人人交互、人機交互最重要的入口。此次依圖科技在語音識別技術方面的突破,不僅意味著依圖首次涉足語音識別領域便已經躋身中文語音識別第一陣營,同時也說明語音識別在技術層面還有足夠的進化空間,遠遠沒有達到「超越人類」。依圖預計,在未來6個月到12個月,語音識別技術的演算法性能將呈指數級增長,更多的場景將被解鎖,為行業應用帶來更大的價值。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

谷歌刷新世界紀錄!2分鐘搞定 ImageNet 訓練
斯坦福學者:生物智能可能是解決AI發展瓶頸的關鍵

TAG:新智元 |