解密：依圖如何一年實現語音識別指標超巨頭玩家

知識 12-12

機器之心原創

作者：四月

年底，儘管資本寒冬的聲音不絕於耳，但勇者往往無畏。在第四波 AI 浪潮下快速成長起的「小巨頭」並沒有停下開疆拓土的腳步。人臉、語音等多模態生物識別技術的融合成為人工智慧應用的發展趨勢之一。

12 月 11 日，擅長計算機視覺技術解決方案的依圖科技在北京公開展示了語音識別領域的最新技術成果，並表示將在近期開放依圖語音識別 API 介面以及部分測試數據集。同時，依圖科技還宣布，將基於其語音識別技術與微軟 Azure、華為推出聯合方案平台。

01 最優測試結果如何保證客觀性？

活動現場，依圖首先展示了其語音識別小程序「聽寫大會」在歌詞識別、飛機機艙混響環境下的播報識別結果，以及依圖語音識別 API 在公開數據集、依圖自有數據集、非公開數據集三類數據集上的平均錯字率（CER）表現。

測試結果均以橫向對比的形式體現，橫向對比的其他主流方案包括訊飛聽見、訊飛開放平台、雲知聲開放平台、阿里一句話、騰訊 AI 平台、百度語音-遠場、百度語音-輸入法、百度語音-搜索。

數據集是測試結果公正性的重要依據，為體現數據集的科學性和多樣性。依圖測試過程中涉及到的公開測試數據集包括：

全球最大中文普通話資料庫 AISHELL1、AISHELL2（採用 iOS 系統，Android、Mic 性能類似，省略）、中文語音語料 THCHS30、PrimeWord、ST-CMDS；

依圖自有數據集包括安靜對話、混響數據集；

非公開數據集，即向第三方購買的數據集，包括語音助手場景、電話閑聊、電話客服、遠場演講、口音等場景的數據。

依圖科學家吳雙博士表示，該批測試完成於 2018 年 11 月底，數據覆蓋了近 60 萬字、50 小時的語料，近場/遠場跨度在 20cm-10m，涵蓋智能音箱、手機等多種設備，科技、醫療等超過 20 類話題領域。

在上述提到的所有測試數據集和測試場景中，依圖語音的平均字錯率表現均優於科大訊飛、百度等橫向對比的主流語音方案商的開放平台方案。字錯率是中文語音識別領域的關鍵性評估指標，一般認為字錯率在低於 3% 時不會影響可讀性，而超過 15% 則毫無可讀性。這兩個數據被視為是語音識別的兩條紅線。在不同場景下，不同演算法的表現可能存在很大差異。

活動現場，橫向對比測試結果依次呈現在大屏幕上，引來在場諸多人士拍照。這在一定程度上展示了依圖在特定測試條件下的技術領先性，同時也反映出業界所謂的「成熟」中文語音識別方案還存在諸多提升和改進空間。

比如，在公開數據集 AISHELL-2 中，依圖短語音聽寫的字錯率為 3.71%，領先原業內領軍者約 20%。在手機進場（接近可用）場景下，依圖語音的字錯率為 3.6%，排名第二雲知聲開放平台字錯率為 4.2%，依圖語音領先雲知聲開放平台近 17%。

比如，在非公開數據集的電話場景中第一類「電話閑聊」場景下，只有依圖語音和訊飛聽見（非同步模型）在稍微接近 15% 字錯率的下限，即「勉強可用」。而排名靠後的阿里雲智能語音、雲知聲開放平台、騰訊 AI 開放平台-WeChat、訊飛開放平台、百度開放平台遠場方案在電話閑聊、電話客服場景下均超過了 15% 字錯率，即「毫無可讀性」。

有媒體人士評價，依圖如此掀開語音識別市場「遮羞簾」的做法真是耿直！

此外，在通用性層面，柱狀圖寬度越小，說明字錯率浮動範圍越小，演算法的場景通用性越好。綜合各場景測試的結果，業界主流演算法中，依圖和訊飛的演算法字錯率浮動範圍相對較小。

上述檢測結果難免觸及其他友商的利益和技術權威性，業界不少人對其客觀性和公正性提出質疑，機器之心針對該類問題與依圖科學家吳雙博士向依圖進行了交流。值得注意的是，上述橫向對比方案均為各廠商的開放平台方案，並未完全代表各家在語音識別領域的綜合實力水平。

1、機器之心：測試結果採用自家測試的方案，在測試方法、測試設備的公平性上如何保證？測試對象是否符合雙盲隨機原則？

吳雙：依圖自有的數據集、演算法 API 將在近期公開。在所有公開數據集上的測試結果均可復現上述結果。基於非公開的各家自有數據測試集上的不同測試結果，我建議大家都把數據集公開，用公開的測試數據集的結果體現水平，這樣大家的測試結果均可以被其他家測試驗證，公正性就有了保證。

2、機器之心：測試結果除了與軟體演算法相關，硬體設備，尤其是麥克風陣列排布影響到的拾音效果也可能間接影響語音識別的準確率。上述展示的測試結果都是基於同一款設備嗎？

吳雙：上述測試涉及到了多種硬體設備，比如智能音箱、手機以及其他硬體設備。我們希望能夠覆蓋更多硬體設備。硬體方案的確會影響語音識別效果。但是面向不同的識別場景，我們都是調用同一套演算法，同一套 API。

02 如何實現一年超越「訊飛」們？

相比計算機視覺技術的發展和落地，語音識別研究顯然起步更早，對應的玩家形態和市場格局也更為成熟。眾所周知地，科大訊飛在語音識別領域的積澱和商業化已有十餘年歷史，近幾年 BAT 玩家的湧入也來勢洶洶，介面免費、平台開放的政策接二連三。在看似已成定局的賽場上，依圖如何後來者「居上」？

談到語音識別領域的研發歷程，吳雙表示，大約是一年左右不到的時間，即去年底今年初投入力量進行語音識別方案的研發，但在語義理解層面，依圖已經有所建樹，比如在醫療領域，電子病歷理解的應用。

實際上，早在今年的一次公開活動上，依圖科技聯合創始人林晨曦曾接受相關媒體採訪時表示，依圖科技接下來會繼續進軍語音識別和自然語言處理，要在這兩個領域也做到超越人類水平。

相比語音識別領域已有的巨頭玩家，依圖在數據量積累和模型訓練時間等核心層面均不佔據優勢。但是依圖卻在短短一年時間內，數據量相比巨頭有限的情況下，在部分測試集和核心指標上超過了前者。

對於其原因，吳雙認為，強化學習、對抗學習等技巧層面的策略大家都會跟進，做演算法優化並沒有捷徑。在方法論和做事態度層面有依圖在視覺領域的經驗作為基礎。目前，依圖語音的表現是相對意義上的性能提升，平均演算法性能領先 11%，在某些特定的場景下領先更多。

對於語音市場看似產品繁多，但真實體驗卻與宣傳效果存在差距的現象，依圖科技首席創新官、前 Google Research Scientist 呂昊博士認為主要原因有三，其一，業界缺乏系統性的標準測試、測試集，而覆蓋多維度多場景的數據成本過高；此外，工業界語音識別的水平已經遠超過學術界，但與此同時，也缺乏體驗和比較的工具。

左為依圖科技首席創新官呂昊，右為華為智能計算渠道合作部部長康鑫

活動現場，依圖方面還宣布了將聯合微軟推出語音開放平台，依圖的語音識別方案將在微軟雲 Azure 上線。依圖科技將聯合華為推出智能語音解決方案。此前，依圖還與華為聯合發布了面向泛安防場景的智慧園區和視頻雲人像大數據解決方案。

活動現場，華為智能計算渠道合作部部長康鑫談到，在華為的 160 個 ISV 中，依圖已經成為華為最頂級的 ISV 合作夥伴。從目前合作模式來看，依圖語音技術的落地方式主要面向 B 端客戶。

據公開資料顯示，依圖科技最近一輪融資在今年 3 月完成，紅杉資本中國、高瓴資本、高榕資本等投資方也持續跟投，該輪融資中依圖科技公司整體估值為 150 億人民幣。

對於依靠人工智慧第四波浪潮快速成長的獨角獸而言，經過 2018 年落地商業化的考驗之後，拓寬業務領域和加強解決方案的完整性成為提升競爭力的關鍵。

可以看到的是，以視覺方案為主的依圖、雲從開始切入語音市場，而以語音方案為主的雲知聲則開始在圖像識別領域布局。業內人士表示，在智能家居、智能汽車、智能醫療等領域，未來的交互肯定是多模態的，不會是單一的語音、或者單一的圖像功能。

本文為機器之心原創，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※不用L約束又不會梯度消失的GAN，了解一下？
※WTF Python：有趣且鮮為人知的Python特性

TAG:機器之心 |