Google以豐富對話場景信息，改進客服中心AI語音識別能力

科技 07-25

2018年Next大會上推出的人工智慧預包裝服務客服中心AI（Contact Center AI），現在Google通過增加人工智慧理解對話場景的方法，進一步強化虛擬代理人語音識別的能力，用戶現在還可以更靈活地自訂定義SpeechContext類別，減少人工智慧對於文本概念混淆的問題。

Google提到，即便客服中心虛擬代理人的語音識別精準度達90％，但是比起實驗室，實際使用環境以及雜訊的影響，在部分情況下，仍然會使得自動語音識別的結果變得很糟，因此現在Google進一步更新客服中心AI所使用的技術，特別是在Dialogflow以及雲計算語音轉文本兩服務，以提升識別品質。

Dialogflow讓用戶能夠在網頁、移動應用程序或是熱門的通訊平台，構建對話服務，而這次更新，Google為Dialogflow加入了自動語音調適能力（Auto Speech Adaptation），以對話場景信息，解決虛擬代理人混淆單詞發音的問題。

由於許多單詞的讀音很相似，在電話中可能無法很清楚傳遞，像是cheese和these的發音，還有可能把mail誤翻成male或nail，但是當虛擬代理人知道這些對話背景，發生在速食餐廳或是商品退貨時，便不容易混淆這些字。用戶只要在Dialogflow控制台中，將自動語音調適功能打開，就能讓語音識別準確度上升40％以上。

Google也改進了互動式語音應答（IVR）以及電話虛擬代理人，所使用的雲計算語音轉文本基線模型，而這將會使語音轉錄的結果更好，Google以電話用語的常用短句優化了該模型，使得新模型的表現，在美國英文上的識別準確度提高15％，再加上自動語音調適功能，還能進一步提升識別的品質。

開發人員在使用雲計算語音轉文本服務時，能使用SpeechContext參數來控制場景信息，讓語音轉錄更加精確，以讓虛擬代理人更精準地識別企業產品等特定名詞。

而現在Google在SpeechContext中添加類別，而預定義的類別則對應到流行或是通用的概念上，使用場景象是在數字溝通時，4個數字的組合可能代表年、時間或是金錢，而開發者可以在SpeechContext類別，調校整個自動語音識別的單詞列表，改善輸入語音的轉錄結果。

不過，Google也提到，使用SpeechContext這樣的工具，會增加部分短句被截取的機率，這可能降低了語音有提及卻沒出現在轉錄文本上的錯誤，但同時也會增加語音未提及卻出現在轉錄文本的情形，自動語音調適的強度需要權衡結果進行調整，而SpeechContext的Boost功能解決了開發者這樣的煩惱，可以自動為使用案例調整語音調適的最佳強度。

過去雲計算語音轉語音服務，處理語音只能以1分鐘為單位，而這對於需要較長時間轉錄文本的使用案例，像是會議、即時視頻或是電話等是個大問題，現在Google將處理語音時間上限提高5分鐘，而且API也允許開發人員打開新的串流對話，來繼續前一個串流對話，以做到無限時間的串流語音轉錄文本。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 十輪網 的精彩文章:

※負載均衡器HAProxy 2.0發布，支持更完善動態配置功能
※避免帳號填充攻擊，TripAdvisor將要求用戶重設密碼

TAG:十輪網 |