語音輸入新技術 谷歌為Gboard帶來更快的語音識別功能
科技
03-13
3月13日消息,谷歌近日為Gboard帶來了最新的AI語音識別功能,該功能使用RNN感測器(RNN-T)技術,大大提高了Gboard語音識別的速度和準確度。
之前的語音輸入一直使用的是基於雲的語言處理方式,也就是當我們點擊麥克風圖標時,我們錄製的語音先會被發送至雲端伺服器,然後將語音轉換為文本後發回至手機。而且該語言識別模型大小約2GB,非常佔用手機內存。
據悉,谷歌團隊花了五年時間來研究這一問題,尋找可以將流程縮小到可以在本地執行的方法,通過不斷壓縮語音識別模型大小,新版本僅佔80M,並且還支持離線工作。改進的Gboard採用字元級語言模型,轉錄文本時將逐字逐句顯示,而不是像之前一樣逐個顯示整個單詞。
目前,Gboard的這次更新僅支持Pixel手機,而且只能識別美式英語。
此外,有谷歌研究員表示,Gboard的這項語音識別新技術未來可能會支持更多手機,並拓展更多語言。
※小米調整組織架構 從戰略高度和組織保障強化技術引領
※蘋果WWDC 2019信息遭泄露:iOS 13和macOS 10.15將首秀
TAG:IT168 |