當前位置:
首頁 > 知識 > 語音識別ASR

語音識別ASR

騰訊雲語音識別(Automatic Speech Recognition,ASR) 為開發者提供語音轉文字服務的最佳體驗。語音識別服務經微信、騰訊視頻、王者榮耀等大量內部業務驗證,同時也在線上線下大量外部客戶業務場景下成功落地,具備識別準確率高、接入便捷、性能穩定等特點。騰訊雲語音識別服務開放實時語音識別、一句話識別和錄音文件識別三種服務形式,滿足不同類型開發者需求。

功能

語音識別開放實時語音識別、一句話識別和錄音文件識別三種服務形式,滿足不同類型開發者需求。

實時語音識別

對實時音頻流進行識別,實時識別為文字。

適用於有一定實時性要求的場景,例如語音輸入、語音機器人、會議現場記錄、直播內容審核、視頻實時添加字幕等場景。

語言和方言:目前支持中文普通話、英文和帶有一定方言口音的中文普通話,後續將會支持粵語等方言。

音頻屬性:支持 wav、pcm、speex、silk 的音頻格式,支持8k、16k採樣率的單聲道音頻流(英文僅支持16k),支持16bit的數據採樣位深。

音頻數據長度:建議每個數據包的音頻分片最大不能超過200KB。

一句話識別

對60秒之內的短音頻文件進行識別。

適用於語音消息轉寫場景,例如語音簡訊、語音搜索等。

語言和方言:目前支持中文普通話、帶有一定方言口音的中文普通話,後續將會支持英文、粵語等語言或方言。

音頻屬性:支持 wav、mp3 的音頻格式,支持8k、16k採樣率的單聲道音頻,支持16bit的數據採樣位深。

音頻數據長度:若採用直接上傳音頻數據方式,建議整個數據包不能大於600KB;若採用上傳音頻url方式,建議音頻時長不能大於60s。

錄音文件識別

對不超過一小時的錄音文件進行識別。

適用於語音時間較長、對實時性要求低的場景,例如客服質檢、視頻字幕生成、音頻節目字幕生成等。

語言和方言:目前支持中文普通話和帶有一定方言口音的中文普通話,後續將會支持英文、粵語等方言。

音頻屬性:支持 wav、pcm、mp3、silk、speex、amr 等主流的音頻格式,支持8k、16k採樣率的單聲道或雙聲道音頻識別,支持16bit的數據採樣位深。

音頻數據長度支持:若採用直接上傳音頻數據方式,建議音頻數據不能大於5MB;若採用上傳音頻 url 方式,建議音頻時長不能大於1小時。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 昱唯 的精彩文章:

容器實例服務CIS
註冊保護RP

TAG:昱唯 |