語音識別ASR
騰訊雲語音識別(Automatic Speech Recognition,ASR) 為開發者提供語音轉文字服務的最佳體驗。語音識別服務經微信、騰訊視頻、王者榮耀等大量內部業務驗證,同時也在線上線下大量外部客戶業務場景下成功落地,具備識別準確率高、接入便捷、性能穩定等特點。騰訊雲語音識別服務開放實時語音識別、一句話識別和錄音文件識別三種服務形式,滿足不同類型開發者需求。
功能
語音識別開放實時語音識別、一句話識別和錄音文件識別三種服務形式,滿足不同類型開發者需求。
實時語音識別
對實時音頻流進行識別,實時識別為文字。
適用於有一定實時性要求的場景,例如語音輸入、語音機器人、會議現場記錄、直播內容審核、視頻實時添加字幕等場景。
語言和方言:目前支持中文普通話、英文和帶有一定方言口音的中文普通話,後續將會支持粵語等方言。
音頻屬性:支持 wav、pcm、speex、silk 的音頻格式,支持8k、16k採樣率的單聲道音頻流(英文僅支持16k),支持16bit的數據採樣位深。
音頻數據長度:建議每個數據包的音頻分片最大不能超過200KB。
一句話識別
對60秒之內的短音頻文件進行識別。
適用於語音消息轉寫場景,例如語音簡訊、語音搜索等。
語言和方言:目前支持中文普通話、帶有一定方言口音的中文普通話,後續將會支持英文、粵語等語言或方言。
音頻屬性:支持 wav、mp3 的音頻格式,支持8k、16k採樣率的單聲道音頻,支持16bit的數據採樣位深。
音頻數據長度:若採用直接上傳音頻數據方式,建議整個數據包不能大於600KB;若採用上傳音頻url方式,建議音頻時長不能大於60s。
錄音文件識別
對不超過一小時的錄音文件進行識別。
適用於語音時間較長、對實時性要求低的場景,例如客服質檢、視頻字幕生成、音頻節目字幕生成等。
語言和方言:目前支持中文普通話和帶有一定方言口音的中文普通話,後續將會支持英文、粵語等方言。
音頻屬性:支持 wav、pcm、mp3、silk、speex、amr 等主流的音頻格式,支持8k、16k採樣率的單聲道或雙聲道音頻識別,支持16bit的數據採樣位深。
音頻數據長度支持:若採用直接上傳音頻數據方式,建議音頻數據不能大於5MB;若採用上傳音頻 url 方式,建議音頻時長不能大於1小時。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
TAG:昱唯 |