語音識別ASR

知識 08-12

騰訊雲語音識別（Automatic Speech Recognition，ASR）為開發者提供語音轉文字服務的最佳體驗。語音識別服務經微信、騰訊視頻、王者榮耀等大量內部業務驗證，同時也在線上線下大量外部客戶業務場景下成功落地，具備識別準確率高、接入便捷、性能穩定等特點。騰訊雲語音識別服務開放實時語音識別、一句話識別和錄音文件識別三種服務形式，滿足不同類型開發者需求。

功能

語音識別開放實時語音識別、一句話識別和錄音文件識別三種服務形式，滿足不同類型開發者需求。

實時語音識別

對實時音頻流進行識別，實時識別為文字。

適用於有一定實時性要求的場景，例如語音輸入、語音機器人、會議現場記錄、直播內容審核、視頻實時添加字幕等場景。

語言和方言：目前支持中文普通話、英文和帶有一定方言口音的中文普通話，後續將會支持粵語等方言。

音頻屬性：支持 wav、pcm、speex、silk 的音頻格式，支持8k、16k採樣率的單聲道音頻流（英文僅支持16k），支持16bit的數據採樣位深。

音頻數據長度：建議每個數據包的音頻分片最大不能超過200KB。

一句話識別

對60秒之內的短音頻文件進行識別。

適用於語音消息轉寫場景，例如語音簡訊、語音搜索等。

語言和方言：目前支持中文普通話、帶有一定方言口音的中文普通話，後續將會支持英文、粵語等語言或方言。