200人中英文混說資料庫開放申請
科技
04-11
各位語音識別領域的攻城獅小夥伴們,福利來啦!
量子位將與衝浪科技共同開放開源資料庫:200人中英文混說資料庫,衝浪科技為本次數據提供方。此外,我們還將共同打造一個語音識別技術社群,邀請語音領域的研究者進入,為大家打造一個技術交流平台。進入社群的同學,在下次數據開源時可優先申請。
數據集詳細信息
採集語言:中英文混讀
總人數:200人(約120小時)
發音人:中國人, 口音涵蓋中國主要方言區
性別比例:男女各50%
錄製規格:16,000Hz, 16bit, mono, 無壓縮wav
採集設備:Android和iOS各50%, 涵蓋主流手機
採集時間:2017年
採集單位:衝浪科技
市場參考價格:100000人民幣
開放人群
參加對象:高校學生、老師及非盈利科研機構研究人員
數據使用:數據僅供科研使用嚴禁外傳,當研究成果進行公開發表時若使用到本資料庫應將在文章內引用「ST-CMSD」、「衝浪科技中文普通話語音資料庫」或「SurfingTech Chinese Mandarin Speech Dataset」,具體引用位置將在數據發放時一併告知。
如何申請
在量子位公眾號(QbitAI)界面回復「中英混說數據」,即可領取報名表單。
領取數據的具體流程如下:
1、回復「中英混說數據」,領取表單填寫相關信息;
2、報名通過我們會發送確認郵件,並邀請進入語音識別技術社群;
3、申請者確認後發送協議及協議填寫說明;
※別人家只會編段子,谷歌帶大家找樂子
※Uber無人車安全員之困:這是一份機械、枯燥、影響心理的工作
TAG:量子位 |