當前位置:
首頁 > 科技 > 最強CNN語音識別演算法開源了:詞錯率5%,訓練超快,Facebook出品

最強CNN語音識別演算法開源了:詞錯率5%,訓練超快,Facebook出品

夏乙 發自 麥蒿寺

量子位 出品 | 公眾號 QbitAI

第一個全卷積語音識別工具包wav2letter++開源了。

出品方Facebook稱之為現有「最快的、頂尖水平的」語音識別系統。

拋開廣告法不談,我們來全面了解一下wav2letter++,看看Facebook哪來的勇氣口出狂言。

wav2letter++由Facebook AI研究院(FAIR)的語音團隊推出,以C++寫成,使用了ArrayFire張量庫和flashlight機器學習庫。

Facebook還說,它是第一個完全由C++寫成的語音識別系統,也是第一個全卷積語音識別系統。

所謂「全卷積」,指的是wav2letter++在從聲波到文本的處理過程中,所有可學習的部件都是由卷積層構成的,聲音建模、語言建模任務全部由CNN完成。

一般來說,在聲音和語言建模任務上,循環網路架構才是更常用的。不過,CNN構成的wav2letter++在性能上也不輸那些RNN模型。

Facebook團隊在論文中,將他們的wav2letter++和其他主流開源語音識別系統做了比較。

他們說,某些情況下,wav2letter++訓練語音識別端到端神經網路速度是其他框架2倍還多,而且用1億個參數的模型測試,使用從1到64個GPU,訓練時間是線性變化的。

其實,wav2letter++還有個不帶加號的前身,叫做wav2letter,用Lua語言寫成。現在,新版佔用了原版的GitHub倉庫地址,而原來的wav2letter被放到了wav2letter-lua分支下。

想要復現wav2letter++也不難。因為它使用的機器學習庫flashlight也同時開源了。這個機器學習庫用現代的C++即時編譯,CPU、GPU都可用,以求效率和規模的最大化。

最後,附上傳送門~

GitHub地址:

https://github.com/facebookresearch/wav2letter

論文:

wav2letter++: The Fastest Open-source Speech Recognition System

Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

作者系網易新聞·網易號「各有態度」簽約作者

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

好看嗎?


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

30多門免費課程上線,亞馬遜「機器學習大學」開學了
谷歌小姐姐搞出魔法畫板:你隨便畫,補不齊算AI輸

TAG:量子位 |