當前位置:
首頁 > 科技 > 語音合成論文與韓國小哥「撞車」後續:英偉達「趕緊」把代碼開源了

語音合成論文與韓國小哥「撞車」後續:英偉達「趕緊」把代碼開源了

乾明 編輯整理

量子位 出品 | 公眾號 QbitAI

前兩天,量子位報道了韓國小哥語音合成論文與英偉達撞車一事。

在得知自己的論文與英偉達的論文「撞車」之後,韓國小哥趕緊在arXiv上提交了論文。並在GitHub上放出了自己研究的源代碼。

然後,在Reddit上分享了自己的這一遭遇,引發了大量圍觀。

英偉達論文的作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊,並且拋出了橄欖枝,希望發帖者能夠去英偉達實習。

韓國的小哥有沒有聯繫他,就不得而知了。

但是,英偉達也「趕緊」把自己研究的代碼開源了。

主要內容一共有3個部分、10個小步驟,分別為設置、使用英偉達預置的模型生成音頻、訓練自己的模型。

英偉達的這個項目,名叫WaveFlow,是一個用於音頻合成基於流的生成網路。

關於WaveFlow

英偉達的研究團隊介紹稱,WaveGlow結合了OpenAI的生成網路Glow和DeepMind的WaveNet,能夠提供快速,高效和高質量的音頻合成,而無需自動回歸(auto-regression)。

而且,WaveGlow只用單一成本函數進行訓練,然後使用單一網路實現,整個訓練過程非常簡單,而且也很穩定。

他們也介紹了使用PyTorch進行論文實現的情況:

在NVIDIA V100 GPU上以超過500 kHz的速率產生音頻樣本,平均意見得分表明,它合成的音頻質量與最佳的公開WaveNet實現一樣好。

在英偉達的官方網站上,研究團隊發布了合成音頻,及其與原始音頻、開源WaveNet合成音頻的對比(第一遍為原始音頻,第二遍為WaveNet合成音頻,第三遍為WaveGlow合成音頻):

傳送門

英偉達GitHub地址:

https://github.com/NVIDIA/waveglow

英偉達論文地址:

https://arxiv.org/abs/1811.00002

韓國小哥GitHub地址:

https://github.com/ksw0306/FloWaveNet

韓國小哥論文地址:

https://arxiv.org/abs/1811.02155

年度評選申請

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

活動策劃招聘

量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

馬斯克認慫和解,特斯拉股價大漲17%,市值回漲78億美元
漢堡王,你不要給我們AI潑髒水

TAG:量子位 |