語音合成論文與韓國小哥「撞車」後續：英偉達「趕緊」把代碼開源了

科技 11-10

乾明編輯整理

量子位出品 | 公眾號 QbitAI

前兩天，量子位報道了韓國小哥語音合成論文與英偉達撞車一事。

在得知自己的論文與英偉達的論文「撞車」之後，韓國小哥趕緊在arXiv上提交了論文。並在GitHub上放出了自己研究的源代碼。

然後，在Reddit上分享了自己的這一遭遇，引發了大量圍觀。

英偉達論文的作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊，並且拋出了橄欖枝，希望發帖者能夠去英偉達實習。

韓國的小哥有沒有聯繫他，就不得而知了。

但是，英偉達也「趕緊」把自己研究的代碼開源了。

主要內容一共有3個部分、10個小步驟，分別為設置、使用英偉達預置的模型生成音頻、訓練自己的模型。

英偉達的這個項目，名叫WaveFlow，是一個用於音頻合成基於流的生成網路。

關於WaveFlow

英偉達的研究團隊介紹稱，WaveGlow結合了OpenAI的生成網路Glow和DeepMind的WaveNet，能夠提供快速，高效和高質量的音頻合成，而無需自動回歸（auto-regression）。

而且，WaveGlow只用單一成本函數進行訓練，然後使用單一網路實現，整個訓練過程非常簡單，而且也很穩定。

他們也介紹了使用PyTorch進行論文實現的情況：

在NVIDIA V100 GPU上以超過500 kHz的速率產生音頻樣本，平均意見得分表明，它合成的音頻質量與最佳的公開WaveNet實現一樣好。

在英偉達的官方網站上，研究團隊發布了合成音頻，及其與原始音頻、開源WaveNet合成音頻的對比（第一遍為原始音頻，第二遍為WaveNet合成音頻，第三遍為WaveGlow合成音頻）：

傳送門

英偉達GitHub地址：

https://github.com/NVIDIA/waveglow

英偉達論文地址：

https://arxiv.org/abs/1811.00002

韓國小哥GitHub地址：

https://github.com/ksw0306/FloWaveNet

韓國小哥論文地址：

https://arxiv.org/abs/1811.02155

—完—

年度評選申請

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

活動策劃招聘

量子位正在招聘活動策劃，將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入，並希望你能有一些活動策劃或運營的相關經驗。相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: