語音合成論文與韓國小哥「撞車」後續:英偉達「趕緊」把代碼開源了
乾明 編輯整理
量子位 出品 | 公眾號 QbitAI
前兩天,量子位報道了韓國小哥語音合成論文與英偉達撞車一事。
在得知自己的論文與英偉達的論文「撞車」之後,韓國小哥趕緊在arXiv上提交了論文。並在GitHub上放出了自己研究的源代碼。
然後,在Reddit上分享了自己的這一遭遇,引發了大量圍觀。
英偉達論文的作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊,並且拋出了橄欖枝,希望發帖者能夠去英偉達實習。
韓國的小哥有沒有聯繫他,就不得而知了。
但是,英偉達也「趕緊」把自己研究的代碼開源了。
主要內容一共有3個部分、10個小步驟,分別為設置、使用英偉達預置的模型生成音頻、訓練自己的模型。
英偉達的這個項目,名叫WaveFlow,是一個用於音頻合成基於流的生成網路。
關於WaveFlow
英偉達的研究團隊介紹稱,WaveGlow結合了OpenAI的生成網路Glow和DeepMind的WaveNet,能夠提供快速,高效和高質量的音頻合成,而無需自動回歸(auto-regression)。
而且,WaveGlow只用單一成本函數進行訓練,然後使用單一網路實現,整個訓練過程非常簡單,而且也很穩定。
他們也介紹了使用PyTorch進行論文實現的情況:
在NVIDIA V100 GPU上以超過500 kHz的速率產生音頻樣本,平均意見得分表明,它合成的音頻質量與最佳的公開WaveNet實現一樣好。
在英偉達的官方網站上,研究團隊發布了合成音頻,及其與原始音頻、開源WaveNet合成音頻的對比(第一遍為原始音頻,第二遍為WaveNet合成音頻,第三遍為WaveGlow合成音頻):
傳送門
英偉達GitHub地址:
https://github.com/NVIDIA/waveglow
英偉達論文地址:
https://arxiv.org/abs/1811.00002
韓國小哥GitHub地址:
https://github.com/ksw0306/FloWaveNet
韓國小哥論文地址:
https://arxiv.org/abs/1811.02155
—完—
年度評選申請
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
活動策劃招聘
量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※馬斯克認慫和解,特斯拉股價大漲17%,市值回漲78億美元
※漢堡王,你不要給我們AI潑髒水
TAG:量子位 |