GAN跨界合成高保真音樂，Jeff Dean聽了都陶醉

新聞 03-01

新智元報道

作者：Jesse Engel

編輯：肖琴

【新智元導讀】谷歌大腦團隊最新ICLR論文提出用GAN生成高保真音樂的新方法，速度比以前的標準WaveNet快5萬倍，且音樂質量更好！

GAN 在生成高質量圖像方面是當之無愧的最先進的方法。然而，將 GAN 擴展到如聲音這類的序列數據任務，儘管有許多嘗試，仍困難重重。

近日，谷歌大腦團隊 Jesse Engel 等人用GAN生成音樂的新研究引起大量關注。Jesse Engel 在推特上興奮地宣布：「用GAN生成音樂成功了！GANSynth是一種快速生成高保真音頻的新方法。」

他們的論文GANSynth: Adversarial Neural Audio Synthesis已被 ICLR 2019接收。

谷歌 AI 總統帥 Jeff Dean 也被這個研究吸引，大加讚賞，並建議大家試聽一下更多樣本音樂。

GANSynth 生成音樂有多強呢？Jesse Engel 用一句話解釋：「我們證明了，我們可以比標準的 WaveNet 快 5 萬倍地生成樂器音頻，並且具有更高的質量(無論是定量測試還是聽眾測試)，並且可以獨立控制音高和音色，使得樂器之間的插入更加平滑。」

巴赫前奏曲的示例

他說：「與之前的音頻模型 (如 WaveNet 自動編碼器) 不同，我們學習整個音頻剪輯的單個潛在向量，並添加音調調節向量。這可以產生更平滑的插值 (interpolations)，讓每個點聽起來都像是一個有效的樣本。」

他們發布了代碼，享受用 colab notebook 製作自己的音樂的樂趣吧！

更多音樂樣本:

https://storage.googleapis.com/magentadata/papers/gansynth/index.html

Colab:

https://colab.research.google.com/notebooks/magenta/gansynth/gansynth_demo.ipynb

論文: https://openreview.net/forum?id=H1xQVn09FX

Code:

https://github.com/tensorflow/magenta/tree/master/magenta/models/gansynth

接下來，我們將詳細介紹 GANSynth 生成音樂的運作原理.

為什麼要用 GAN 生成音頻？

GAN 是用於生成高質量圖像的最先進的方法。然而，研究人員一直在努力將其應用到更加序列性的數據，如音頻和音樂。

在序列數據中，自回歸 (AR) 模型佔主導地位，如 wavenet 和 Transformers，它們的運作方式是一次預測單個樣本。雖然 AR 模型的這一特性有助於它們的成功，但這也意味著採樣是連續的，而且非常緩慢，實時生成需要 distillation 或專用內核等技術。

GANynth 不是按序列生成音頻，而是並行生成整個序列，在現代 GPU 上合成音頻的速度比實時更快，比標準 WaveNet 快約 50000 倍。

與原始論文中使用時間分布潛碼的 WaveNet 自動編碼器不同，GANynth 從單個潛在向量生成整個音頻片段，從而更輕鬆地分開音高和音色等全局特徵。利用樂器音符的 NSynth 數據集，我們可以獨立控制音高和音色。

請聽聽下面的示例音樂，我們首先保持音色是常數，然後在整首曲子中插入音色:

保持音色常數的示例

在整首曲子中插入音色

用 GAN 生成音樂的原理

GANynth 使用一個 Progressive GAN 架構，通過卷積將樣本從單個向量逐步上採用到完整的聲音。與之前的工作類似，我們發現直接生成相干波形 (coherent waveforms) 很困難，因為上採樣卷積與高周期信號的相位對齊相悖。如下圖所示：

上圖中，紅黃相間的曲線是一個周期信號，每個周期波形的開始處都有一個黑點。如果我們嘗試通過將其切割成周期性的幀 (黑色虛線) 來對信號進行建模，就像對 GAN 中的上採樣卷積和短時距傅里葉變換 (STFT) 所做的那樣，幀的開始 (虛線) 和波形的開始 (點) 之間的距離隨時間變化而改變 (黑色實線)。

對於跨步卷積，這意味著卷積需要學習給定濾波器的所有相位排列，這是非常低效的。這種差異 (黑線) 被稱為相位 (phase)，它隨著時間的推移而進行，因為波和幀有不同的周期。

正如上面的示例所展示的，相位是一個環形量 (黃色條，mod 2π)，但是如果我們展開它 (橙色條), 它每幀減少一個恆定量 (紅色條)。我們稱之為瞬時頻率 (IF)，因為頻率的定義是相位隨時間的變化。STFT 將一幀信號與許多不同頻率進行比較，得到如下圖所示的斑點相位模式。相比之下，當我們提取瞬時頻率時，我們看到的是一致的粗體線條，反映了潛在聲音的相干周期。

結果

在 GANynth ICLR 的論文中，我們用一系列頻譜表示來訓練 GAN，發現對於像音樂這樣的高周期性聲音，為相位分量生成瞬時頻率 (IF) 的 GAN 優於其他表示和其他強大基線，包括生成波形的 GAN 和無條件 WaveNets。

我們還發現，progressive training (P) 和提高 STFT (H) 的頻率解析度有助於分離緊密間隔的諧波，從而提高性能。下面的圖表顯示了用戶聽力測試的結果，測試中用戶需要收聽來自兩種不同方法的音頻示例，並被提問他們更喜歡哪一種：

除了本文中提到的多種定量測量方法外，我們還可以定性地看到產生瞬時頻率 (IF-GAN) 的 GAN 也會產生更多的相干波形。

下圖的第一行顯示了所生成的波形，對音符的基本周期取模。需要注意的是，真實數據完全與它自身重疊，因為波形是非常周期性的。然而， WaveGAN 和 PhaseGAN 有許多相位不規則性，形成了模糊的線條網。IF-GAN 更為連貫，在周期和周期之間只有很小的變化。

在下面的彩虹圖 (CQT，顏色代表瞬時頻率) 中，真實數據和 IF 模型具有相干波形，使得每個諧波的顏色具有很強的一致性，而 PhaseGAN 由於相位不連續有許多斑點， WaveGAN 則非常不規則。

未來工作

這項工作是使用 GAN 生成高保真音頻的初步嘗試，但仍存在許多有趣的問題。雖然上述方法在處理音樂信號方面效果不錯，但在語音合成方面仍產生了一些明顯的缺陷。

最近的一些相關工作就是在此基礎上，探索從生成的頻譜圖中恢復相位的方法，同時減少偽影。其他有前途的方向包括使用 multi-scale GAN、處理可變長度輸出，以及用靈活的可微分合成器替換上採樣卷積生成器。

更多音樂樣本:

https://storage.googleapis.com/magentadata/papers/gansynth/index.html

Colab:

https://colab.research.google.com/notebooks/magenta/gansynth/gansynth_demo.ipynb

論文: https://openreview.net/forum?id=H1xQVn09FX

Code:

https://github.com/tensorflow/magenta/tree/master/magenta/models/gansynth

【加入社群】

新智元AI技術產業社群招募中，歡迎對AI技術產業落地感興趣的同學，加小助手微信號：aiera2015_2入群;通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名 - 公司 - 職位;專業群審核較嚴，敬請諒解）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※MIT新課上線：TensorFlow實操快速掌握」深度學習「
※神經網路新發現：其實CNN的圖像分類策略遠比我們想像的簡單！

TAG:新智元 |