OpenAI讓AI神作曲！莫扎特Lady Gaga玩混搭

科技 04-26

智東西（公眾號：zhidxcom）編 | 王小溪

導語：OpenAI公司開發了一種音樂AI系統MuseNet，能用十種樂器生成歌曲，而且能融合不同種曲風。

智東西4月26日消息，剛在《Dota 2》中大虐人類的Open AI，又開始跨界踏足音樂圈啦！今天，它在一篇博文中詳細介紹了人工智慧系統MuseNet，它用十種的樂器生成了四分鐘的樂曲，而且曲子風格多樣，能聽出鄉村風、和莫扎特、披頭士樂隊的曲風。

MuseNet沒有像人們理解的那樣對樂曲編程，而是通過學習預測數百個成千上萬的MIDI文件中的tokens來發現和聲、節奏和樂曲風格的模式。

關於MuseNet的更多信息可參見OpenAI的博文：

一、MuseNet如何生成樂曲？

MuseNet沒有像人們理解的那樣對樂曲編程，而是通過學習預測數百個成千上萬的MIDI文件中的tokens來發現和聲、節奏和樂曲風格的模式。tokens有兩種類型，一種作用於作曲家，一種作用於樂器。

Payne解釋說，這些token類型可以更好地控制MuseNet所生成的樣本種類。在訓練過程中，token被添加到每個音樂樣本之前，以便MuseNet學習如何使用它們來做出音符預測。

MuseNet接受了來自各種不同來源的MIDI音樂標準格式的樣本訓練，包括ClassicalArchives、BitMidi和開源Maestro語料庫。

MuseNet重新計算和優化了稀疏Transformer，訓練了24個attention head的72層網路，內含共有4096個token，讓生成音樂的時長可達到4分鐘。

Transformer在順序數據上進行訓練：技術人員給定一組音符，要求MuseNet預測接下來的音符。他們嘗試了幾種不同的方法將MIDI文件編碼為適合此任務的token。首先，採用了弦樂方法，將每次聽到的音符組合視為單獨的「和弦」，並為每個和弦分配一個token。其次，他們嘗試通過僅關注音符的開頭來縮小音樂模式，並嘗試使用位元組對編碼方案進一步壓縮。

技術人員還嘗試了兩種不同方法標記時間推移：第一，根據音頻節奏縮放token（以便token代表一個音樂節拍或節拍的一小部分）；第二，標記以秒為單位的絕對時間token。

最終，他們採用了一種結合了表現力和簡潔性的編碼：將音高，音量和樂器信息組合成一個token。

在訓練中，他們選擇：

首先，調高、調低音調來調換樣本；

然後，調高或調低各種樣本的整體音量；

最後，稍微減慢或加快音頻片段的速度。

二、MuseNet可以換大不同類型的曲風

正如OpenAI的技術人員Christine Payne在一篇博客文章中所解釋的那樣，MuseNet與所有的深度神經網路一樣，包含了在相互連接的層中排列的神經元（數學函數，鬆散地模仿生物神經元）里，從輸入數據中傳輸「信號」，並緩慢調整每個連接的突觸。

但獨特的是，MuseNet擁有注意力機制。注意力機制從本質上講和人類的選擇性視覺注意力機制類似，核心目標是從眾多信息中選擇出對當前任務目標更關鍵的信息。所以在MuseNet模型中，每個輸出元素都連接每個輸入元素，它們之間的突觸是動態計算的。

MuseNet使用的是與GPT-2相同的通用無監督技術。GPT-2是OpenAI推出的一個大規模的無監督語言模型，它具有來自800萬個網頁的15億數據集，其訓練目標就是基於前面給定的文本，從而預測接下來的文字。

MuseNet有不同的模式：簡單模式，用戶可以從「作曲家」或「風格」中選擇未經過調整的樣本，然後開始生成。高級模式，它可以讓用戶直接與模型交互，創建出一個全新的作品。

在生成樂曲時，用戶可以調整模型用選定的風格創建樣本，這種風格可以從拉赫瑪尼諾夫鋼琴、樂隊Journey的鋼琴開始，也可以從貝司、吉他和鼓開始。

Payne 說：「由於MuseNet包含了許多不同的風格，我們可以用新穎的方式對它們進行融合，例如，給模型肖邦夜曲的前六個音符，要求它生成流行樂曲風格的鋼琴、鼓、貝司和吉他曲，它也能做到。」

Payne也指出，MuseNet並不完美，因為它是通過從所有可能的音符和樂器中計算概率來生成每個音符，偶爾它會做出不和諧的選擇。可以預見的是，如果曲風和樂器不搭，比如肖邦的低音和鼓，它很難將兩者融合在一起。

MuseNet對作曲家的理解以及他們如何和風格相聯繫

三、全新Demo，讓你自選音樂風格

MuseNet的博文上還提供一個Demo，供感興趣者試用。

首先，選擇你更感興趣的音樂風格（從上到下依次是：肖邦、莫扎特、拉赫曼尼諾夫、Lady Gaga、鄉村音樂和迪士尼音樂）。

接下來，選擇開始的旋律，這裡Demo為試用者提供了6種選項。

如果選擇NONE，AI就會看心情隨便給你來個開頭，如果選擇了其他的歌（莫扎特的《土耳其進行曲》，貝多芬的《第五交響曲》，Lady Gaga的《Poker Face》，貝多芬的《致愛麗絲》，阿黛爾的《Someone Like You》），AI就會按照你所選的歌的風格續寫音樂。

最後，點擊下面的，讓AI生成一段音樂。

黑色背景上紫色橫條的圖樣是曲譜，箭頭左邊的一塊譜子是你所選擇的開始的旋律，圖上每一根小橫條代表一個音符，點擊後右邊出現的一長串紫色就是AI生成的音樂，點擊PLAY FROM START就可以開始播放啦~

如果你喜歡AI的創作，可以點擊DOWNLOAD下載保存；如果想重玩一次，就選擇RESET。當然啦，你還可以把AI的作品分享到推特。

如果你想聽現場freestyle，還可以點擊曲譜上方的SHOW ADVANCED SETTINGS，有更多的音樂風格、開頭音樂和樂器供你選擇，通過選擇TOKENS來生成不同長度的音樂，然後，你就可以享受AI的現場版了。

不過，這個Demo暫時還不完美，假使你選擇鋼琴、吉他或鼓的音色，生成的音樂可能聽起來音色都差不多。

OpenAI表示，這一Demo會展示到5月12號，之後會有一個迭代的版本。

結語：音樂AI正在加速發展

MuseNet生成的樂曲中不僅包含了多種樂器，而且能把不同的曲風融合在一起，帶給人不一樣的體驗。

OpenAI並非唯一一家踏足音樂AI領域的公司。今年3月，谷歌發布了一種名為Google Doodle的演算法，可以讓用戶模仿作曲家巴赫的風格創作旋律。去年年底，Google Brain的項目Magenta推出了一種演算法Music Transformer，它能識別歌曲的重複旋律。可以看出，音樂AI正在快速發展，沒準將來某家音樂AI會成為歌壇小天王呢！

博文鏈接：https://openai.com/blog/musenet/

文章來自：Venturebeat

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 智東西 的精彩文章:

※AI早報：合眾汽車完成30億元B輪融資 Uber獲軟銀等投資
※入華十五載終「折戟」，亞馬遜輸給了誰？

TAG:智東西 |