機器人木琴演奏家Shimon：如何運用深度學習即興創作音樂？

新聞 06-20

編者按：本來作者Evan Ackerman，來源IEEE Spectrum, 由雷鋒網獨家編譯，未經許可不可轉載！

喬治亞理工大學音樂科技中心（The Georgia Tech Center for Music Technology）由喬治亞理工大學音樂學院教授Gil Weinberg創立，一直以來，它以機器人音樂創作而聞名於世。其開發出的AI和機器人可創作出令人驚嘆的音樂作品，極富創造力和專業精神。

Shimon便是喬治亞音樂科技中心的音樂家之一，它是一隻四臂機器人，會彈奏木琴，並能實時分析音樂，配合人類演奏。不過，雖然Shimon的才華有目共睹，但在此之前，它只會彈奏人類已經寫好的樂譜。現在，Shimon已經能夠運用深度學習來即興獨立創作樂曲了。更加值得一提的是，其創作出的樂曲節奏明晰，相當和諧，讓人驚嘆。如果你有幸聽過Shimon的處女原創作品，你會發現它頗具古典爵士的風味。

Shimon的開發者是Mason Bretan，他是喬治亞理工學院音樂技術中心的一名博士研究生，主攻音樂機器人方向，他致力於將「機器即興演奏、路徑規劃、身體認知」的功能最大化。旋律和和弦由四種基礎旋律組合而成，其通過神經網路譜寫。該神經網路接受過成熟的訓練，已經吸收了將近5000首完整歌曲（包括貝多芬、披頭士樂隊、Lady Gaga、Miles Davis和John Coltrane），以及200萬種樂旨、重複樂段、小樂句和其他的基礎音樂元素。

當Bretan運用了一個節奏更快的基礎旋律，Shimon則創作出了一首截然不同的音樂，風格更加明快。Shimon的第二首原創音樂便誕生了。

需要指出的是，Shimon既沒有將不同的音樂單位機械地結合在一起，也沒有使用某種隨意的音樂生成器，而是運用深度神經網路譜寫出樂曲，這就是Shimon的特別之處。事實上，Shimon所譜寫的每一首音樂，都是其機器學習的成果。它能概括和弦和和聲，並像人類一樣從大局出發，將重點放在樂曲的整體結構上，而不是思考一段譜寫一段，簡單機械地拼湊出下一部分的內容。

Bretan把它叫做「高層次的音樂語義學」。目前來看，Shimon的音樂已經達到了「以假亂真」的境界，我們已經無法判斷出它出自機器人之手。Weinberg用「優美、振奮人心、獨特」來形容Shimon的音樂，我們非常贊同他的評價：它的音樂整體性和和諧度非常高，同時別具一格。

為了了解更多的細節，我們通過email與Bretan和Weinberg進行了交流：

IEEE Spectrum：你們先前上傳了Shimon的演奏視頻，那麼，你們是不是特意選取了Shimon的優秀作品上傳，而稍微遜色的作品，則沒有上傳呢？

Gil Weinberg：

視頻中的音樂是Shimon運用深度學習創作的頭兩首曲子，我們並沒有特意選擇。這兩首曲子是Shimon學習的成果，它所學習到的內容讓它擁有了一個特定的資料庫。你可以想像一下，如果我們讓它學習的是其他的基礎旋律，那Shimon譜寫出來的曲子將會截然不同。

機器人木琴演奏家Shimon：如何運用深度學習即興創作音樂？

IEEE Spectrum：如果你們只讓Shimon學習一種類型的音樂（比如古典音樂，甚至某位特定作曲家或流派的古典音樂），那Shimon所創作的音樂是不是就能夠可以具有辨識度呢？如果是，可以到達何種程度呢？

Weinberg：

Shimon的音樂和它的訓練內容息息相關，因此，如果我們只訓練它吸收一位作曲家（或一種特定音樂流派）的作品，那麼它創作出的音樂風格將和此位作曲家（或此種音樂流派）非常一致，具有辨識度。不過，影響其作品的還有另外一個重要參數，那就是我們給予它的基礎音樂參數，它能讓Shimon的音樂形成自己的風格。

IEEE Spectrum：為什麼你訓練Shimon同時吸收樂旨、重複樂段、小樂句和其他的基礎音樂元素，和完整樂曲？它是如何將這微觀和宏觀的兩者融合在一起的？

Mason Bretan：

我們想讓神經網路學習重要的結構概念。我們學習寫故事，首先必須理解詞、句、段等結構概念。音樂創作也一樣，我們需要理解樂旨、重複樂段、小樂句、樂章等結構概念。我們鼓勵Shimon學習這些音樂概念，但我們並不是直截了當地告訴它「這是樂旨、這是完整樂曲、這是小樂句」，而是動態地訓練神經網路，讓它能夠重新排列組合基礎音樂單位，在前一個或多個小節的基礎上預測出下一個小節的內容。

IEEE Spectrum：您能詳細地描述下Shimon創作原創音樂的過程嗎？

Bretan：

首先，它需要學習音樂小片段，比如單個或多個節拍，這個步驟叫做「神經嵌入」，這是最重要的一步。在語言習得中，你也許聽說過"詞語矢量（word2ve或word to vector）」。何為「詞語矢量」？通俗來說，就是讓神經網路學習詞語概念（比如「好」、「很好」、「愉快」、「精彩」等表達相同語義的詞）。音樂創作中也有一個與此類似的過程，神經網路需要學習音樂小片段，並需知曉攜帶這些片段的載體。

第二步，它需要學習音樂小片段的排列方式，並作出預測。我們需要訓練神經網路在已有的音樂小節的基礎上，預測出下一個小節。確切來說，這和一般的機器人強化學習不太一樣。一般來說，機器人要解決問題，學習的是一系列分離的動作。但Shimon的學習方式則是持續的，它連續不斷地預測排列方式，一直處於參數更新的狀態之中。舉個例子，如果給出一個排列組合「1, 2, 1, 2, 1, 2, 1」，並讓Shimon預測數字「2」，那麼在訓練過程中，其預測的結果離「2」越遠，其更新參數的強度就越大。因此，只要開始訓練，Shimon就處於預測狀態之中。這樣連續不斷下去，最終一首曲子便作成了。

IEEE Spectrum：Shimon有自己的創作風格嗎？它創作的音樂和人類創作的音樂有何不同？

Weinberg：

機器人音樂創作的基本原理就是結合人類欣賞熱愛的音樂（運用機器聽覺和機器學習）和新的音樂演奏和思考方式（運用人類不使用的演算法）。深度學習架構旨在捕捉被人類使用的音樂概念和模式。我們可以在原有的演算法上加上以機器為基礎的數學排列，這樣一來，便能生成新奇的音樂。因此，Shimon的音樂聽起來「優美、振奮人心、而獨特」。

IEEE Spectrum：除了音樂創作，這種學習和即興創作技術還有什麼其他的實際應用嗎？

Weinberg：