我們分析了超過50萬首詩歌,教你用代碼寫詩
本文為雷鋒字幕組編譯的技術博客,原標題To a Poem is a Bott the Stranger,作者 Carly Stambaugh。
翻譯 | 於澤平 馬雪潔 整理 | 凡江 編輯 | 吳璇
代碼即詩歌。這是WordPress軟體的哲學。
作為一位程序員和詩人,我一直很喜歡這句話。我決定換種方式思考這句話。
我想問,我能用代碼寫詩嗎?我可不可以做一個可以寫出原創詩歌的機器人?為了找出方法,我做了一個實驗。
首先,我知道如果我的機器人想寫詩,首先要讓它讀詩。2017年,許多作者用WordPress發表了超過50萬個標籤為詩歌(https://wordpress.com/tag/poetry)的帖子。我聯繫了一些寫了許多詩的詩人,並問他們是否願意和我一起進行一個有趣的實驗:他們是否允許我的機器人讀他們的作品,讓它可以從中學習出詩歌的形式和結構,從而可能學會自己寫詩?特別感謝這些為了科學而合作的很棒的作家們!
邊緣之O- Robert Okaji
(https://robertokaji.com/)
沃爾夫的詩- Linda J. Wolff
(http://wolffpoetry.com/)
詩歌,散文與散步- Frank Hubeny
(https://frankhubeny.blog/)
生命的視角,宇宙和萬物- Aurangzeb Bozdar
(https://abozdar.wordpress.com/)
什麼是LSTM,它如何生成文本?
我使用一種名為LSTM的神經網路創建我的機器人,它也叫作長短期記憶網路。神經網路使用「層」將問題分解為許多小問題。
舉個例子,假設你正在訓練一個可以識別正方形的神經網路。可能一個層負責識別直角,另一個層負責識別平行邊。它們同時存在時圖像才是正方形。神經網路通過訓練數百萬張正方形圖像,從中學習到這些層。它可以學習到圖像中的哪些方面對於識別正方形是重要的,哪些是不重要的。
現在假設你用一個神經網路預測這個序列的下一個字母:
th_
作為一個普通人,這個任務真是太簡單了。你會猜e,我打賭,如果你會說英文,你肯定不會猜q。因為你知道在英文中th後面不會接q。前面的字母和預測的接下來的字母關聯性非常強。LSTM可以「記住」以前的狀態並以此作出當前的決定。如果想深入了解LSTM是如何工作的,可以查看這個很贊的帖子,作者是谷歌大腦的Chris Olah。
與許多用LSTM生成文本的例子相同,機器人生成文本時每一時刻生成一個字元。想要把單詞聚集成有意義的詩句,首先它要學會如何產生單詞。為了達到這個目標,它需要數百萬個包含有效單詞的序列例子。有一件好事就是:WordPress有很多詩歌!
準備數據集
我從上面的鏈接中獲得了所有的詩歌。我使用一個很簡單的規則,通過判斷每個字元
對應多少個單詞判斷文本是否是詩歌。如果文本有許多單詞但字元
很少,它可能是一段或多段文字的集合。相反地,如果同樣的文本有許多行,那麼它是詩歌的可能性更大。
當然,這是一個很簡單的方法,我能想出來很多好詩並不符合這樣的測試方法!但為了這個實驗的目的,我特別感興趣的是LSTM是否可以學習出如斷行和節奏等結構特點,以及詩歌中包含的押韻、諧音、頭韻等特點。所以,把訓練數據限制在有結構的詩歌中是有道理的。
如果一段文本被判斷為一首詩,我把它寫到一個文件中,用++++
作為前綴,表示一首新詩歌的開始。最終獲得了500KB的訓練數據。通常,我嘗試訓練LSTM時都要用至少1MB的數據集,因此我需要尋找更多的詩歌!我在去年發表的標籤為詩歌的公共帖子中隨機選擇樣本作為特色詩人的補充。如果你在WordPress中點擊過詩歌(https://en.wordpress.com/tag/poetry/)這一標籤,你可能會發現你對它們很熟悉。我在每一個作者中選擇一個帖子作為詩歌。
訓練LSTM網路
當我獲得1MB的詩歌時,我開始建立LSTM網路。我使用Python中的keras(https://github.com/keras-team/keras)工具建立神經網路,keras的GitHub中有許多例子(https://github.com/keras-team/keras/tree/master/examples),可以幫助你學習使用幾種不同類型的神經網路,其中有一個例子就是使用LSTM生成文本(https://github.com/keras-team/keras/blob/master/examples/lstm_text_generation.py)。我在這個例子後貼出了我的代碼,並開始嘗試不同的模型配置。模型的目標是生成原始的詩歌。在這個例子中,過擬合--將訓練數據學習得太好以至於模型無法概括數據的特點--會使生成的文本和輸入文本非常相似。(這就像剽竊一樣,沒有詩人喜歡這樣!)避免過擬合的一種方式是在網路中添加dropout。它迫使在每一步驟中有隨機權重下降到0。這有點像強迫網路「忘記」一些它剛剛學到的東西。(為了防止詩人的作品沒有被機器人複製,我增加了額外的後期檢查。)
我使用FloydHub(https://www.floydhub.com/)的GPU完成訓練我的網路這一繁重工作。這使我可以用比我的筆記本電腦快10倍的速度訓練我的網路。我的第一個網路使用一個LSTM層,後面接入一個dropout層。這真的產生了像詩歌的文本!它有斷行和闋,幾乎所有的字元組合都是真正的單詞。有時整句話略微一致,事實上,第一個迭代後產生了這句如寶石般精彩的話:
添加LSTM層,在每一層中試驗dropout的參數,直到最終獲得了下面的模型。最終選擇使用3個LSTM層,因為再增加層數會讓訓練時間變得不合理,而且3層的結果已經很不錯了。
model = Sequential()
model.add(LSTM(300, input_shape=(maxlen, len(chars)), return_sequences=True, dropout=
20, recurrent_dropout=.20))
model.add(LSTM(300, return_sequences=True, dropout=.20, recurrent_dropout=.20))
model.add(LSTM(300, dropout=.20, recurrent_dropout=.20))
model.add(Dropout(.20))
model.add(Dense(len(chars)))
model.add(Activation("softmax"))
model.compile(loss="categorical_crossentropy", optimizer="adam")
這是一張圖表,對比了增加不同LSTM層的模型對應的損失曲線。
網路中LSTM層數越多,驗證損失下降的速率就越快。
哎呀!尖峰!表明這種情況(https://stats.stackexchange.com/questions/303857/explanation-of-spikes-in-training-loss-vs-iterations-with-adam-optimizer)通常發生在使用adam作為優化器時。注意到在網路中增加LSTM層數時,模型的驗證損失下降得更多,而且下降的速率也更快。這意味著遍歷更少的epoch就可以收斂,但增加LSTM層也增加了每一個epoch的訓練時間。網路中有一層LSTM時,訓練一個epoch需要大約600秒,全部訓練結束需要一夜。然而,3個LSTM層的網路訓練一個epoch需要7000秒,完成訓練需要幾天。因此,驗證損失下降得更快並不意味著更快得到結果。但在我看來,即使訓練時間很長,3個LSTM層的網路得到了最好的詩歌。
生成詩歌
為了產生完全原創的文本,也需要改變生成文本的方式。在keras的例子中,這個例子從訓練數據中選擇一個隨機的字元序列作為種子,輸入到訓練好的網路中。我要的是一個可以自己寫詩的機器人,而不是完成其他詩人的提示!因此,我在文本生成步驟中嘗試了不同的種子。因為我之前在訓練集中使用++++
作為每首詩歌的開始,我認為它可以創作出原始的詩歌。然而結果是
,_,.和&的無意義的組合。
經過一些嘗試和失敗之後,我發現種子序列需要與訓練序列具有相同數量的字元,這在事後看起來是顯而易見的!最終,我使用300個字元的序列,我將++++
重複到300個字元作為種子,機器人可以通過偶爾將++++
分開以此生成每一輪詩歌。
劇本產生新一輪詩歌后,進行了最後的抄襲檢查。因此,首先在訓練集中創建了所有獨特的4-grams(包含4個詞的短語)的集合,且對機器人詩歌創建相同集。計算兩集之間的交集。為驗證實驗目的,手動檢查了4-grams,以確保在兩個集合中出現的短語為inane。通常情況下,這個交點包含如下內容:
我不想要
我不能夠
我想成為
…的聲音
然後重複這個過程,使用5-grams和6-grams進行良好測量。若要使該過程自動化,可能會採取一種基頻法,排除在多個著作中常見的n-gram,認為是剽竊的情況。
詩歌!
每個時期輸出模型權重意味著我們可以在訓練期間的幾個點上載入模型快照。回顧最後模型的早期時代,明顯機器人掉線很快。期望可以將其用於設計上,訓練數據最顯著的特徵是每行幾個字元。下面是一個例子,訓練結束後生成的詩歌:
眉頭緊皺 魔杖,一me一me
你會我們穿著和咬
在什麼叫什麼東西你所有的勇敢
它已經學到了一些實際的詞語,並且模仿了每行之間空行的慣例。從遠處看,如果你不仔細看,看起來的確像是一首詩!在單個LSTM模型的損失收斂之後,模型學習了斷節和斷行,甚至展示一些常見的詩歌性重複。
和美麗的指示
飛翔的方式
我是言語的空間
我曾看見
但你的心將會看到這張臉
單一的LSTM模型的強大套裝毫無疑問是個別性的。除了標題行之外,我喜歡的另一個是:
風只為我
在Inspirobot熱烈的精神之下,Demet從她最喜歡的一行詩創造了寶石:
單一的LSTM模型不能夠精準地掌握詩歌主題,似乎在所有工作中一個共同的線索。即由單一LSTM模型生成的整個詩集辭彙雲。
迷人!機器人沉迷於太陽和星星。
若太陽成為訓練數據中最普遍的話題,並不令人驚訝,但事實並非如此!這裡有由訓練數據生成的文字雲。
詩人喜歡寫愛情。
艾米莉狄金森寫了關於自然和死亡的詩歌。機器人給個人寫有關天體的詩!
添加第二個LSTM圖層後,可以開始看到其他詩歌技巧,如頭韻和韻律。
可見,會發現
種子微笑
染紅我的一天
一天之法
善良終結
它也開始產生一些非常有詩意的詩歌。與之前模型訓練的單行詩歌類似,有時不知一行。例如,
黑暗之中有一部分世界
陰影縈繞
哇,那很深刻!
目前為止,已經看到了行,節,韻(內部和行結尾),重複和頭韻。不錯!但是,偶爾戲劇性的天賦,這時機器人模仿的詩歌通常是不連貫的辭彙集。廢話絕大部分都沒有語法結構。
然而發生了一些變化即增加了第三個LSTM層。這種模式更有可能產生在語法上合理的單行詩,即使仍是荒謬的。例如:
父親的光芒不是骨骼的拳
這句詩沒有任何意義,但卻正確地放置了詞性。具有一致性,名詞從句具有一般的詩意。三層LSTM模型同樣創作了這些,我認為是很穩定,詩情畫意地講:
這世界是蝴蝶島
我深覺孤獨
但三層LSTM模式的最高成就正是這首完整的詩。
來自你內心的陰暗
我待著
靈魂中掙扎
這不是大段文字的摘錄。這些單行詩被牢牢地定位在兩個++++
分隔符之間。
GIF
哇,人們好有趣啊,我們將創造奇蹟!
特別感謝我的詩人合伙人幫助我進行這個有趣的實驗!一定要訪問他們的網站,閱讀他們的作品!
邊緣之O- 羅伯特Okaji
沃爾夫 詩歌- 琳達J.沃爾夫
詩歌,散文與散步- 弗蘭克·胡貝尼
生命的視角,宇宙和萬物- 奧蘭澤布茲達爾
博客原址https://data.blog/2018/01/19/to-a-poem-is-a-bott-the-stranger/?from=singlemessage&isappinstalled=0
春節 AI 學習狂歡,精品課程 豪華特輯
優惠折上折,福利搶不停!
※普通程序員如何轉向 AI 方向?
※第 14 彈:斯坦福Serena Yeung教你深度增強學習
TAG:AI研習社 |