文本挖掘找出50年間最流行的音樂
從1958年開始每年十二月Billboard都會發布一個年度百首流行曲金榜。這個圖表涵蓋了美國全年的流行單曲表現。
通過R語言,我已經把50年的(1965-2015)年度流行金榜百首的歌詞合併到一個數據集進行分析。你可以在我的Github庫中下載該數據集。
獲取歌詞
用於分析的歌曲是來自於對維基百科中每個Billboard年度流行金榜百首(如2014年)的抓取。這是整個年度的圖表,而不是每周的排名。許多藝術家做過周圖表,但沒有做過年度圖表。年度圖表是通過周Billboard的逆點系統來進行計算的。
我使用XML和RCurl從每個維基百科詞條中抓取歌曲和藝術家的名字。然後我用這個列表從有可預見的URL字元串的網站上抓取歌詞(例如,metrolyrics.com就使用metrolyrics.com/SONG-NAME-lyrics-ARTIST-NAME.html)。如果第一個站點抓取失敗了,就轉向第二個,依此類推。大約78.9%的歌詞是從metrolyics.com上抓取的,15.7%是從songlyrics.com上,1.8%是從lyricsmode.com上。另外大約3.6%(187/5100)沒有找到。
該數據集對5100個觀測對象根據歌曲、藝術家、年份、歌詞和來源進行了1-100的特徵等級劃分。歸功於維基百科藝術家特徵是相當標準化的,但當涉及到與藝術家的合作時就存在一些問題。如果在抓取的歌詞中存在錯誤,如拼寫錯誤或另外的像把「night」寫成了「nite」,這些並沒有得到糾正。
管理數據
最常見的歌詞
58%一單首現象
出現在年度圖表上的1989名中的1154名藝術家(約佔58%)都僅僅只有一首知名曲目。右邊的數據是通過把藝術家的歌曲進行匯總而計算出來的;另外把「精選」藝術家都單獨列出來。這意味著只有位列第一的藝術家才能得到對其歌曲的完全信任。
馬拉松vs衝刺生涯
我們驚訝地發現一些位居表格頂端的藝術家反而有相對較短的職業生涯(Rihanna在10年時間內有28個入表的歌曲),所以我觀察了一下歌手職業生涯的長度和入榜歌曲的平均數量之間的關係,並發現這兩者之間是呈負相關的。職業生涯跨度每增加一年,每年歌曲入榜平均數量就會減少94%。
*數據集不包括1964年披頭士樂隊第一年入選年度榜單,所以實際上他們的職業生涯跨度是12年。
隨時間增長歌詞的變化
辭彙和曲長不斷增長
數據集中的歌曲平均總長332個單詞,114種辭彙。平均字數(包括種類和數量)隨著時間的推移不斷增加。字數的變化量也有所增加,可能是由於隨著時間的推移進入榜單排名的歌曲體裁更加多樣。可變方差通過字數統計的轉換日誌進行校正,並和兩個線性模型擬合,最後產生總係數0.01873和單詞種類係數0.0136。在每年的增加量上,總字數平均每年增加1.87%,字數種類增加1.36%。
這個增長可能是由於較長的歌曲——自從20世紀60年代以來歌曲逐漸從2.5分鐘增長至4分鐘,這時期快節奏的音樂風格和歌曲特徵盛行,超過了對某個藝術家的關注。
從Boogie到Bitch:十年間最具特色的歌詞
利用我先前的職位(Text Mining South Park)中列出的對數似然統計,我能夠識別在特定十年內最有特色的歌詞。總之,在有較高的對數似然語料庫中,單詞會比預期出現的頻率更高。25個最有力的結果(總數>81; P
很明顯,個別歌曲是在反覆重複從而影響了結果。這反而引起了對數似然在歌詞上的適用性方面的一個很好的議題——一首高度重複的歌曲會扭轉這個結果嗎?
注意事項
廣告牌年終熱門100首排行榜政策的變化
流行歌曲內容的一般變化至少可以部分歸因於隨著時間的推移百強排名方法的演變。廣告牌通過發現和購買音樂的方法改變其排名政策以保持其時代相關性。
1958年至1991年:由單曲銷量和AirPlay的比例確定排名
1991年:廣告牌開始收集數字銷售數據(使用SoundScan的),以便更快更準確的製作圖表
1998年:廣告牌要求歌曲必須作為單曲發行才能出現在圖表上
2005:包括數字下載(如iTunes)
2012:流媒體點播服務(Spotify,狂想曲)收錄
2013:包括視頻形式(YouTube)
現在的消費者比以往在單曲榜中更多的發言權。在此之前的2005年,消費者可以通過購買單曲或在電台上點歌來影響圖表排名。現在,消費者可以通過觀看視頻、下載單曲或購買物理拷貝版本來對歌曲的流行度做出影響。
來源:數盟
上海財經大學 期貨量化系統課程
量化知識循序漸進
策略研發深入輔導
解密私募量化交易策略核心技術
手把手輔導量化實戰
快速掌握期貨基礎
實現持續穩定盈利
第二期(9月16日-9月19日)
第三期(11月18日-11月21日)
點擊展開全文
※史上最明了的「編程語言琅琊榜」
※理解這25個概念,你的人工智慧,深度學習,機器學習才算入門!
※MC 量化策略集訓營——找出適合自己的程序化交易系統
※難以置信的美麗,世界的數學結構
※騰訊發布95頁重磅報告:中國科技
TAG:大數據實驗室 |
※古墓挖出一寶刀,3300年不生鏽,美國登月後,找出了其中原因
※家裡有這個「小紅本」的趕緊找出來,5年能領6000塊?
※歷時4年,5片MH370殘骸浮出水面,系遇難者家屬找出
※農民父輩的這1個證件,儘快找出來,可每年在村委領取最高2000元
※7年前南極上空出現10個小時的重力波,如今科學家才找出原因
※抗日先烈享年102歲,去世後骨灰里找出34個鐵塊,讓人心酸
※在過100年都很難找出,這特別的金毛!
※30秒找出最適合你移民的那個國家!
※再過100年都很難找出,這特別的金毛!
※為了找失蹤36年的少女,他們掘開古代公主墓,卻找出上千塊人骨
※再過100年都很難找出,這麼特別的金毛了!
※今年最流行的鞋和包我們從巴黎的269場秀里全部給你找出來了
※我用547天的時間找出了幼龍兜嘴的秘密!
※考古專家真牛,從一堆爛竹簡中,找出了失傳1800年的奇書!
※心理測試:4個女人找出年紀最大的,測出今年你的幸運等級!
※30秒找出最適合你移民的那個國家?
※倉庫無意中找出的地圖,距今已經有359年,賣了近三百萬
※再過100年都很難找出,這麼特別的狗子!
※趣聞測試:據說能在5秒內找出的,智商高於180,最後一張難住99%的人
※偽裝術最厲害的五名狙擊手,能找出一個智商達到250以上