當前位置:
首頁 > 最新 > 初識sparklyr—電影數據分析

初識sparklyr—電影數據分析

準備工作

如果你沒有安裝spark,在安裝好sparklyr包之後,右上角這塊會出現一個spark的按鍵,點擊之後它就會引導你下載spark,而且自動配置。好了之後我們就可以連接到spark。

連接成功之後,可以在瀏覽器中輸入:http://127.0.0.1:4040,打開之後我們可以看到如下頁面。

通過storage,我們可以看到我們已經保存到spark中的數據。如圖已經保存了u_data,和u_user。這兩個數據是後面導進去的,剛開始的時候裡面是空的。

現在開始,我們來一步一步分析這份數據。

探索用戶數據

u.user文件保存的是用戶的ID,年齡,性別,職業和郵編。在這份數據中,我們分析一下用戶的年齡分布和職業。

年齡分析

我們可以發現,年齡在20到35的人數特別多,45歲的人也挺多的。

2. 職業分析

用所有用戶進行職業分析

看來還是學生黨居多,周末沒事帶上女盆友看個電影逛逛街,這也很符合前面的年齡分析。可憐的醫生是最少的,在這裡向白衣天使們致敬!!!

探索電影數據

u.item文件,它包含電影ID,電影名稱,發行日期,電影發行日期,IMDb鏈接,以及電影類型。在這份數據中我們分析一下那些電影類型更受用戶喜愛,以及用戶喜歡看那個年代發行的電影。

電影類型

包含了19個類型,分別是 unknown , Action , Adventure ,Animation ,Children』s , Comedy ,Crime ,Documentary ,Drama ,Fantasy ,Film-Noir , Horror , Musical , Mystery , Romance , Sci-Fi ,Thriller , War , Western。

看來大家還是喜歡看戲劇類和喜劇類,羅溫·艾金森好像在當時就聽火的。

電影發行時間

數據中的電影發行時間從1922年到1998年,其中觀看量最大的是1993年到1998年,其中1996年的電影觀看量最大,其次是1997年。

探索評分數據

u.data文件包含有電影評分,現在還分析大家的評分情況。

看來大家的評分還是比較中肯的,一般都在4分左右。

關閉spark


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 跟著菜鳥一起學R語言 的精彩文章:

TAG:跟著菜鳥一起學R語言 |