初識sparklyr—電影數據分析
準備工作
如果你沒有安裝spark,在安裝好sparklyr包之後,右上角這塊會出現一個spark的按鍵,點擊之後它就會引導你下載spark,而且自動配置。好了之後我們就可以連接到spark。
連接成功之後,可以在瀏覽器中輸入:http://127.0.0.1:4040,打開之後我們可以看到如下頁面。
通過storage,我們可以看到我們已經保存到spark中的數據。如圖已經保存了u_data,和u_user。這兩個數據是後面導進去的,剛開始的時候裡面是空的。
現在開始,我們來一步一步分析這份數據。
探索用戶數據
u.user文件保存的是用戶的ID,年齡,性別,職業和郵編。在這份數據中,我們分析一下用戶的年齡分布和職業。
年齡分析
我們可以發現,年齡在20到35的人數特別多,45歲的人也挺多的。
2. 職業分析
用所有用戶進行職業分析
看來還是學生黨居多,周末沒事帶上女盆友看個電影逛逛街,這也很符合前面的年齡分析。可憐的醫生是最少的,在這裡向白衣天使們致敬!!!
探索電影數據
u.item文件,它包含電影ID,電影名稱,發行日期,電影發行日期,IMDb鏈接,以及電影類型。在這份數據中我們分析一下那些電影類型更受用戶喜愛,以及用戶喜歡看那個年代發行的電影。
電影類型
包含了19個類型,分別是 unknown , Action , Adventure ,Animation ,Children』s , Comedy ,Crime ,Documentary ,Drama ,Fantasy ,Film-Noir , Horror , Musical , Mystery , Romance , Sci-Fi ,Thriller , War , Western。
看來大家還是喜歡看戲劇類和喜劇類,羅溫·艾金森好像在當時就聽火的。
電影發行時間
數據中的電影發行時間從1922年到1998年,其中觀看量最大的是1993年到1998年,其中1996年的電影觀看量最大,其次是1997年。
探索評分數據
u.data文件包含有電影評分,現在還分析大家的評分情況。
看來大家的評分還是比較中肯的,一般都在4分左右。
關閉spark
TAG:跟著菜鳥一起學R語言 |