當前位置:
首頁 > 最新 > 淺析豆瓣電影——完全不專業的吐槽向

淺析豆瓣電影——完全不專業的吐槽向

數據源背景信息:

該數據集為社區網友爬取的豆瓣電影數據集,包含了 2011 — 2016 內地電影票房排行前25共計150部電影的基本信息、影評及影人的基本信息。

比較遺憾的是受到搜索限制,影評數據集中僅僅抓取影評內容的前110字,且影評部分評論人的所在地不完整。

通過以上數據集提出了幾個值得探索的問題:

一、基本數據可視化

思路:

①按評分展示前十部電影和後十部電影。

②主演電影最多的演員前十名百分比(餅圖展示)。

二、找出5星評論里最高頻出現的詞是什麼

思路:

五星評論中的高頻詞生成詞雲

一、基本數據可視化

①按評分展示前十部電影和後十部電影。

經典果然是經典,泰坦尼克號分數居然快要達到9.5了。雖然只有十部影片的排名,第一和第十的分差也高達一分了。另,華人導演的影片只有李安的少年派入圍。

hhh果不其然爛片榜上都是國產片,畢竟外國的影片太爛也不會引進到國內上映是不。

其他到還好,評分基本都有4,可是富春山居圖怎麼會這麼爛啦,3分都勉勉強強,居然有點好奇想去看。

②主演電影最多的演員前十名和其他的百分比(餅圖展示)。

鄧超可以說是很高產了,然而明明好好演戲演的很棒為什麼要拍惡棍天使這種垃圾

二、找出5星評論里最高頻出現的詞是什麼

五星評論中的高頻詞生成詞雲

數據處理還是不到位,分析出來的都是些意義不大的副詞。。。

好啦今天就到這啦~下次再見~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 朝看天色暮看雲 的精彩文章:

TAG:朝看天色暮看雲 |