淺析豆瓣電影——完全不專業的吐槽向
最新
05-10
數據源背景信息:
該數據集為社區網友爬取的豆瓣電影數據集,包含了 2011 — 2016 內地電影票房排行前25共計150部電影的基本信息、影評及影人的基本信息。
比較遺憾的是受到搜索限制,影評數據集中僅僅抓取影評內容的前110字,且影評部分評論人的所在地不完整。
通過以上數據集提出了幾個值得探索的問題:
一、基本數據可視化
思路:
①按評分展示前十部電影和後十部電影。
②主演電影最多的演員前十名百分比(餅圖展示)。
二、找出5星評論里最高頻出現的詞是什麼
思路:
五星評論中的高頻詞生成詞雲
一、基本數據可視化
①按評分展示前十部電影和後十部電影。
經典果然是經典,泰坦尼克號分數居然快要達到9.5了。雖然只有十部影片的排名,第一和第十的分差也高達一分了。另,華人導演的影片只有李安的少年派入圍。
hhh果不其然爛片榜上都是國產片,畢竟外國的影片太爛也不會引進到國內上映是不。
其他到還好,評分基本都有4,可是富春山居圖怎麼會這麼爛啦,3分都勉勉強強,居然有點好奇想去看。
②主演電影最多的演員前十名和其他的百分比(餅圖展示)。
鄧超可以說是很高產了,然而明明好好演戲演的很棒為什麼要拍惡棍天使這種垃圾
二、找出5星評論里最高頻出現的詞是什麼
五星評論中的高頻詞生成詞雲
數據處理還是不到位,分析出來的都是些意義不大的副詞。。。
好啦今天就到這啦~下次再見~
TAG:朝看天色暮看雲 |