爬取了上萬影評，才明白《邪不壓正》究竟算不算好電影！

最新 07-26

暑期是學生放假的時候，也是院線神仙打架的時候，各色電影亮相大熒屏，高潮迭起，好不精彩。

今年的暑期《我不是葯神》一騎絕塵，而姜文的《邪不壓正》卻褒貶不一，雖然上映當天豆瓣評分便由8.2跌到7.1，但單日票房卻依舊過億。

作為掌握技術Pythoner，我們除了關注彭于晏的屁股，還應該關注許晴的臀部，啊不是，應該透過現象去看清本質。

那麼咱們來通過爬取豆瓣影評獲取數據進行分析。

數據的獲取

對於數據的獲取，本文採用的是Python爬蟲的方式獲取的數據。用到的主要是requests包與正則包re。（注意：該程序並未對驗證碼進行處理。爬取內容少不會遇到驗證碼，但上萬評論可能會跳出驗證碼）

爬取的內容主要是：用戶名，是否看過，評論的星星點數，評論時間，認為有用的人數，評論內容。參看下圖（用戶名已隱藏）：

以下是Python爬蟲的代碼:

importrequests

importre

importpandas as pd

url_first="https://movie.douban.com/subject/26366496/comments?start=0"

head={"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36"}

cookies={"cookie":"你自己的cookie"}#也就是找到你的賬號對應的cookie

html=requests.get(url_first,headers=head,cookies=cookies) reg=re.compile(r"")#下一頁

ren=re.compile(r"(.*?).*?comment">(.*?).*?.*?(.*?).*?(.*?).*?title="(.*?)">.*?title="(.*?)">.*?class=""> (.*?)",re.S)#評論等內容

while html.status_code==200: url_next="https://movie.douban.com/subject/26366496/comments"+re.findall(reg,html.text)[0]

zhanlang=re.findall(ren,html.text)

data=pd.DataFrame(zhanlang)

data.to_csv("/home/wajuejiprince/文檔/zhanlang/zhanlangpinglun.csv", header=False,index=False,mode="a+")#寫入csv文件,"a+"是追加模式data=[] zhanlang=[] html=requests.get(url_next,cookies=cookies,headers=head)

△注意設置你自己的User-Agent，Cookie，CSV保存路徑等

爬取的內容保存成CSV格式的文件，如下所示：