當前位置:
首頁 > 知識 > 利用python爬蟲可視化分析噹噹網的圖書數據!

利用python爬蟲可視化分析噹噹網的圖書數據!


導語

這周末就分享個小爬蟲吧。利用Python爬取並簡單地可視化分析噹噹網的圖書數據。


開發工具

Python版本:3.6.4

相關模塊:

requests模塊;

bs4模塊;

wordcloud模塊;

jieba模塊;

pillow模塊;

pyecharts模塊;

以及一些Python自帶的模塊。


環境搭建

安裝Python並添加到環境變數,pip安裝需要的相關模塊即可。


數據爬取

任務:

根據給定的關鍵字,爬取與該關鍵字相關的所有圖書數據。

實現:

以關鍵字為python為例,我們要爬取的圖書數據的網頁頁面是這樣子的:

其中,網頁的鏈接格式為:

因此請求所有與關鍵詞相關的鏈接:

然後利用BeautifulSoup分別解析返回的網頁數據,提取我們自己需要的數據即可:

運行效果:

在cmd窗口運行"ddSpider.py"文件即可。

效果如下:


數據分析

好的,現在就簡單地可視化分析一波我們爬取到的61頁python相關的圖書數據吧~

讓我們先看看圖書的價格分布吧:

有沒有人想知道最貴的一本python相關的書的單價是多少呀?答案是:28390RMB

書名是:

Python in Computers Programming

QAQ買不起買不起。

再來看看圖書的評分分布唄:

看來大多數python相關的圖書都沒人買過誒~大概是買不起吧T_T。

再來評論數量?

那麼評論數量TOP6的圖書有哪些呢?

老規矩,畫兩個詞雲作結吧,把所有python相關的圖書的簡介做成詞雲如何?


番外篇

這篇文章真的結束了嗎?

這篇文章真的結束了嗎?

這篇文章真的結束了嗎?

難道沒有人好奇我文章的封面怎麼做的嗎?

好吧,我寫文章的時候沒人看到,所以即使真的有人好奇也沒法說?

其實很簡單,就是下了961張python相關圖書的圖書封面,然後拼在一起了。

源代碼如下:

效果如下:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 python 的精彩文章:

Python Web開發:教你如何解放路由管理,新手教程!
想要快速入門python,我用一本電子書助你,python大牛傾力推薦!

TAG:python |