用Python爬蟲獲取自己感興趣的博客文章
作者 CDA數據分析師
在CSDN上有很多精彩的技術博客文章,我們可以把它爬取下來,保存在本地磁碟,可以很方便以後閱讀和學習,現在我們就用python編寫一段爬蟲代碼,來實現這個目的。
我們想要做的事情:自動讀取博客文章,記錄標題,把心儀的文章保存到個人電腦硬碟里供以後學習參考。
過程大體分為以下幾步:
1. 找到爬取的目標網址;
2. 分析網頁,找到自已想要保存的信息,這裡我們主要保存是博客的文章內容;
3. 清洗整理爬取下來的信息,保存在本地磁碟。
打開csdn的網頁,作為一個示例,我們隨機打開一個網頁:
可以看到,博主對《C++卷積神經網路》和其它有關機計算機方面的文章都寫得不錯。
爬蟲代碼按思路分為三個類(class),下面3個帶「#」的分別給出了每一個類的開頭(具體代碼附後,供大家實際運行實現):
採用「類(class)」的方式屬於Python的面向對象編程,在某些時候比我們通常使用的面向過程的編程方便,在大型工程中經常使用面向對象編程。對於初學者來說,面向對象編程不易掌握,但是經過學習習慣之後,會逐步慢慢從面向過程到面向對象編程過渡。
特別注意的是,RePage類主要用正則表達式處理從網頁中獲取的信息,正則表達式設置字元串樣式如下:
用正則表達式去匹配所要爬取的內容,用Python和其它軟體工具都可以實現。正則表達式有許多規則,各個軟體使用起來大同小異。用好正則表達式是爬蟲和文本挖掘的一個重要內容。
SaveText類則是把信息保存在本地,效果如下:
用python編寫爬蟲代碼,簡潔高效。這篇文章僅從爬蟲最基本的用法做了講解,有興趣的朋友可以下載代碼看看,希望大家從中有收穫。
附相關Python代碼:
根據上期學員的反饋和優化,接下來覃老師主講Python數據挖掘課程變成4天,跟著覃老師一起領悟數據挖掘演算法在行業應用。強化的培訓,應該讓你可以學完後很自信,學以致用,快速上手解決工作中的問題。
TAG:Python |