用Python爬蟲獲取自己感興趣的博客文章

最新 03-29

作者 CDA數據分析師

在CSDN上有很多精彩的技術博客文章，我們可以把它爬取下來，保存在本地磁碟，可以很方便以後閱讀和學習，現在我們就用python編寫一段爬蟲代碼，來實現這個目的。

我們想要做的事情：自動讀取博客文章，記錄標題，把心儀的文章保存到個人電腦硬碟里供以後學習參考。

過程大體分為以下幾步：

1. 找到爬取的目標網址；

2. 分析網頁，找到自已想要保存的信息，這裡我們主要保存是博客的文章內容；

3. 清洗整理爬取下來的信息，保存在本地磁碟。

打開csdn的網頁，作為一個示例，我們隨機打開一個網頁：

可以看到，博主對《C++卷積神經網路》和其它有關機計算機方面的文章都寫得不錯。

爬蟲代碼按思路分為三個類（class），下面3個帶「#」的分別給出了每一個類的開頭（具體代碼附後，供大家實際運行實現）：

採用「類（class）」的方式屬於Python的面向對象編程，在某些時候比我們通常使用的面向過程的編程方便，在大型工程中經常使用面向對象編程。對於初學者來說，面向對象編程不易掌握，但是經過學習習慣之後，會逐步慢慢從面向過程到面向對象編程過渡。

特別注意的是，RePage類主要用正則表達式處理從網頁中獲取的信息，正則表達式設置字元串樣式如下：

用正則表達式去匹配所要爬取的內容，用Python和其它軟體工具都可以實現。正則表達式有許多規則，各個軟體使用起來大同小異。用好正則表達式是爬蟲和文本挖掘的一個重要內容。

SaveText類則是把信息保存在本地，效果如下：

用python編寫爬蟲代碼，簡潔高效。這篇文章僅從爬蟲最基本的用法做了講解，有興趣的朋友可以下載代碼看看，希望大家從中有收穫。

附相關Python代碼：

根據上期學員的反饋和優化，接下來覃老師主講Python數據挖掘課程變成4天，跟著覃老師一起領悟數據挖掘演算法在行業應用。強化的培訓，應該讓你可以學完後很自信，學以致用，快速上手解決工作中的問題。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Python 的精彩文章: