當前位置：

首頁 > 最新 > 編程資源 Python

編程資源 Python

最新 03-28

分享一份 Python爬蟲：入門+進階的學習路線，有興趣的，可以按著這個Python爬蟲大綱，一步一步深入學習！喜歡的還是不忘記點個贊哈！

第一章：Python 爬蟲入門

1、什麼是爬蟲

網址構成和翻頁機制

網頁源碼結構及網頁請求過程

爬蟲的應用及基本原理

2、初識Python爬蟲

Python爬蟲環境搭建

創建第一個爬蟲：爬取百度首頁

爬蟲三步驟：獲取數據、解析數據、保存數據

3、使用Requests爬取豆瓣短評

Requests的安裝和基本用法

用Requests 爬取豆瓣短評信息

一定要知道的爬蟲協議

4、使用Xpath解析豆瓣短評

解析神器Xpath的安裝及介紹

Xpath的使用：瀏覽器複製和手寫

實戰：用 Xpath 解析豆瓣短評信息

5、使用pandas保存豆瓣短評數據

pandas 的基本用法介紹

pandas文件保存、數據處理

實戰：使用pandas保存豆瓣短評數據

6、瀏覽器抓包及headers設置（案例一：爬取知乎）

爬蟲的一般思路：抓取、解析、存儲

瀏覽器抓包獲取Ajax載入的數據

設置headers 突破反爬蟲限制

實戰：爬取知乎用戶數據

7、數據入庫之MongoDB（案例二：爬取拉勾）

MongoDB及RoboMongo的安裝和使用

設置等待時間和修改信息頭

實戰：爬取拉勾職位數據

將數據存儲在MongoDB中

補充實戰：爬取微博移動端數據

8、Selenium爬取動態網頁（案例三：爬取淘寶）

動態網頁爬取神器Selenium搭建與使用

分析淘寶商品頁面動態信息

實戰：用Selenium 爬取淘寶網頁信息

第二章：Python爬蟲之Scrapy框架

1、爬蟲工程化及Scrapy框架初窺

html、css、js、資料庫、http協議、前後台聯動

爬蟲進階的工作流程

Scrapy組件：引擎、調度器、下載中間件、項目管道等

常用的爬蟲工具：各種資料庫、抓包工具等

2、Scrapy安裝及基本使用

Scrapy安裝

Scrapy的基本方法和屬性

開始第一個Scrapy項目

3、Scrapy選擇器的用法

常用選擇器：css、xpath、re、pyquery

css的使用方法

xpath的使用方法

re的使用方法

pyquery的使用方法

4、Scrapy的項目管道

Item Pipeline的介紹和作用

Item Pipeline的主要函數

實戰舉例：將數據寫入文件

實戰舉例：在管道里過濾數據

5、Scrapy的中間件

下載中間件和蜘蛛中間件

下載中間件的三大函數

系統默認提供的中間件

6、Scrapy的Request和Response詳解

Request對象基礎參數和高級參數

Request對象方法

Response對象參數和方法

Response對象方法的綜合利用詳解

第三章：Python爬蟲進階操作

1、網路進階之谷歌瀏覽器抓包分析

http請求詳細分析

網路面板結構

過濾請求的關鍵字方法

複製、保存和清除網路信息

查看資源發起者和依賴關係

2、數據入庫之去重與資料庫

數據去重

數據入庫MongoDB

第四章：分散式爬蟲及實訓項目

大規模並發採集——分散式爬蟲的編寫

分散式爬蟲介紹

Scrapy分散式爬取原理

Scrapy-Redis的使用

Scrapy分散式部署詳解

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Python 的精彩文章:

※R開發人員使用Python
※Python大神，requests庫的作者放大招了

TAG:Python |