Python爬蟲Scrapy入門看這篇就夠了

知識 01-11

點擊上方「

Python開發

」，選擇「置頂公眾號」

關鍵時刻，第一時間送達！

一、初窺scrapy

scrapy中文文檔:

http://scrapy-chs.readthedocs.io/zh_CN/latest/

Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。

scrapy是一個很好的爬蟲框架，集爬取、處理、存儲為一體，為無數爬蟲愛好者所熱捧，但個人認為對初學者並不友好，建議初學者打好基礎再來看scrapy。

二、昨夜西風凋碧樹，獨上高樓，望盡天涯路（安裝庫）

本以為自己安裝Python庫已經有一定的理解和方法了，結果還是栽在了安裝scrapy庫上，本人是win7系統+Python3.5的環境。先給大家丟個安裝Python庫的網站:

http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

1 lxml庫的安裝通過網站下載安裝（具體安裝方法見後面視頻）
2 zope.interface庫安裝 pip3 install zope.interface
3 twisted庫安裝通過網站下載安裝
4 pyOpenSSL庫安裝 pip3 install pyOpenSSL
5 pywin32庫安裝通過網站下載安裝
6 pip3 install scrapy

你以為這樣就結束了，天真，我在運行程序的時候說沒有pywin32的DLL，當時我一臉懵逼，用黑窗口導入pywin32結果報錯，還好在好友的幫助下解決了。

錯誤圖

解決方法1

解決方法2

把圖三的文件拷貝到C:WindowsSystem32

三、衣帶漸寬終不悔，為伊消得人憔悴（各種出錯）

創建scrapy項目：

scrapy startproject xiaozhu

#今天還是爬取小豬短租數據

scrapy項目文件結構：

xiaozhu/ scrapy.cfg

#配置文件


    xiaozhu/
        __init__.py
        items.py #定義需要抓取並需要後期處理的數據

        pipelines.py #用於後期數據處理的功能
 
        settings.py 
#文件配置scrapy

        spiders/
            __init__.py
            ...

1 錯誤一

錯誤圖

出錯原因

解決方案代碼見下

2 錯誤二

無法導出為csv，看了向右奔跑的導出csv代碼，在我本地電腦無法導出
然來去scrapy文檔看了下，對settings.py進行了修改如下：

FEED_URI =

"file:C://Users/Administrator/Desktop/xiaozhu.csv"


FEED_FORMAT = "csv"
 #csv小寫

四、縱里尋他千百度，驀然回首，那人卻在燈火闌珊處（代碼運行成功）

1 items.py代碼

from

 scrapy.item import
 Item,Field
class
 XiaozhuItem
(Item)
:

    address = Field()
    price = Field()
    lease_type = Field()
    bed_amount = Field()
    suggestion = Field()
    comment_star = Field()
    comment_amount = Field()

2 新建xiaozhuspider.py

import

 scrapy
import
 sys
sys.path.append(".."
) #解決問題1

from
 scrapy.spiders import
 CrawlSpider
from
 scrapy.selector import
 Selector
from
 scrapy.http import
 Request
from
 xiaozhu.items import
 XiaozhuItem
class
 xiaozhu
(CrawlSpider)
:

    name = "xiaozhu"

    start_urls = ["http://bj.xiaozhu.com/search-duanzufang-p1-0/"
]
    
def
 parse
(self, response)
:

        item = XiaozhuItem()
        selector = Selector(response)
        commoditys = selector.xpath("//ul[@class="pic_list clearfix"]/li"
)
        
for
 commodity in
 commoditys:
            address = commodity.xpath("div[2]/div/a/span/text()"
).extract()[0
]
            price = commodity.xpath("div[2]/span[1]/i/text()"
).extract()[0
]
            lease_type = commodity.xpath("div[2]/div/em/text()"
).extract()[0
].split("/"
)[0
].strip()
            bed_amount = commodity.xpath("div[2]/div/em/text()"
).extract()[0
].split("/"
)[1
].strip()
            suggestion = commodity.xpath("div[2]/div/em/text()"
).extract()[0
].split("/"
)[2
].strip()
            infos = commodity.xpath("div[2]/div/em/span/text()"
).extract()[0
].strip()
            comment_star = infos.split("/"
)[0
] if
 "/"
 in
 infos else
 "無"

            comment_amount = infos.split("/"
)[1
] if
 "/"
 in
 infos else
 infos
            item[
"address"
] = address
            item["price"
] = price
            item["lease_type"
] = lease_type
            item["bed_amount"
] = bed_amount
            item["suggestion"
] = suggestion
            item["comment_star"
] = comment_star
            item["comment_amount"
] = comment_amount
            
yield
 item
        urls = [
"http://bj.xiaozhu.com/search-duanzufang-p{}-0/"
.format(str(i)) for
 i in
 range(1
, 14
)]
        for
 url in
 urls:
            yield
 Request(url, callback=self.parse)

3 新建main.py（運行main.py就可以運行爬蟲了）

from

 scrapy import
 cmdline
cmdline.execute("scrapy crawl xiaozhu"
.split())

結果

五、視頻

沒完全理解的同學可以觀看視頻講解哦。

https://v.qq.com/x/page/t0356cp46sw.html

來自：
羅羅攀

https://www.jianshu.com/p/e5ead6af4eb2

Python開發整理髮布，轉載請聯繫作者獲得授權

【點擊成為程序員大咖】

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Python開發 的精彩文章:

※面試題：布爾變數

TAG:Python開發 |