當前位置:
首頁 > 知識 > Python爬蟲Scrapy入門看這篇就夠了

Python爬蟲Scrapy入門看這篇就夠了

點擊上方「

Python開發

」,選擇「置頂公眾號」


關鍵時刻,第一時間送達!






一、初窺scrapy


scrapy中文文檔:


http://scrapy-chs.readthedocs.io/zh_CN/latest/



Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。其最初是為了 頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。


scrapy是一個很好的爬蟲框架,集爬取、處理、存儲為一體,為無數爬蟲愛好者所熱捧,但個人認為對初學者並不友好,建議初學者打好基礎再來看scrapy。



二、昨夜西風凋碧樹,獨上高樓,望盡天涯路(安裝庫)



本以為自己安裝Python庫已經有一定的理解和方法了,結果還是栽在了安裝scrapy庫上,本人是win7系統+Python3.5的環境。先給大家丟個安裝Python庫的網站:


http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

1 lxml庫的安裝 通過網站下載安裝(具體安裝方法見後面視頻)
2 zope.interface庫安裝 pip3 install zope.interface
3 twisted庫安裝 通過網站下載安裝
4 pyOpenSSL庫安裝 pip3 install pyOpenSSL
5 pywin32庫安裝 通過網站下載安裝
6 pip3 install scrapy


你以為這樣就結束了,天真,我在運行程序的時候說沒有pywin32的DLL,當時我一臉懵逼,用黑窗口導入pywin32結果報錯,還好在好友的幫助下解決了。


錯誤圖



解決方法1



解決方法2


把圖三的文件拷貝到C:WindowsSystem32



三、衣帶漸寬終不悔,為伊消得人憔悴(各種出錯)


創建scrapy項目:

scrapy startproject xiaozhu

#今天還是爬取小豬短租數據

scrapy項目文件結構:

xiaozhu/
   scrapy.cfg

#配置文件


   xiaozhu/
       __init__.py
       items.py

#定義需要抓取並需要後期處理的數據


       pipelines.py

#用於後期數據處理的功能

       settings.py

#文件配置scrapy


       spiders/
           __init__.py
           ...

1 錯誤一






錯誤圖





出錯原因



解決方案代碼見下


2 錯誤二


無法導出為csv,看了向右奔跑的導出csv代碼,在我本地電腦無法導出
然來去scrapy文檔看了下,對settings.py進行了修改如下:

FEED_URI =

"file:C://Users/Administrator/Desktop/xiaozhu.csv"


FEED_FORMAT =

"csv"

#csv小寫


四、縱里尋他千百度,驀然回首,那人卻在燈火闌珊處(代碼運行成功)


1 items.py代碼

from

scrapy.item

import

Item,Field

class

XiaozhuItem

(Item)

:


   address = Field()
   price = Field()
   lease_type = Field()
   bed_amount = Field()
   suggestion = Field()
   comment_star = Field()
   comment_amount = Field()

2 新建xiaozhuspider.py

import

scrapy

import

sys
sys.path.append(

".."

)

#解決問題1


from

scrapy.spiders

import

CrawlSpider

from

scrapy.selector

import

Selector

from

scrapy.http

import

Request

from

xiaozhu.items

import

XiaozhuItem

class

xiaozhu

(CrawlSpider)

:


   name =

"xiaozhu"


   start_urls = [

"http://bj.xiaozhu.com/search-duanzufang-p1-0/"

]

   

def

parse

(self, response)

:


       item = XiaozhuItem()
       selector = Selector(response)
       commoditys = selector.xpath(

"//ul[@class="pic_list clearfix"]/li"

)

       

for

commodity

in

commoditys:
           address = commodity.xpath(

"div[2]/div/a/span/text()"

).extract()[

0

]
           price = commodity.xpath(

"div[2]/span[1]/i/text()"

).extract()[

0

]
           lease_type = commodity.xpath(

"div[2]/div/em/text()"

).extract()[

0

].split(

"/"

)[

0

].strip()
           bed_amount = commodity.xpath(

"div[2]/div/em/text()"

).extract()[

0

].split(

"/"

)[

1

].strip()
           suggestion = commodity.xpath(

"div[2]/div/em/text()"

).extract()[

0

].split(

"/"

)[

2

].strip()
           infos = commodity.xpath(

"div[2]/div/em/span/text()"

).extract()[

0

].strip()
           comment_star = infos.split(

"/"

)[

0

]

if

"/"

in

infos

else

"無"


           comment_amount = infos.split(

"/"

)[

1

]

if

"/"

in

infos

else

infos

           item[

"address"

] = address
           item[

"price"

] = price
           item[

"lease_type"

] = lease_type
           item[

"bed_amount"

] = bed_amount
           item[

"suggestion"

] = suggestion
           item[

"comment_star"

] = comment_star
           item[

"comment_amount"

] = comment_amount

           

yield

item

       urls = [

"http://bj.xiaozhu.com/search-duanzufang-p{}-0/"

.format(str(i))

for

i

in

range(

1

,

14

)]
       

for

url

in

urls:
           

yield

Request(url, callback=self.parse)


3 新建main.py(運行main.py就可以運行爬蟲了)

from

scrapy

import

cmdline
cmdline.execute(

"scrapy crawl xiaozhu"

.split())



結果


五、視頻




沒完全理解的同學可以觀看視頻講解哦。


https://v.qq.com/x/page/t0356cp46sw.html





  • 來自:

    羅羅攀



  • https://www.jianshu.com/p/e5ead6af4eb2



  • Python開發整理髮布,轉載請聯繫作者獲得授權



【點擊成為程序員大咖】

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python開發 的精彩文章:

面試題:布爾變數

TAG:Python開發 |