Python爬蟲Scrapy入門看這篇就夠了
點擊上方「
Python開發
」,選擇「置頂公眾號」
關鍵時刻,第一時間送達!
一、初窺scrapy
scrapy中文文檔:
http://scrapy-chs.readthedocs.io/zh_CN/latest/
Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。其最初是為了 頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。
scrapy是一個很好的爬蟲框架,集爬取、處理、存儲為一體,為無數爬蟲愛好者所熱捧,但個人認為對初學者並不友好,建議初學者打好基礎再來看scrapy。
二、昨夜西風凋碧樹,獨上高樓,望盡天涯路(安裝庫)
本以為自己安裝Python庫已經有一定的理解和方法了,結果還是栽在了安裝scrapy庫上,本人是win7系統+Python3.5的環境。先給大家丟個安裝Python庫的網站:
http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
1 lxml庫的安裝 通過網站下載安裝(具體安裝方法見後面視頻)
2 zope.interface庫安裝 pip3 install zope.interface
3 twisted庫安裝 通過網站下載安裝
4 pyOpenSSL庫安裝 pip3 install pyOpenSSL
5 pywin32庫安裝 通過網站下載安裝
6 pip3 install scrapy
你以為這樣就結束了,天真,我在運行程序的時候說沒有pywin32的DLL,當時我一臉懵逼,用黑窗口導入pywin32結果報錯,還好在好友的幫助下解決了。
錯誤圖
解決方法1
解決方法2
把圖三的文件拷貝到C:WindowsSystem32
三、衣帶漸寬終不悔,為伊消得人憔悴(各種出錯)
創建scrapy項目:
#今天還是爬取小豬短租數據scrapy startproject xiaozhu
scrapy項目文件結構:
#配置文件 #定義需要抓取並需要後期處理的數據 #用於後期數據處理的功能xiaozhu/
scrapy.cfg
xiaozhu/
__init__.py
items.py
pipelines.py
settings.py
#文件配置scrapy
spiders/
__init__.py
...
1 錯誤一
錯誤圖
出錯原因
解決方案代碼見下
2 錯誤二
無法導出為csv,看了向右奔跑的導出csv代碼,在我本地電腦無法導出
然來去scrapy文檔看了下,對settings.py進行了修改如下:
"file:C://Users/Administrator/Desktop/xiaozhu.csv" "csv" #csv小寫FEED_URI =
FEED_FORMAT =
四、縱里尋他千百度,驀然回首,那人卻在燈火闌珊處(代碼運行成功)
1 items.py代碼
from import
class
XiaozhuItem
(Item)
:address = Field()
price = Field()
lease_type = Field()
bed_amount = Field()
suggestion = Field()
comment_star = Field()
comment_amount = Field()
2 新建xiaozhuspider.py
import import ".." #解決問題1 from import from import from import from import
sys.path.append(
class
xiaozhu
(CrawlSpider)
:name =
"xiaozhu"
start_urls = [
"http://bj.xiaozhu.com/search-duanzufang-p1-0/"
]
def
parse
(self, response)
:item = XiaozhuItem()
selector = Selector(response)
commoditys = selector.xpath(
"//ul[@class="pic_list clearfix"]/li"
)
for
commodityin
commoditys:address = commodity.xpath(
"div[2]/div/a/span/text()"
).extract()[0
]price = commodity.xpath(
"div[2]/span[1]/i/text()"
).extract()[0
]lease_type = commodity.xpath(
"div[2]/div/em/text()"
).extract()[0
].split("/"
)[0
].strip()bed_amount = commodity.xpath(
"div[2]/div/em/text()"
).extract()[0
].split("/"
)[1
].strip()suggestion = commodity.xpath(
"div[2]/div/em/text()"
).extract()[0
].split("/"
)[2
].strip()infos = commodity.xpath(
"div[2]/div/em/span/text()"
).extract()[0
].strip()comment_star = infos.split(
"/"
)[0
]if
"/"
in
infoselse
"無"
comment_amount = infos.split(
"/"
)[1
]if
"/"
in
infoselse
infositem[
"address"
] = addressitem[
"price"
] = priceitem[
"lease_type"
] = lease_typeitem[
"bed_amount"
] = bed_amountitem[
"suggestion"
] = suggestionitem[
"comment_star"
] = comment_staritem[
"comment_amount"
] = comment_amount
yield
itemurls = [
"http://bj.xiaozhu.com/search-duanzufang-p{}-0/"
.format(str(i))for
iin
range(1
,14
)]for
urlin
urls:yield
Request(url, callback=self.parse)3 新建main.py(運行main.py就可以運行爬蟲了)
from import "scrapy crawl xiaozhu"
cmdline.execute(
結果
五、視頻
沒完全理解的同學可以觀看視頻講解哦。
https://v.qq.com/x/page/t0356cp46sw.html
來自:
羅羅攀
https://www.jianshu.com/p/e5ead6af4eb2
Python開發整理髮布,轉載請聯繫作者獲得授權
【點擊成為程序員大咖】
TAG:Python開發 |