當前位置:
首頁 > 最新 > 一篇文章就夠打通python網路請求,scrapy爬蟲,伺服器,代理,各種騷操作,真的一篇就夠

一篇文章就夠打通python網路請求,scrapy爬蟲,伺服器,代理,各種騷操作,真的一篇就夠

前段時間,鏟屎官陸陸續續發了很多技術文章,由於篇幅太多,這裡給大家規整一下,並且每篇文章都寫個中心思想,方便大家查閱。但是,就是由於字數太多,文章是一個系統教程,肯定有99%的人沒有看或者看完。

可是,鏟屎官有一位很熱心的讀者,是一名在讀研究生,非計算機專業,馬上就快畢業了,想找和計算機靠邊的工作,想在自己的簡歷裡面添枝加葉,他就根據鏟屎官寫的教程文章,自己一步一步跟下來,遇到不會的問題,鏟屎官幫忙看看,在公眾號上開發了一套學校成績查詢系統。可以說這波操作很強!

當他最後告訴我成功了,我很開心,因為我覺得,他用差不多一周的時間,通過看我的文章,從啥也不會,到公眾號研發成功,我感覺很厲害。而且他這段經歷,能夠在他的簡歷上濃墨重彩的寫一下,對校招找工作幫助也很大。那麼今天,我就給大家來說一下,我的文章都說了什麼。這篇文章就相當於是一個INDEX和ABSTRACT的結合體了。

Python系列文章

我們今天就來捋一捋這系列文章中,你能學到什麼。

基礎篇

這篇文章主要講述了在爬蟲中最常用的Python操作,沒有使用任何框架,純調用最基礎的操作,這篇文章你可以學到:

request網路請求操作。

Python文件讀寫操作。

利用BeautifulSoup4來解析html。

注意:

由於這個項目是很長時間之前寫的,現在社區地址早已變更。如需讓程序跑通,需要修改網站地址,以及html中間一些tag名稱。

這篇文章,主要是用Python的request中的session來執行POST登錄操作。這個步驟很關鍵。如果網站需要用戶名密碼進行登錄,可以參考這篇文章中的做法。

requests的session使用。

模擬網站登錄。

注意:

由於這個項目是很長時間之前寫的,現在社區地址早已變更。如需讓程序跑通,需要修改網站地址。

Scrapy篇

這篇文章利用Scrapy爬蟲框架,來爬取網站,並且加入了pipeline,對爬取結果做了處理保存處理,將圖片和種子均保存在本地。

Scrapy框架。

pipeline保存圖片和種子到本地。

BeautifulSoup解析html。

注意:

由於這個項目是很長時間之前寫的,現在社區地址早已變更。如需讓程序跑通,需要修改網站地址,以及html中間一些tag名稱。

這篇文章,超級詳細的給大家講解了Scrapy如何使用,通過爬取達蓋爾旗幟社區,一步一步的分析html格式,並且最後指導大家怎樣保存圖片,如果從零入門Scrapy的話,建議跟著這篇文章做。

注意:

由於這個項目是很長時間之前寫的,現在社區地址早已變更。如需讓程序跑通,需要修改網站地址,以及html中間一些tag名稱。

Scrapy高級篇

這篇文章主要講述了,寫好爬蟲之後,可以將爬虫部署到雲伺服器上,在雲伺服器上定時執行,讓你的爬蟲,真正意義的投入到生產實踐中。文章一步一步的講述部署步驟,很詳細。

雲伺服器中Python3的安裝命令。

Scrapyd的部署步驟。

雲伺服器的購買步驟。

雲伺服器的優惠券。

注意:

文章中講述了Python3的安裝,但是少了兩行創建Python3軟鏈接的命令,這裡給大家補充一下:

運行了之後,你以後如果想運行Python3,就只需要輸入就可以了,pip同理,替換原來的pip命令。

還有一點,文章有一行代碼是錯的,就是在雲伺服器上安裝scrayd client的時候,應該是:

爬蟲伺服器篇

這篇文章主要講述了在阿里雲上面安裝MongoDb的步驟,每一步都有截圖,指令。很詳細的教程。在騰訊雲安裝也是一樣的步驟。記得修改配置文件,打開安全組的埠,啟動服務,就可以遠程連接了。MongoDB的創建,是為了以後爬蟲存儲爬取信息而做的準備。

阿里雲優惠券。

阿里雲安裝MongoDB的詳細步驟。

可視化連接MongoDB。

部分Python與MongoDB的交互代碼。

這篇文章,講述了如何在阿里雲上面啟動你的Torndao伺服器。文章裡面講述了兩種返回方式,很實用的說。如果想做API的,可以根據這篇文章裡面講解的思路來學習。

tornado基本操作。

返回網頁格式和返回JSON格式的API寫法。

本地代碼如何上傳到阿里雲伺服器。

本地IDE如何配置遠端調試。

阿里雲部署tornado服務步驟。

既然你已經有了阿里雲伺服器,還在伺服器上順利的啟動了你的服務程序,那麼,接下來就可以購買域名,配置SSL證書,實現https的訪問。這篇文章就是告訴你怎麼配置nginx和域名的。讓你的網頁不在需要通過ip來訪問,而是通過域名訪問。詳細步驟,高清截圖,現有的配置文件文本,複製黏貼就好。

域名購買流程。

安裝配置Nginx。

如何獲取SSL證書。

配置https。

好多網站都訪問不了,別怕,鏟屎官帶你通過代碼來打開外面的世界。此文超級詳細的步驟,真的超級詳細!一步一步,按照指示敲代碼,完全可以搞定!從伺服器購買帶最後成功訪問網頁的全套流程,全套截圖。真的不能再細了,再細感覺就只能你有償的讓鏟屎官幫你調試了。

境外伺服器的購買方法。

阿里雲騰訊雲優惠券。

酸酸(SS)的配置方法。

純高階騷操作篇

這個是針對之前的「種子吞噬器」的改進版本,使用FilesPipeline來替換原來文章中的requests,效率提升的好可怕!而且,還帶了發郵件的功能,讓你的種子下載下來,既在本地保存,還能再郵箱裡面備份一份,超級屌的!

Python發送郵件,而且是帶附件的郵件哦。

FilesPipeline的使用。

Scrapy的高階使用方法。

注意:

由於這個項目是很長時間之前寫的,現在社區地址早已變更。如需讓程序跑通,需要修改網站地址。

這篇文章,也是騷的不行,通過詳細的步驟,來告訴你Scrapy爬蟲如何通過境外伺服器配置的酸酸,訪問那些我們平時訪問不到的網站。而且,這個項目是可以部署到雲伺服器的,自動運行,不需要人工每天點擊就可以運行。鏟屎官每天都是教的乾貨,你不服不行。

阿里雲騰訊雲伺服器優惠券。

酸酸伺服器配置和客戶端配置方法。

privoxy的本地配置,實現HTTP代理。

給Scrapy添加http代理的方法。

爬取境外網站信息。

END

OK, 目前為止,鏟屎官就寫了這些文章,其實還有一個小程序的文章『手把手一條龍教程,專門獻給還沒有寫過小程序的你』,用來幫你小程序入門,也是有彩蛋的,哈哈哈哈。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 皮克啪的鏟屎官 的精彩文章:

TAG:皮克啪的鏟屎官 |