一篇文章就夠打通python網路請求，scrapy爬蟲，伺服器，代理，各種騷操作，真的一篇就夠

最新 08-28

前段時間，鏟屎官陸陸續續發了很多技術文章，由於篇幅太多，這裡給大家規整一下，並且每篇文章都寫個中心思想，方便大家查閱。但是，就是由於字數太多，文章是一個系統教程，肯定有99%的人沒有看或者看完。

可是，鏟屎官有一位很熱心的讀者，是一名在讀研究生，非計算機專業，馬上就快畢業了，想找和計算機靠邊的工作，想在自己的簡歷裡面添枝加葉，他就根據鏟屎官寫的教程文章，自己一步一步跟下來，遇到不會的問題，鏟屎官幫忙看看，在公眾號上開發了一套學校成績查詢系統。可以說這波操作很強！

當他最後告訴我成功了，我很開心，因為我覺得，他用差不多一周的時間，通過看我的文章，從啥也不會，到公眾號研發成功，我感覺很厲害。而且他這段經歷，能夠在他的簡歷上濃墨重彩的寫一下，對校招找工作幫助也很大。那麼今天，我就給大家來說一下，我的文章都說了什麼。這篇文章就相當於是一個INDEX和ABSTRACT的結合體了。

Python系列文章

我們今天就來捋一捋這系列文章中，你能學到什麼。

基礎篇

這篇文章主要講述了在爬蟲中最常用的Python操作，沒有使用任何框架，純調用最基礎的操作，這篇文章你可以學到：

request網路請求操作。

Python文件讀寫操作。

利用BeautifulSoup4來解析html。

注意：

由於這個項目是很長時間之前寫的，現在社區地址早已變更。如需讓程序跑通，需要修改網站地址，以及html中間一些tag名稱。

這篇文章，主要是用Python的request中的session來執行POST登錄操作。這個步驟很關鍵。如果網站需要用戶名密碼進行登錄，可以參考這篇文章中的做法。

requests的session使用。

模擬網站登錄。

注意：

由於這個項目是很長時間之前寫的，現在社區地址早已變更。如需讓程序跑通，需要修改網站地址。

Scrapy篇

這篇文章利用Scrapy爬蟲框架，來爬取網站，並且加入了pipeline，對爬取結果做了處理保存處理，將圖片和種子均保存在本地。

Scrapy框架。

pipeline保存圖片和種子到本地。

BeautifulSoup解析html。

注意：

由於這個項目是很長時間之前寫的，現在社區地址早已變更。如需讓程序跑通，需要修改網站地址，以及html中間一些tag名稱。

這篇文章，超級詳細的給大家講解了Scrapy如何使用，通過爬取達蓋爾旗幟社區，一步一步的分析html格式，並且最後指導大家怎樣保存圖片，如果從零入門Scrapy的話，建議跟著這篇文章做。

注意：

由於這個項目是很長時間之前寫的，現在社區地址早已變更。如需讓程序跑通，需要修改網站地址，以及html中間一些tag名稱。

Scrapy高級篇

這篇文章主要講述了，寫好爬蟲之後，可以將爬虫部署到雲伺服器上，在雲伺服器上定時執行，讓你的爬蟲，真正意義的投入到生產實踐中。文章一步一步的講述部署步驟，很詳細。

雲伺服器中Python3的安裝命令。

Scrapyd的部署步驟。

雲伺服器的購買步驟。

雲伺服器的優惠券。

注意：

文章中講述了Python3的安裝，但是少了兩行創建Python3軟鏈接的命令，這裡給大家補充一下：

運行了之後，你以後如果想運行Python3，就只需要輸入就可以了，pip同理，替換原來的pip命令。

還有一點，文章有一行代碼是錯的，就是在雲伺服器上安裝scrayd client的時候，應該是：

爬蟲伺服器篇

這篇文章主要講述了在阿里雲上面安裝MongoDb的步驟，每一步都有截圖，指令。很詳細的教程。在騰訊雲安裝也是一樣的步驟。記得修改配置文件，打開安全組的埠，啟動服務，就可以遠程連接了。MongoDB的創建，是為了以後爬蟲存儲爬取信息而做的準備。

阿里雲優惠券。

阿里雲安裝MongoDB的詳細步驟。

可視化連接MongoDB。

部分Python與MongoDB的交互代碼。

這篇文章，講述了如何在阿里雲上面啟動你的Torndao伺服器。文章裡面講述了兩種返回方式，很實用的說。如果想做API的，可以根據這篇文章裡面講解的思路來學習。

tornado基本操作。

返回網頁格式和返回JSON格式的API寫法。

本地代碼如何上傳到阿里雲伺服器。

本地IDE如何配置遠端調試。

阿里雲部署tornado服務步驟。

既然你已經有了阿里雲伺服器，還在伺服器上順利的啟動了你的服務程序，那麼，接下來就可以購買域名，配置SSL證書，實現https的訪問。這篇文章就是告訴你怎麼配置nginx和域名的。讓你的網頁不在需要通過ip來訪問，而是通過域名訪問。詳細步驟，高清截圖，現有的配置文件文本，複製黏貼就好。

域名購買流程。

安裝配置Nginx。

如何獲取SSL證書。

配置https。

好多網站都訪問不了，別怕，鏟屎官帶你通過代碼來打開外面的世界。此文超級詳細的步驟，真的超級詳細！一步一步，按照指示敲代碼，完全可以搞定！從伺服器購買帶最後成功訪問網頁的全套流程，全套截圖。真的不能再細了，再細感覺就只能你有償的讓鏟屎官幫你調試了。

境外伺服器的購買方法。

阿里雲騰訊雲優惠券。

酸酸（SS）的配置方法。

純高階騷操作篇

這個是針對之前的「種子吞噬器」的改進版本，使用FilesPipeline來替換原來文章中的requests，效率提升的好可怕！而且，還帶了發郵件的功能，讓你的種子下載下來，既在本地保存，還能再郵箱裡面備份一份，超級屌的！

Python發送郵件，而且是帶附件的郵件哦。

FilesPipeline的使用。

Scrapy的高階使用方法。

注意：

由於這個項目是很長時間之前寫的，現在社區地址早已變更。如需讓程序跑通，需要修改網站地址。

這篇文章，也是騷的不行，通過詳細的步驟，來告訴你Scrapy爬蟲如何通過境外伺服器配置的酸酸，訪問那些我們平時訪問不到的網站。而且，這個項目是可以部署到雲伺服器的，自動運行，不需要人工每天點擊就可以運行。鏟屎官每天都是教的乾貨，你不服不行。

阿里雲騰訊雲伺服器優惠券。

酸酸伺服器配置和客戶端配置方法。

privoxy的本地配置，實現HTTP代理。

給Scrapy添加http代理的方法。

爬取境外網站信息。

END

OK，目前為止，鏟屎官就寫了這些文章，其實還有一個小程序的文章『手把手一條龍教程，專門獻給還沒有寫過小程序的你』，用來幫你小程序入門，也是有彩蛋的，哈哈哈哈。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 皮克啪的鏟屎官 的精彩文章:

TAG:皮克啪的鏟屎官 |