當前位置:
首頁 > 最新 > 零基礎入門Python爬蟲(一)

零基礎入門Python爬蟲(一)

閱讀本篇大概需要 4 分鐘。

前言

很多人都或多或少聽說過 Python 爬蟲,我也一直很感興趣,所以也花了一個下午入門了一下輕量級的爬蟲。為啥是輕量級的爬蟲呢,因為有的網頁是比較複雜的,比如需要驗證碼、登錄驗證或者需要證書才能訪問,我們了解爬蟲的概念和架構,只需要做一些簡單的爬取工作即可,比如爬取百度百科這種純信息展示的網頁,這些都是不需要登錄的靜態網頁。即便再複雜的爬蟲網頁和爬蟲框架,實際上都離不開這一套基本的爬蟲架構。

爬蟲簡介

爬蟲是一段自動抓取互聯網信息的程序。每個網頁都有一個URL,從一個網頁入口開始,通過各種URL的跳轉形成一個相互指向的關係,最終可以形成一種網狀結構,這就是互聯網。理論上來說,一個龐大的網頁項目,從入口開始,總能通過某種跳轉路徑到達項目系統中的任何一個網頁,當我們人工的從網頁上獲取信息的時候,只能跟著步驟,一步一步的點擊跳轉,最終獲取到我們希望得到的信息。

比如典型的,我昨天想領養一隻貓咪,我先點開同城網站,然後找到寵物分類,再找到貓咪分類,再選擇一些條目,比如是領養而不是購買,年齡在半歲以下,狸花貓等等這些特性,最後點擊搜索,網頁給了我具體的條目列表,我通過人工的方式,獲取了我想要的信息。雖然定位精準,但不免很浪費人力時間。

而爬蟲就是一個這樣的自動程序,我們設定好我們需要的主題和目標,比如「貓咪」、「6個月」等標籤,爬蟲會從某個特定URL入手,自動的訪問它所關聯的URL,並且提取出我們需要的數據。可以說爬蟲就是自動訪問互聯網,並且提取價值數據的程序。

爬蟲的價值就在於此,可以獲取將互聯網上巨量的數據都為我所用,有了這些數據,我們就可以進行學習和分析,或者利用數據做出相關的產品。

爬取 GitHub 中一天瀏覽量和 star 提升數最高的項目,有了這個數據,就可以做出一個 GitHub 開源項目推薦的項目。

可以說,只要有數據,沒有做不到的,只有你想不到的,數據就在放在互聯網上,通過爬蟲我們可以讓數據發揮更大的作用和價值,在大數據時代,爬蟲毋庸置疑是一門一線技術。

爬蟲基本架構

我們先來看一下簡單的爬蟲架構圖

首先我們需要一個爬蟲調度端來啟動和停止爬蟲,同時也要通過它來監視爬蟲的狀態,並通過它提供介面來作具體的數據應用。這個部分不屬於爬蟲本身。

圖中陰影方框中的部分就是我們爬蟲程序。因為有的頁面的入口有很多,我們可以通過不同的URL調度路徑來訪問這個界面,那麼作為一個智能的爬蟲軟體,當遇到我們已經爬取過的URL的時候,應該選擇過濾,而不是再次爬取。URL管理器就是用來存儲已經爬取URL和將要爬取URL的工具的。

從URL管理器中選擇一個待爬取的URL,將其傳送給網頁下載器,下載器會把網頁以字元串的形式下載下來,並把這個字元串交給網頁解析器去解析,網頁解析器一方面會把你需要獲取的價值信息提取出來歸還給調度器,另一方面,如果遇到該網頁有新的URL待爬取,就會把這個URL傳送給URL管理器。從此,這三個模塊進行循環,直到該網頁相關的所有URL都爬取完畢。

更加清晰的動態運行流程,可以用一個時序圖來表示。大家可以對照著上面的步驟理解下。

題外話,時序圖是我最喜歡的一種幫助梳理邏輯的圖,大家可以學習一下,在工作和學習過程中會幫助很大~

最近在後台很多同學問我,我現在也是在學習Python,到底應該是學2還是學3呢,其實這個問題我在往期的歷史文章已經有過分享,但是就最近的情況,我覺得應該有必要再講一下:

看到很多新同學在學習Python的過程中,猶豫學習Python 2還是學習Python 3而遲遲不行動,白白地浪費了大把時間,錯過了升職加薪的機會,我真心覺得非常遺憾。所以,我忍不住想對大家粗暴一次,給大家一個粗暴而又正確的答案:

應該學習Python 2還是Python 3?

都要學!

這個答案可能很出乎意料,也很容易反駁,例如:

真的是這樣嗎?作為一個還在一線互聯網公司奮鬥的技術專家,也是一個多年的Python老手,大家不妨來看看我這麼說的理由。

為什麼還要學習Python 2

Python 2隻維護到2020年不應該成為你拒絕Python 2的理由

所有糾結學習Python 2還是Python 3的朋友都知道,按照Python官方的計劃,Python 2只支持到2020年。可能大家接觸Python的時間還不長,不知道Python官方曾經還說過,Python 2只支持到2015年(https://github.com/python/peps/blob/master/pep-0373.txt)。所以,大家可以看到,跳票不是中國人的特權,Python官方也是會跳票的。

如果大家關注科技新聞的話,會注意到,就在前幾天,微軟剛宣布將在2020年對Win 7停止任何技術支持,之後即使遇到BUG和安全問題,他們也不會再修復,就像現在的XP一樣。但是,大家看看我們周圍的同事、朋友、親戚,到底是用Win 7的多還是用Win 10的多?這些用Win 7的人有吵著說我要升級Windows的嗎?用Win 10的人有吵著讓用Win 7的人升級嗎?

但是,在Python這個圈子,就是有很多人吵著要讓別人升級Python 3。很多時候用戶並不關心自己用的是Python 2還是Python 3,只要能用就行。所以,用Python 2的人並沒有什麼動力去升級到Python 3。

如果你覺得,Python 3才是Python的未來,不希望接觸Python 2的項目。那麼,問題來了,女神跟你說,晚上來我家給我修下電腦唄,但是我的電腦是Windows XP的,你是去還是不去?

Python官方建議學習Python 3隻是一種一廂情願的行為

我們來看一下Python 2和Python 3的下載統計數據(http://www.randalolson.com/2016/09/03/python-2-7-still-reigns-supreme-in-pip-installs/):

Python 2的使用量遠遠超過Python 3。而且,大家注意豎軸的單位,是指數!簡單換算一下就知道,僅從下載量來說,Python 2.7的下載量是總下載量的90%!所以,學習Python,想直接拋棄Python 2學習Python 3,幾乎是不可能的事情。

上面的數據是全球範圍的統計數據,我們來看看中國互聯網的情況。為了寫這篇文章,我專門在同學群裡面發了紅包,邀請了來自百度、阿里、騰訊、網易、美團、華為、招行、建行、eBay、美圖、Oracle等公司的一線技術專家,統計了各大公司使用Python的情況。

統計數據如下:

統計數據基本與pypi的全球範圍的統計數據吻合。所以,如果你說,我一開始學的就是Python 3,Python 3也是Python的未來,我不想去了解和學習Python 2。那麼,你可能要和大半個中國互聯網失之交臂了。或許你也不在乎,但是,如果有人拿錢砸你讓你維護Python 2的代碼呢?

Python 2還會存在很長一段時間

不知道大家有沒有想過,為什麼Python官方極力讓大家使用Python 3,而Python 2依然處於統治地位呢?

其實答案很簡單也很粗暴:因為絕大多數人,你給他什麼,他就用什麼。據我說知,儘管Python 3在2008年12月就已經發布了,但是,目前Python 3仍然不是任何操作系統的默認Python解釋器,這是Python 3使用不廣泛的主要原因。

這個世界並不是非黑即白的,Python也不是

有了前面的數據做支撐,我們不是應該學習Python 2嗎,為什麼Python 2和Python 3都要學呢?

首先,這個世界並不是非黑即白的,Python也不是。在學習Python 2和學習Python 3中間,其實有一個很好的平衡,那就是同時兼容Python 2和Python 3。為了做到同時兼容Python 2和Python 3,需要深用到Python的

__future__

庫。

__future__

庫裡面包含了不少從Python 3 backport 到Python 2的特性,充分使用

__future__

庫,可以很好的兼容Python 2和Python 3。

其次,Python 2和Python 3確實有一些差異,但是,並沒有大家想像的那麼大,Python 2和Python 3之間的差異不到Python語法的10%,我們可以快速地了解哪些Python 2裡面的語法在Python 3中已經被棄用,在我們寫代碼的過程中,規避掉這一部分語法即可。在Python的最佳實踐中,Python 3里棄用的Python語法,在Python 2裡面也不推薦使用,不然也不會被棄用了。如果你知道並堅持Python的最佳實踐,那麼,對你來說,Python 2和Python 3的差異就更小了。

最後,我們可以參考優秀的開源軟體的做法,如OpenStack,努力做到代碼同時兼容Python 2和Python 3(https://wiki.openstack.org/wiki/Python3),也可以藉助一些開軟的庫(如six)來同時兼容。如果能夠做到同時兼容Python 2和Python 3,我們的使用者將更廣泛,我們的代碼也將更有價值。

stop talking, just do it

前面說了我對學習Python 2還是Python 3的一些觀點,希望能夠幫助大家少走彎路,另外,關於Python的版本問題,我這裡還有一些良心建議:

這篇文章詳細的說明了為什麼要同時學習Python 2和Python 3,如何在Python 2和Python 3中找到一個平衡。但是,重要的不是糾結學習Python 3還是Python 2,而是「stop talking, just do it!」。新的一年,不妨給自己定個小目標吧,比如,在18年精通Python?

為你準備的Python學習交流群,和千人一起學習Python。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python 的精彩文章:

經驗分享!零基礎學習Python爬蟲,我走過的那些坑

TAG:Python |