當前位置:
首頁 > 最新 > 網路爬蟲基本原理

網路爬蟲基本原理

網路爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將互聯網上的網頁下載到本地形成一個互聯網內容的鏡像備份。

一、網路爬蟲的基本結構及工作流程

一個通用的網路爬蟲的框架如圖所示:

網路爬蟲的基本工作流程:

1.首先選取一部分精心挑選的種子URL;

2.將這些URL放入待抓取URL隊列;

3.從待抓取URL隊列中取出待抓取在URL,解析DNS,並且得到主機的ip,並將URL對應的網頁下載下來,存儲進已下載網頁庫中。此外,將這些URL放進已抓取URL隊列。

4.分析已抓取URL隊列中的URL,分析其中的其他URL,並且將URL放入待抓取URL隊列,從而進入下一個循環。

二、從爬蟲的角度對互聯網進行劃分

對應的,可以將互聯網的所有頁面分為五個部分:

1.已下載未過期網頁

2.已下載已過期網頁:抓取到的網頁實際上是互聯網內容的一個鏡像與備份,互聯網是動態變化的,一部分互聯網上的內容已經發生了變化,這時,這部分抓取到的網頁就已經過期了。

3.待下載網頁:也就是待抓取URL隊列中的那些頁面

4.可知網頁:還沒有抓取下來,也沒有在待抓取URL隊列中,但是可以通過對已抓取頁面或者待抓取URL對應頁面進行分析獲取到的URL,認為是可知網頁。

5.還有一部分網頁,爬蟲是無法直接抓取下載的。稱為不可知網頁。

三、抓取策略

在爬蟲系統中,待抓取URL隊列是很重要的一部分。待抓取URL隊列中的URL以什麼樣的順序排列也是一個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些URL排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略:

1.深度優先遍歷策略

深度優先遍歷策略是指網路爬蟲會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤鏈接。我們以下面的圖為例:

遍歷的路徑:A-F-G E-H-I B C D

2.寬度優先遍歷策略

寬度優先遍歷策略的基本思路是,將新下載網頁中發現的鏈接直接插入待抓取URL隊列的末尾。也就是指網路爬蟲會先抓取起始網頁中鏈接的所有網頁,然後再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。還是以上面的圖為例:

遍歷路徑:A-B-C-D-E-F G H I

3.反向鏈接數策略

反向鏈接數是指一個網頁被其他網頁鏈接指向的數量。反向鏈接數表示的是一個網頁的內容受到其他人的推薦的程度。因此,很多時候搜索引擎的抓取系統會使用這個指標來評價網頁的重要程度,從而決定不同網頁的抓取先後順序。

在真實的網路環境中,由於廣告鏈接、作弊鏈接的存在,反向鏈接數不能完全等他我那個也的重要程度。因此,搜索引擎往往考慮一些可靠的反向鏈接數。

4.Partial PageRank策略

Partial PageRank演算法借鑒了PageRank演算法的思想:對於已經下載的網頁,連同待抓取URL隊列中的URL,形成網頁集合,計算每個頁面的PageRank值,計算完之後,將待抓取URL隊列中的URL按照PageRank值的大小排列,並按照該順序抓取頁面。

如果每次抓取一個頁面,就重新計算PageRank值,一種折中方案是:每抓取K個頁面後,重新計算一次PageRank值。但是這種情況還會有一個問題:對於已經下載下來的頁面中分析出的鏈接,也就是我們之前提到的未知網頁那一部分,暫時是沒有PageRank值的。為了解決這個問題,會給這些頁面一個臨時的PageRank值:將這個網頁所有入鏈傳遞進來的PageRank值進行匯總,這樣就形成了該未知頁面的PageRank值,從而參與排序。下面舉例說明:

5.OPIC策略策略

該演算法實際上也是對頁面進行一個重要性打分。在演算法開始前,給所有頁面一個相同的初始現金(cash)。當下載了某個頁面P之後,將P的現金分攤給所有從P中分析出的鏈接,並且將P的現金清空。對於待抓取URL隊列中的所有頁面按照現金數進行排序。

6.大站優先策略

對於待抓取URL隊列中的所有網頁,根據所屬的網站進行分類。對於待下載頁面數多的網站,優先下載。這個策略也因此叫做大站優先策略。


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 千鋒教育 的精彩文章:

中興,他就是傳說中的南慕容!
年薪40萬以上的職位,IT類行業佔比最高

TAG:千鋒教育 |

您可能感興趣

網路那點基礎
詳解 BP 神經網路基本原理及 C 語言實現
一個動畫看懂網路原理之廣域網中的路由選擇
網路教育網路說
網路拓撲的處理
自底向上看深度學習網路的工作原理
謹防網路引起的心理病毒——網路心理障礙
一文讀懂人工神經網路學習原理
網路綜藝狹路對壘
淺談基於意圖的網路
比特幣閃電網路原理通俗解釋
《網路維護》網路設備管理工具
一文詳解循環神經網路的基本概念
基於卷積神經網路的中文文本分類
如何通過閃電網路理解原子級跨鏈交換?
文案抓取網路流量基本法
五個以區塊鏈為基礎的頂級社交網路
建立網路綜治體系 營造清朗網路空間
書荒時必讀的六本網路小說,第六本被譽為網路文學裡程碑式的作品
赫爾辛基大學AI基礎教程:神經網路是如何構建的