當前位置:
首頁 > 最新 > 一個抓取整個網站內容的工具,HTTrack

一個抓取整個網站內容的工具,HTTrack

(圖片源於網路,侵刪)


PS:分享一個能夠下載整個網站的工具。

工具下載地址:https://www.httrack.com/page/2/en/index.html

1

HTTrack工具介紹

HTTrack是一個網站鏡像工具,本來是用來抓取網站做離線瀏覽用的。但是HTTrack的爬蟲特性和搜索引擎蜘蛛爬蟲非常的像,這也逐漸應用到 SEO(搜索引擎優化)工作中。其實這兩種看似不同的爬蟲做的都是同樣的工作,就是複製網站並存儲下來(網站在搜索引擎中的網頁快照就是被存儲下來的內容)。

2

使用方法

HTTrack Website Copier界面如下圖所示:

我們一般用 HTTrack Website Copier 來對網站進行檢測或測試,模擬爬蟲對受保護服務的爬行、抓取、收錄,以來測試我們的防護設備對爬蟲的防護。

使用方法

第一步:創立項目的名稱(工程名)

第二步:選擇操作方式,再點擊「添加URL」,將我們的網站地址添加進去。

第三步:進入「選項」,設定爬行和抓取規則等選項

在選項中,取消使用代理進行FTP傳輸;進入「掃描規則」,為HTTrack程序設定爬行和抓取規則,HTTrack裡面自帶了一些,可以自己設置,也可以默認。

然後在「搜尋」裡面,很多的特徵都是現在搜索引擎爬蟲的特徵:

一般的搜索引擎不會接收cookies,因此測試時我們也將此項去掉。 第四步:一般按照以上設置就可以,其他的默認就行。點擊下一步:

在此頁面,我們不用選擇任何項,直接點擊完成就可以進行測試了,如下圖

此時,HTTrack開始對網頁進行爬行,抓取。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 安全犀牛 的精彩文章:

TAG:安全犀牛 |