當前位置:
首頁 > 新聞 > ACHE:一款功能強大的聚焦型網路爬蟲

ACHE:一款功能強大的聚焦型網路爬蟲


工具介紹


今天給大家介紹的是一款名叫ACHE的聚焦型網路爬蟲工具,你可以給它指定一個需要搜索的主題或屬性內容,它便會給你返回相關的搜索頁面。


在配置ACHE時,你需要定義一個你感興趣的話題(例如滲透測試或菜譜),接下來ACHE便會創建一個模型來檢測符合該主題的Web頁面,並使用識別種子來作為爬取起始點。從起始點開始,ACHE將會對Web頁面進行爬取,並儘可能地檢索出所有與該主題有關的頁面,與此同時,它還會避免重複爬取相同的Web區域。爬取完成之後,你便能夠得到一系列與你所設置的主題有關的Web頁面了。


下載、安裝與編譯

使用下列命令將ACHE源碼克隆到本地:



接下來,使用compile_crawler.sh對ACHE源碼進行編譯:



為ACHE的頁面分類器創建模型

為了針對某一主題進行Web頁面的爬取,ACHE需要訪問其內容模型。接下來,分類器需要利用這個模型來決定需要爬取的新頁面,並判斷該頁面是否符合用戶所設置的主題。我們假設你在一個A字典和一個B字典中分別保存A樣本和B樣本,而這些字典需要存儲在訓練數據字典中。下面給出的代碼可以幫助你通過這些樣本來構建爬取模型:



:該路徑所指向的是包含A樣本和B樣本的字典路徑。


:該路徑指向的是你新生成的字典(模型),該模型由以下兩份文件組成: pageclassifier.model和pageclassifier.features。


運行ACHE

當模型生成之後,你需要準備好種子文件,其中的每一行都是一個URL地址。你可以使用下列命令開啟爬蟲:



:該路徑指向配置字典。


:即種子文件路徑。

:該路徑指向模型字典,其中包含pageclassifier.model和pageclassifier.features。


:該路徑指向數據輸出字典。


:該路徑指向語言檢測配置:「libs/langdetect-03-03-2014.jar」。


ACHE運行樣例:




數據輸出字典中保存了什麼?


data_target:包含主題相關的頁面。


data_negative:包含主題不相關的頁面。在默認配置下,爬蟲並不會保存主題不相關的頁面。


data_monitor:包含爬蟲的當前狀態。


data_url和data_backlinks:永久保存前端爬取信息以及爬取路徑圖。


何時終止爬蟲運行?


除非你手動終止ACHE的運行,否則它將會在爬取到最大頁面數之後終止運行,默認配置下最大為9M,具體可以參考文件data_monitor/harvestinfo.csv來了解當前已下載了多少頁面。其中,前三列數據分別為相關頁面數、已訪問頁面數和時間戳。


* 參考來源:ACHE, FB小編Alpha_h4ck編譯,轉載請註明來自FreeBuf.COM


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 FreeBuf 的精彩文章:

解密攻擊者如何利用D-Link路由器構建殭屍網路
利用空調系統對隔離網路中的電腦發送指令
讓木馬病毒DNS數據傳輸成為歷史:看我如何讓XShell病毒失效
致敬安全行業年度風雲人物 | WitAwards 2017年度安全人物評選「報名進行中」

TAG:FreeBuf |