當前位置：

首頁 > 新聞 > ACHE：一款功能強大的聚焦型網路爬蟲

ACHE：一款功能強大的聚焦型網路爬蟲

新聞 09-27

工具介紹

今天給大家介紹的是一款名叫ACHE的聚焦型網路爬蟲工具，你可以給它指定一個需要搜索的主題或屬性內容，它便會給你返回相關的搜索頁面。

在配置ACHE時，你需要定義一個你感興趣的話題（例如滲透測試或菜譜），接下來ACHE便會創建一個模型來檢測符合該主題的Web頁面，並使用識別種子來作為爬取起始點。從起始點開始，ACHE將會對Web頁面進行爬取，並儘可能地檢索出所有與該主題有關的頁面，與此同時，它還會避免重複爬取相同的Web區域。爬取完成之後，你便能夠得到一系列與你所設置的主題有關的Web頁面了。

下載、安裝與編譯

使用下列命令將ACHE源碼克隆到本地：

接下來，使用compile_crawler.sh對ACHE源碼進行編譯：

為ACHE的頁面分類器創建模型

為了針對某一主題進行Web頁面的爬取，ACHE需要訪問其內容模型。接下來，分類器需要利用這個模型來決定需要爬取的新頁面，並判斷該頁面是否符合用戶所設置的主題。我們假設你在一個A字典和一個B字典中分別保存A樣本和B樣本，而這些字典需要存儲在訓練數據字典中。下面給出的代碼可以幫助你通過這些樣本來構建爬取模型：

：該路徑所指向的是包含A樣本和B樣本的字典路徑。

：該路徑指向的是你新生成的字典（模型），該模型由以下兩份文件組成: pageclassifier.model和pageclassifier.features。

運行ACHE

當模型生成之後，你需要準備好種子文件，其中的每一行都是一個URL地址。你可以使用下列命令開啟爬蟲：

：該路徑指向配置字典。

：即種子文件路徑。

：該路徑指向模型字典，其中包含pageclassifier.model和pageclassifier.features。

：該路徑指向數據輸出字典。

：該路徑指向語言檢測配置：「libs/langdetect-03-03-2014.jar」。

ACHE運行樣例：

數據輸出字典中保存了什麼？

data_target：包含主題相關的頁面。

data_negative：包含主題不相關的頁面。在默認配置下，爬蟲並不會保存主題不相關的頁面。

data_monitor：包含爬蟲的當前狀態。

data_url和data_backlinks：永久保存前端爬取信息以及爬取路徑圖。

何時終止爬蟲運行？

除非你手動終止ACHE的運行，否則它將會在爬取到最大頁面數之後終止運行，默認配置下最大為9M，具體可以參考文件data_monitor/harvestinfo.csv來了解當前已下載了多少頁面。其中，前三列數據分別為相關頁面數、已訪問頁面數和時間戳。

* 參考來源：ACHE， FB小編Alpha_h4ck編譯，轉載請註明來自FreeBuf.COM

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 FreeBuf 的精彩文章:

※解密攻擊者如何利用D-Link路由器構建殭屍網路
※利用空調系統對隔離網路中的電腦發送指令
※讓木馬病毒DNS數據傳輸成為歷史：看我如何讓XShell病毒失效
※致敬安全行業年度風雲人物 | WitAwards 2017年度安全人物評選「報名進行中」