ACHE:一款功能強大的聚焦型網路爬蟲
工具介紹
今天給大家介紹的是一款名叫ACHE的聚焦型網路爬蟲工具,你可以給它指定一個需要搜索的主題或屬性內容,它便會給你返回相關的搜索頁面。
在配置ACHE時,你需要定義一個你感興趣的話題(例如滲透測試或菜譜),接下來ACHE便會創建一個模型來檢測符合該主題的Web頁面,並使用識別種子來作為爬取起始點。從起始點開始,ACHE將會對Web頁面進行爬取,並儘可能地檢索出所有與該主題有關的頁面,與此同時,它還會避免重複爬取相同的Web區域。爬取完成之後,你便能夠得到一系列與你所設置的主題有關的Web頁面了。
下載、安裝與編譯
使用下列命令將ACHE源碼克隆到本地:
接下來,使用compile_crawler.sh對ACHE源碼進行編譯:
為ACHE的頁面分類器創建模型
為了針對某一主題進行Web頁面的爬取,ACHE需要訪問其內容模型。接下來,分類器需要利用這個模型來決定需要爬取的新頁面,並判斷該頁面是否符合用戶所設置的主題。我們假設你在一個A字典和一個B字典中分別保存A樣本和B樣本,而這些字典需要存儲在訓練數據字典中。下面給出的代碼可以幫助你通過這些樣本來構建爬取模型:
運行ACHE
當模型生成之後,你需要準備好種子文件,其中的每一行都是一個URL地址。你可以使用下列命令開啟爬蟲:
:該路徑指向數據輸出字典。
ACHE運行樣例:
數據輸出字典中保存了什麼?
data_target:包含主題相關的頁面。
data_negative:包含主題不相關的頁面。在默認配置下,爬蟲並不會保存主題不相關的頁面。
data_monitor:包含爬蟲的當前狀態。
data_url和data_backlinks:永久保存前端爬取信息以及爬取路徑圖。
何時終止爬蟲運行?
除非你手動終止ACHE的運行,否則它將會在爬取到最大頁面數之後終止運行,默認配置下最大為9M,具體可以參考文件data_monitor/harvestinfo.csv來了解當前已下載了多少頁面。其中,前三列數據分別為相關頁面數、已訪問頁面數和時間戳。
* 參考來源:ACHE, FB小編Alpha_h4ck編譯,轉載請註明來自FreeBuf.COM
※解密攻擊者如何利用D-Link路由器構建殭屍網路
※利用空調系統對隔離網路中的電腦發送指令
※讓木馬病毒DNS數據傳輸成為歷史:看我如何讓XShell病毒失效
※致敬安全行業年度風雲人物 | WitAwards 2017年度安全人物評選「報名進行中」
TAG:FreeBuf |