Google推動將網路爬蟲機器人規範標準化

科技 07-03

網站用來告訴前來搜刮內容的爬蟲機器人什麼地方能去，什麼不能去的「Robot Exclusion Protocol」（REP）協議雖然早在1994年就由荷蘭軟體工程師Martijn Koster提出，並由大部分的網站與機器人所遵守，但其實25年來它都不是一個真正的「標準」，因此在各家的解析器（Parser）在解譯時可能會有所偏差，而且對於許多特殊的狀況都沒有個明確的規範。

舉例來說，一般爬蟲機器人都是去網站的根目錄尋找robot.txt文件，來了解網站對於爬蟲機器人活動範圍與頻度的規範，但如果因為任何原因（例如伺服器停擺），使得原本找得到的robot.txt找不到了，這時候機器人應該視作無規範、還是照著最後一次讀取的robot.txt內容進行？又或者，robot.txt應該多久去審查一次？太頻繁的話，會增加伺服器無謂的負擔，不夠頻繁的話，新的配置可能要很久才會反應在爬蟲機器人上。這些都是在標準規範出來前很難規定的事項。

作為網路爬蟲機器人的大本營的Google，自然對於將這些事務規範化極為上心，除了將對Internet Engineering Task Force提出將REP協議標準化的提案之外，還加碼把自家Googlebot機器人的REP解析器轉為開放源碼，以讓標準有一個架構的基礎。當然，這並不是說Google的版本會原封不動地成為新標準，在制定的過程中勢必會有不同利益的折衝，但最終只要能有個標準出來，應該是能降低網站的維護成本及來自機器爬蟲的流量，對網站管理者來說怎樣都是個好消息吧。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 十輪網 的精彩文章:

※據指Apple要卯足全力推動News＋服務
※AWS Control Tower助用戶快速設置多賬戶環境

TAG:十輪網 |