Google推動將網路爬蟲機器人規範標準化
網站用來告訴前來搜刮內容的爬蟲機器人什麼地方能去,什麼不能去的「Robot Exclusion Protocol」(REP)協議雖然早在1994年就由荷蘭軟體工程師Martijn Koster提出,並由大部分的網站與機器人所遵守,但其實25年來它都不是一個真正的「標準」,因此在各家的解析器(Parser)在解譯時可能會有所偏差,而且對於許多特殊的狀況都沒有個明確的規範。
舉例來說,一般爬蟲機器人都是去網站的根目錄尋找robot.txt文件,來了解網站對於爬蟲機器人活動範圍與頻度的規範,但如果因為任何原因(例如伺服器停擺),使得原本找得到的robot.txt找不到了,這時候機器人應該視作無規範、還是照著最後一次讀取的robot.txt內容進行?又或者,robot.txt應該多久去審查一次?太頻繁的話,會增加伺服器無謂的負擔,不夠頻繁的話,新的配置可能要很久才會反應在爬蟲機器人上。這些都是在標準規範出來前很難規定的事項。
作為網路爬蟲機器人的大本營的Google,自然對於將這些事務規範化極為上心,除了將對Internet Engineering Task Force提出將REP協議標準化的提案之外,還加碼把自家Googlebot機器人的REP解析器轉為開放源碼,以讓標準有一個架構的基礎。當然,這並不是說Google的版本會原封不動地成為新標準,在制定的過程中勢必會有不同利益的折衝,但最終只要能有個標準出來,應該是能降低網站的維護成本及來自機器爬蟲的流量,對網站管理者來說怎樣都是個好消息吧。
※據指Apple要卯足全力推動News+服務
※AWS Control Tower助用戶快速設置多賬戶環境
TAG:十輪網 |