當前位置:
首頁 > 科技 > 「無形」戰爭:爬蟲技術是武器,你的手機是一名不知情的士兵

「無形」戰爭:爬蟲技術是武器,你的手機是一名不知情的士兵

編者按:在互聯網的世界中,尤其是零售領域,一直都在經歷著一場無形的數據戰爭,它們的武器是爬蟲技術,我們每一個參與者,可能就是一名不知情的士兵。日前,《連線》雜誌發表了一篇文章,詳細介紹了這一現象。

許多公司正在網上發動一場無形的數據戰爭。你的手機可能是一名不知情的士兵。

在零售領域,從亞馬遜、沃爾瑪到小型創業公司的都想知道競爭對手收取的費用是多少。基於實體店的零售商可以派人——有時被稱為「神秘購物者」,假裝去競爭對手的商店購物,然後記下價格。

在線上,雖然沒必要把人送到其他地方,但是一個大型零售商可以銷售數百萬種產品。所以,讓人瀏覽每一種商品並手動調整價格是不可行的。相反,這些公司使用軟體掃描競爭對手的網站並收集價格,這一過程被稱為「爬蟲」(scraping)。基於此,公司可以調整自己商品的價格。

零售價格優化公司Competera的首席執行官亞歷山大·高爾金(Alexandr Galkin)說,亞馬遜和沃爾瑪等公司有專門的內部團隊負責收集數據。其他公司則會轉向像它們這樣的公司獲取服務。Competera從網上搜集從鞋類零售商 Nine West 到工業裝備商 Deelat等公司的價格數據,並使用機器學習演算法幫助其客戶決定不同產品的價格。

亞馬遜沒有回答這些行為是否會影響其他網站的問題。但是根據布拉德·斯通的著作《萬貨商店》(The Everything Store),亞馬遜在2010年收購的Diapers.com的創始人指責亞馬遜使用這種機器人來自動調整價格。

爬蟲聽起來可能很邪惡,但這是網路運作的一部分。谷歌和必應(Bing)抓取網頁為它們的搜索引擎編製索引。學者和記者使用爬蟲軟體收集數據。Competera 包括宏碁歐洲和松下在內的一些的客戶,也會使用該公司的「品牌情報」服務來查看零售商對其產品收取的費用,以確保它們遵守定價協議。

對於零售商來說,爬蟲可能是雙向的,這是事情變得有趣的地方。零售商不僅想看看它們的競爭對手在做什麼,也想阻止競爭對手窺探它們;零售商也希望保護知識產權,如產品照片和描述,這些照片和描述可以被其他公司爬去並重新使用。Akamai Technologies網路安全副總裁喬希·沙烏爾(Josh Shaul)說,許多公司都會部署防禦措施來反爬蟲。一種技術是:向真實的人顯示不同的價格,而不是向機器人顯示不同的價格。有些網站可能會對收集數據的機器人將價格顯示為天文數字或零。

這種防禦為新的犯罪創造了機會。一家名為Luminati的公司幫助客戶,包括Competera,通常都會偽裝機器人以避免被發現。其中有一項服務,可以使機器人看起來像是來自智能手機的訪問。

Luminati的服務像是一個殭屍網路,一個運行惡意軟體的計算機網路,黑客用它來發動攻擊。 然而,Luminati 並沒有秘密地接管設備,而是誘使設備所有者接受它的軟體和另一個應用程序。 比如,從 Beka 下載 MP3 Cutter 的安卓用戶可以選擇:瀏覽廣告或允許應用程序使用「你設備的一些資源(WiFi 和非常有限的蜂窩數據)。」如果你同意讓這個應用程序使用你的資源,Luminati 會每天使用你的手機幾秒鐘,當它閑置的時候可以路由客戶機器人的請求,並嚮應用製造商支付費用。 Beka 沒有回應記者的置評請求。

正在進行的機器人和滑鼠之戰提出了一個問題:你如何檢測一個機器人?這很棘手。有時候,機器人實際上會告訴它們正在訪問的網站它們是機器人。當一個軟體訪問web伺服器時,它會發送一點信息以及它對頁面的請求。傳統瀏覽器宣稱自己是谷歌Chrome、微軟Edge或其他瀏覽器。機器人可以用這個過程告訴伺服器它們是機器人。但是它們也可以撒謊。檢測機器人的一種技術是訪問者訪問網站的頻率。如果訪問者每分鐘提出數百個請求,就很有可能是機器人。另一種常見的做法是查看訪問者的互聯網協議地址。例如,如果它來自雲計算服務,這暗示它可能是機器人,而不是普通的互聯網用戶。

沙烏爾說,偽裝機器人流量之類的技術使得依賴互聯網地址「幾乎毫無用處」。 Captchas可以提供幫助,但是它們會給合法用戶帶來不便。 所以 Akamai 正在嘗試一些不同的東西。 它不僅僅尋找機器人的共同行為,也在尋找人類的共同行為,並讓這些用戶通過。

當你點擊手機上的一個按鈕時,你的手機就會輕輕的移動。手機的加速度計和陀螺儀可以檢測到這種移動,並發送到Akamai的伺服器。微小移動數據的存在是證明用戶是人類的線索,它的缺失則是用戶可能是機器人的線索。

Luminati的首席執行官奧弗·維倫斯基(Ofer Vilenski)表示,該公司還沒有提供一個能解決這個問題的方法,因為這是一個相對不常見的做法。 但是沙烏爾認為,機器人製造商們找到應對方式只是時間問題。 然後就是新一輪創新的時候了。 互聯網機器人軍備競賽也是如此。


好機器人和壞機器人

對於Akamai和其他試圖管理機器人相關流量的公司來說,一個巨大挑戰是需要允許一些但不是所有的機器人來抓取網站上的數據。如果網站完全屏蔽了機器人,它們就不會出現在搜索結果中。零售商通常也希望他們的商品和價格出現在價格比較網站上,比如谷歌購物和Price Grabber 。

「真的有很多不同的場景,爬蟲在互聯網上被用於好的,壞的,或者在中間地帶的某個地方,」沙烏爾說。 「我們在Akamai有一大批客戶來幫助我們,處理機器人而不是人類訪問它們網站的整體問題。」

一些公司也會爬自己的網站。安德魯·福格(Andrew Fogg)是一家名為Import.io的公司的聯合創始人,該公司提供基於網路的工具來收集數據。福格說,io的一個客戶是一家大型零售商,有兩個庫存系統,一個用於倉庫操作,一個用於電子商務網站。但是這兩個系統經常不同步。因此,該公司需要爬自己的網站,來尋找差異。該公司可以更緊密地整合其資料庫,至少在短期內,使用爬蟲來收集數據更具成本效益。

其他的爬蟲則運用於灰色地帶。沙烏爾以航空業為例。旅遊價格比較網站可以給航空公司帶來業務,航空公司希望它們的航班顯示在這些網站的搜索結果中。但是許多航空公司依靠像Amadeus IT和Sabre這樣的外部公司來管理它們的預訂系統。當你通過這些航空公司查詢航班信息時,航空公司有時必須向訂票系統付費。如果大量機器人不斷巡檢航空公司各個航班的座位和價格信息,這些費用就會增加。

沙烏爾說,Akamai通過展示機器人緩存的定價信息幫助一些航空公司客戶解決了這個問題,這樣航空公司就不會在機器人每次檢查價格和可用性時都詢問外部公司。機器人不會得到最新的信息,但是他們會得到合理的新數據,而不會給航空公司帶來太多的成本。

然而,其他流量顯然是有問題的,例如分散式拒絕服務( DDoS )攻擊,其目的是通過向網站灌輸流量來攻擊一個網站。例如,一位發言人說,亞馬遜並沒有完全阻止機器人,包括價格爬蟲。但是該公司確實「在需要的時候優先考慮人類而不是機器人,以確保我們提供給顧客更好的亞馬遜購物體驗。」

福格說Import.io並沒有被阻止太多。該公司試圖成為一個「好公民」,防止其軟體過於頻繁地訪問伺服器或使用大量資源。

維倫斯基說, Luminati 的客戶有充分的理由假裝成不是機器人。例如, 一些出版商希望確保廣告商向網站的用戶展示的廣告,和它們向出版商展示的廣告一樣。

儘管如此,該公司的商業模式在2015年引起了人們的關注,當時其姊妹公司 Hola VPN 的一項類似服務被用來對8chan網站發起 DDoS 攻擊。 本月早些時候,Hola VPN 的 Chrome 擴展被指責用於竊取加密貨幣服務 MyEtherWallet 用戶的密碼。 在一篇博客文章中,Hola VPN 稱其谷歌 Chrome 商店賬戶已經被侵入,攻擊者在擴展中添加了惡意軟體。 維倫斯基說,公司會仔細審查客戶,包括用視頻電話和一些步驟來驗證潛在客戶的身份。 他拒絕就Luminati服務的惡意用途發表評論。 不管有沒有爭議, 維倫斯基說,公司的業務在過去的一年裡增長了三倍。

編譯組出品。編輯:郝鵬程


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 36氪 的精彩文章:

中興今晨全面恢復全球業務;姜文《邪不壓正》首日上映獲票房冠軍;中國移動支付用戶規模約8.9億
可口可樂不甘心只當肥宅快樂水

TAG:36氪 |