當前位置:
首頁 > 知識 > 日誌數據分析關乎企業風險管控

日誌數據分析關乎企業風險管控

近日,一篇《估值175億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城》的自媒體文章,引起業界高度關注。文章直指「馬蜂窩」數據造假,稱馬蜂窩從其他平台抄襲搬運的點評,佔馬蜂窩官網總點評數的85%。作為一家風頭正盛的旅遊網站,馬蜂窩對此表示不服,把當事方(深圳市乎睿數據有限公司及自媒體文章作者丁子荃)告上了法庭。

真相到底是什麼,局外人可能沒辦法準確判斷。但是,從技術角度來看,這次「馬蜂窩被捅」事件反應出幾個值得爭議的熱點。

日誌數據分析關乎企業風險管控

第一,對於「爬蟲工具」的使用問題。隨著大數據的興起,有越來越多的企業和個人意識到結構化、非結構化數據的重要性。如何採集及整理這些數據,進一步挖掘商業價值?於是,爬蟲軟體工具開始盛行。我們隨便一搜,什麼八爪魚、集搜客、熊貓採集等等,一抓一大把。這些工具軟體的賣點是簡單、易用,即使是不懂代碼的業務人員,也能使用。但是,這些軟體是否能隨便在市面上售賣?如果可以買賣,是不是要約束下對方的使用範圍?深圳市乎睿數據有限公司,這次捅「馬蜂窩」的工具,也是藉助「機器人」來完成。

第二、隨便爬對方的數據,是否構成侵權。很多互聯網公司創業,基本沒有自己的數據,只好從其他平台,甚至是競爭對手的平台「爬數據」,這已成行業潛規則。這樣的「潛規則」,是否合法?

第三、作為受害方,我們如何通過日誌數據分析控制未知風險。不管怎麼說,「數據造假」給「馬蜂窩」帶來了大量的負面效果。多年積累起來的用戶形象,毀於一旦。如果說,馬蜂窩確有其實,那就需要從道德和法律層面綜合考量。如果這次事件是有人故意找茬,我們要思考如何通過技術手段保護自己。爬蟲、撞庫、黑客攻擊……作為互聯網人,這些技術我們早已耳熟能詳。但是,如果被別有用心的人利用,後果不堪想像。

什麼是爬蟲?爬蟲本身就是網路機器人,是一種能夠自動在Web上根據某種策略進行遠程數據搜索與獲取的程序,也被稱為網路蜘蛛或網路爬蟲。百度、谷歌等搜索引擎,都是藉助這一技術進行信息搜集。但是,不友好的自動訪問會帶來許多問題,除了涉及商業機密,還會佔據平台帶寬,影響正常用戶的訪問。

所以,對於管理人員來說,有必要建立一個已知網路機器人的資料庫。資料庫欄位包括網路機器人的標識agent和網路機器人所在的伺服器IP地址,然後通過檢測訪問者的IP地址來進行識別。對於未知的網路機器人,雖然我們的監測能力有限,但是可以從日誌中挖掘出每天Web端的訪問情況,建立有效的風險模型,就有可能識別出可疑IP。如果日誌記錄中發現異常IP,完全可以通過技術手段屏蔽掉。Web日誌包含的信息量雖然不多,但是從日誌欄位值中可以發現異常用戶操作行為。

所以,基於大數據的日誌數據分析變得越來越重要,它不只滿足動態安全管理需要,也是運維人員進行風險管控的有力抓手。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

被SLC、MLC、TLC搞暈?一文了解所有快閃記憶體類型
Hadoop數據傳輸:如何將數據移入和移出Hadoop?

TAG:IT168企業級 |