網路日誌的大數據分析可以感知安全？不看你就Out了

最新 07-27

作者 | 向永謙、李欣、滿建文

摘要

基於網路日誌的大數據分析感知可以從技術上有效通過網路安全應用進行安全事件發生前的跡象捕捉，從而進行預防與設置陷阱，對安全進行有效防護。

引言

大數據時代，萬物互聯，網路的安全訪問形勢日趨嚴峻，根據2016年國際電信聯盟（ITU）的數據統計，每天新增惡意軟體20000個，網路犯罪的受害者人數達到5.56億，直接凈損失達1100億美元。2017年5月12日的勒索病毒，據《華爾街日報》報道，矽谷網路風險建模公司Cyence的首席技術官George Ng稱，此次網路攻擊造成的全球電腦死機直接成本總計約80億美元（約合人民幣550億元），這些安全事件的背後除了人為的惡意攻擊外，也反應了網路安全應對策略及預測感知能力需要進一步提升。基於大數據分析的安全感知，尤其是基於網路設備日誌方面的實時分析、進行安全感知、提前預測可能發生的安全問題，具有很高可行性。

而有網路就會有網路設備，有網路設備就會產生設備日誌，這些日誌正在被浩瀚的信息流所蒙蔽，不能很好地發揮作用。如此龐大的廉價海量數據源，急切需要大數據技術來進行挖掘，一旦得以應用將對網路安全態勢的感知及有效防護產生極大的影響。本文正是著眼於大數據的數據挖掘、分析技術，利用網路日誌進行安全模式識別，陷阱（Trap）捕捉，提出安全感知的一種新思路。

安全威脅的分析

當前的網路安全的形勢嚴峻，威脅來源主要來自於通過網路設備的訪問、通過存儲設備進行的網路存儲、基於運算設備的網路協同運算等，而這些網路訪問的客戶端多以軟體應用方式，包括瀏覽器、傳統的使用網路的軟體、雲虛擬化類軟體、雲端應用等。

這些威脅多是利用病毒感染、黑客攻擊等呈現不同的形式，如非授權訪問，信息泄露和丟失，網路基礎設施傳輸過程中破壞的數據完整性，拒絕服務攻擊，進一步網路病毒的傳播。有的威脅在伺服器不停機擴容時支持熱插拔而接入介質感染，有的在複雜多樣的存儲要求中而暴露漏洞，有的在前端程序的 SQL/NoSQL注入中產生，而常規掃描無法完成海量數據處理，實時性上也不能達到即時報警，這些安全威脅一旦變成了真正的攻擊，則後面的任何偵測、採取的措施，都將成為被動的防禦而已，如果能從威脅存在時進行感知，提前進行分析、模式識別、預警，則在安全防護上更有意義。

按照Gartner的定義——「大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產」，它具有海量數據規模、快速數據流轉、多樣數據類型以及價值密度低四大特點。對於網路訪問過程中的日誌，應用傳統技術很難解決信息的多樣化、海量、快速增長帶來的實時分析難題，而大數據相關的Hadoop，Stream，Spark技術等正適合應用與日誌分析的諸多方面。

安全威脅的大數據感知

基於網路日誌，進行大數據分析感知，主要是基於網路日誌進行大數據技術應用，並採取模式識別分析感知，總體思路基於大數據的Hadoop及Flume對日誌類非結構化數據進行分類過濾，進行文本語義編碼、融合全息數據進行模式識別，進行分析結果可視化輸出，同時對於報警威脅類提前預測觸發相關保護措施。

網路日誌對於安全中正常的信息流來講屬於非結構化的雜亂數據，數據受限於設備本身的能力、應用的設置、存儲的限制等，基於前端計算在前端伺服器進行實時分析同時進行日誌的壓縮上傳，利用後端雲平台，進行文本語義編碼校對、安全模式查詢與分析，尤為適用於連續性的跟蹤或同類模式主題的安全信息流追蹤（數據量大、語義同質化比較高）。通過動態地調用不同的日誌語義分類演算法對非結構化數據進行分類，提高安全預測態勢的性能和效率，從而大大提高了安全模式判別的穩定性和可靠性。

考慮現有人工編碼分析技術分析速度慢，很難支持數據量較大的信息挖掘，現有的統計分析技術，對數據形式要求高，對日誌文本類行文數據分析效果差，無法結合語境對語義進行分析與快速查詢，且無法應對非結構化的日誌數據。當網路日誌數據量每天以10G、100G增長的時候，單機處理能力已經不能滿足需求。我們就需要增加多台伺服器，用計算機集群、大數據Hadoop技術來解決。Hadoop的出現，大幅度降低了海量數據處理的門檻， Hadoop非常適用於日誌分析。有了大數據環境後，經過的分類語義過濾後，結合MapReduce技術進行自動編碼，進行大數據Hadoop的Mapreduce變數定義示例如下：

Map過程 ——表示需要跟蹤的自動編碼開始

Reduce過程——自動編碼的各項每10分鐘、30分鐘（可自定義）總和

Map: ——獨立IP的訪問量數量

Reduce:

Map: ——Time: 用戶每小時訪問量的數量

Reduce:

Map: ——Source: 用戶來源地址的挖掘

Reduce:

Map: ——agent: 用戶的訪問設備或代理信息挖掘

Reduce:

基於以上但不局限於以上變數的定義，可以得出每個用戶在訪問期間的各個行為、特徵的不同自定義周期的總和，這塊總和可以基於通常網路訪問的情況設立規則、權重，並進行機器自學習，發現特徵異常值，立即觸發模式識別進行陷阱捕捉後，給予相關的系列反應。

大數據日誌分析系統架構如圖1所示。

圖1 大數據日誌分析系統架構

圖1中，左邊Application是日誌分析系統，右邊Hadoop的HDFS用來做日誌分析的文件存儲, MapReduce進行上面的特徵數值計算。主要思路如下：

日誌是由設備系統、網路系統或業務系統產生的，我們可以設置網路伺服器每天產生一個新的目錄，目錄下面會產生多個日誌文件，每個日誌文件64M。

設置系統定時CRON或者對於實時性高的訪問日誌使用Stream技術，向HDFS導入的日誌文件。

完成增量導入後，啟動MapReduce程序，提取並計算統計特徵指標。

完成MR計算或Spark實時計算後，從HDFS導出統計指標結果數據到資料庫的同時進行相應的模式識別如果發現威脅存在，則觸發報警。

其中基於大數據的網路日誌的模式分類分析過程的主要示意如圖2所示。

圖2 模式分類分析過程

（1）主伺服器對訓練或者需要模式識別分類的日誌集進行劃分，分類包括安全等級、設備屬性、IP地址、頻度等類別，比如同一IP，在某個標準下快速連續訪問將為模式分類提供很好的組合識別。

（2）主伺服器選擇本次分類所採用的具體日誌分析演算法，把該演算法命令傳遞給抽象演算法程序，此演算法主要是下面提到的路徑分析、協同過濾分析等演算法，具體見下文。

（3）主伺服器等待接收各個處理器發送模式分類完成標識符，將分類識別後的運算結果最終通過模糊演算法進行標識。

（4）完成標識後，各單獨伺服器獲取來自主伺服器分配的日誌數據集，進行進一步計算識別。

（5）對獲取的日誌數據集進行預處理，把數據集劃分成Mapreduce形式如上面的的格式。

（6）創建具體演算法的一個實例，調用該演算法實現的map函數、reduce函數對數據集進行處理。對於需要調用實時計算的，利用Hadoop stream及Spark進行實時數據傳輸及計算。

（7）處理完成後對處理後的數據進行模式的預判、概率值統計等並結合機器自學習機制進行自學習訓練，最後把處理結果存儲在本地文件系統。

（8）發送執行完成標識符到主伺服器。

（9）主伺服器接收各個伺服器的完成標識符，如果所有的伺服器都發送了標識符，則進行下一步處理，若還有未完成的處理器，則主伺服器繼續等待。

（10）主伺服器到各個處理器搜集處理後的結果集，然後再在本地系統對結果集進行一次類別預判，得到最終的模式識別結果，把識別結果存儲到資料庫伺服器的同時提供專家干預的機制，專家可以通過設置權重、打分來提升機器學習中各個參數的精準性。

上面談到的過程中，基於網路日誌進行大數據分析具體的涉及的分析演算法，主要應用如下：

3.1　路徑分析

日誌分析中，我們將應用路徑分析的演算法來跟蹤用戶的訪問行為，這個路徑可以被用於判定在一個網路訪問中最頻繁訪問的路徑，還有一些其它的有關路徑的信息通過關鍵路徑分析中可以得出。路徑分析可以用來確定該用戶的頻繁訪問路徑, 從而調整和優化安全訪問的策略, 使得用戶訪問在策略下更加規範, 還可以根據用戶典型的操作訪問模式用於陷阱捕捉和有針對性的安全報警，同時融入群體特徵下的路徑分析，對於同一類或同一工作職責的相關人，訪問路徑的差異性也體現了不同的安全動機。例如：80%的SQL注入都是通過網頁的腳本進行的，這些腳本會在網路訪問日誌中去直接訪問資料庫，這種跳過應用層面直接訪問的方式經過的必然路徑就是我們提前在訪問資料庫之間進行捕捉的關鍵路徑，在實踐中很有效果。而將海量路徑混合在一起進行大數據分析，可以發現趨勢的共性和特殊性，為共性路徑及特殊路徑提供了很強的預測能力。

3.2　關聯規則分析

使用關聯規則的發現方法，可以從網路日誌的訪問事務中找到的相關性。關聯規則是尋找在同一個事件中出現的不同項的相關性，用數學模型來描述關聯規則發現的問題。在日誌分析中，利用的關聯規則初步思路如下：

設x=>y的蘊含式，其中x,y為屬性——值對集（或稱為項目集），且X∩Y空集。在資料庫中若S%的包含屬性——值對集X的事務也包含屬性——值集Y，則關聯規則X=>Y的置信度為C%，則C%在一定安全區間時，則說明安全訪問是在正常範圍內，越出此空間則觸發模式識別的相關流程。在關聯規則時，通過海量訪問信息的日誌進行無序規則關聯，最終識別出安全區間的大數據推薦區間，同時採用打分、權重的專家評估共同干預的方式，並加以機器學習，通過大數據對模型訓練逐步提升關聯規則的準確性。

3.3　序列模式

在有時間戳日誌的有序事務集中，序列模式的發現那些如「一些項跟隨另一個項」這樣的內部事務模式，能結合應用發現安全訪問數據中如「在某一段時間內，用戶導出數據A，接著導出數據B，爾後又導入數據C，即序列A→B→C出現的連續性」之類的信息。序列模式可以描述在給定的日誌訪問序列資料庫中，每個序列按照訪問日誌的時間排列的一組數據集，通過挖掘序列函數，返回該資料庫中高頻率出現的序列進行安全模式識別，這個模式基於時間戳，也可以基於設定的某種特殊序列，如訪問設備的先後順序，如果某個用戶跳過了某個設備直接訪問，則出現了安全問題，經試驗，這種模式在大數據安全分析中很有價值。

3.4　分類分析

日誌中利用大數據的分類規則可以給出識別一個特殊網路群體的公共屬性的描述，這種描述可以用於分類訪問者的屬性。分類包含的挖掘技術將找出一個項或事件是否屬於安全數據中某特定子集或類的規則。分類演算法可以採用決策樹方法、神經元網路、Bayesian分類等，最終分析出同一類群體、或者某個固定團體在網路訪問中的不同公共屬性。此分類規則是分層次的，不是同一層次的，試驗中，在不同層級運算不同的分類，最終基於大類、中類、小類得出分類的特殊標識符。

3.5　聚類分析

可以從網路日誌訪問信息數據中聚類出具有相似特性的訪問者。在網路日誌事務日誌中，聚類訪問者信息或數據項能夠將群體與其職責進行匹配，是基於大數據挖掘出安全事件中的內鬼模式。

日誌聚類分析將日誌數據集劃分為多個類，使得在同一類中的數據之間有較高的相似度，而在不同類中的數據差別儘可能大。在日誌聚類技術中，沒有預先定義好的類別和訓練樣本存在，所有日誌記錄都根據彼此相似程度來加以歸類。主要應用演算法k—means、DBSCAN，通過把具有相似特徵的訪問用戶或數據項歸類,在網路日誌管理中通過聚類具有相似操作行為的用戶，分析有2種：基於模糊理論的網路日誌頁面聚類演算法分析或群體聚類演算法的模糊聚類分析。比如客戶訪問情況可用access(Uj)表示（U代表用戶）。對於聚合分析的用戶訪問j項結果Suj，有Suj={(Ci，fSuj(Ci))|Ci∈C}，其中fSuj(Ci)→[0，1]是客戶Ci和URL(Uj)間的關聯度，C為當前訪問客戶，i為客戶的數量，hits(Ci)表示客戶Ci訪問access(Uj)的次數。利用Suj和模糊理論中的相似度度量Sfij定義建立模糊相似矩陣，再根據相似類[Xi]R的定義構造相似類，合併相似類中的公共元素得到的等價類即得出相關網路日誌的聚類情況，此種分析需要建立的模型稍有複雜，在此論文中因篇幅及題目所限不能詳述。

3.6　基於大數據統計挖掘

基於大數據統計挖掘方法是從網路日誌中抽取知識, 通過分析會話文件, 對瀏覽時間、瀏覽路徑等進行頻度、平均值等統計挖掘分析的同時，結果應用到機器自學習的相關參數中，可用於改進網路日誌的結構配置, 增強系統安全性, 提高網路日誌訪問的偵查性等。

3.7　協同過濾

利用大數據採用最近鄰技術，利用訪問用戶的歷史、常用的訪問路徑計算用戶不同訪問模式之間的距離，目標用戶對Trap的喜好程度也將形成黑客特點識別的一個特徵。

3.8　安全感知模式分析並進行Trap校驗

基於以上的分類模式挖掘、聚類模式挖掘、時間序列模式挖掘、序列模式挖掘、關聯規則等，對原始日誌數據進行進一步分析，找出用戶的網路訪問規律，即用戶的通常訪問模式及其他用戶的模式，並做可視化安全感知畫像，為安全的策略規劃及日誌進一步分析的決策提供具體依據。主要方法不僅要使用大數據Hadoop的HDFS對原始日誌進行存儲，Flume技術進行日誌的導入，Spark進行日誌的實時分析，還要結合傳統的基於SQL查詢分析，因為以前歷史數據的分析結果將在傳統資料庫mysql中保存，這樣畫像較為快速，或者用OLAP工具進行分析並給出可視化的結果輸出。對於威脅程度高的直接觸發報警模塊進行報警，並直接阻擋繼續訪問。

結合網路日誌，基於大數據的安全感知，可以在網路監聽程序中直接應用此感知結果作為監聽安全的必要手段，並由此設立陷阱（Trap），當發現用戶有黑客傾向時，引導用戶到Trap中，給予虛假文件的誘導，對其之前模式識別的結果進行校驗，一旦校驗成功，則說明此用戶是在進行網路安全的攻擊或者破壞，立即可以鎖定該用戶，同時為犯罪留下了證據！

結合網路日誌，基於大數據的安全感知，可以基於網關、防火牆等硬體設備進行感知，主要方法有2種，一種是基於設備的系統進行燒入感知程序，一種是在設備旁邊放置前端感測的防火牆伺服器，在此伺服器中進行安全感知，只有通過感知校驗後，才能進行後續訪問。一旦通過Trap校驗安全威脅，就會採取相關措施。

結合網路日誌，基於大數據的安全感知，可以基於主機審計代理程序進行應用結合，審計代理結合安全感知發現的用戶訪問長期的模式，更有助於對用戶的安全行為作出更進一步的審計。

基於大數據安全感知的有效保護

有了結合網路日誌的大數據的安全感知，如何做好有效保護，在此論文中本人也做一點展望：

在隱私保護意識日益增強的時代，除了對關鍵數據進行存儲安全和標準化外，可以基於大數據安全感知把用戶數據採集到信任區域，對用戶數據進行預處理和整合併對用戶隱私進行保護轉換如加入隨機化演算法、添加噪點，這樣只有經過正常的程序訪問才能讀取正常的數據並正常顯示出來，如果用戶企圖竊取數據，通過日誌就可發現其路徑及關聯規則的異常的同時，對於其取得的噪點數據及隨機化數據直接Trap捕捉，用戶即使獲得所謂「數據」，也是一些虛假數據。

結合網路日誌的大數據的安全感知，對基於安全審計進行有效保護給予了支撐，可以通過大數據安全感知建立統一審計分析中心用於分析用戶群體安全模式審計、預警分析中心用於安全審計策略的預警、基於安全感知調整策略管理中心，分析結果的數據審計等，將極大保護網路訪問的安全。

結語

基於以上大數據分析的安全感知的思路及部分在實踐中的應用，基於網路日誌進行大數據分析的安全感知具有先進性，從感知過程到處理可操作性強，基於陷阱捕捉Trap的模式進行反模式校驗及有效預防保護，在系統上可以上下連貫，形成大數據安全感知的天羅地網。

作者簡介：

向永謙（1962－），男，湖北武漢人，高級工程師，碩士，現任62101部隊信息中心網路室主任，研究方向是網路與網路安全。

李　欣（1983-），男，湖北武漢人，工程師，碩士，現任62101部隊信息中心參謀，研究方向是信息系統與安全。

滿建文（1986-），男，山東棗莊人，高級技師，碩士，現任62101部隊信息中心管理員，研究方向是網路與網路安全。

? end ?

摘自《自動化博覽》2018年6月刊

如需合作或諮詢，請聯繫工業安全產業聯盟小秘書微信號：ICSISIA20140417

掃我掃我，等你哦~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 工業安全產業聯盟 的精彩文章:

TAG:工業安全產業聯盟 |