當前位置:
首頁 > 最新 > 網路業務流識別研究綜述

網路業務流識別研究綜述

網路業務流識別研究綜述

宋龍高 朱從喜

華信諮詢設計研究院有限公司 浙江省杭州市310014

摘要:21世紀以來隨著網路技術的發展和互聯網的普及,互聯網極大的便利了人們的生產生活,但是互聯網安全形勢更加嚴峻。越來越多的人開始使用智能手機,移動終端暴露安全風險隱患,根據統計發現有26.7%的賬戶被盜、25.9%的密碼被盜,用戶密碼、賬號的盜用導致用戶隱私信息的泄露。雖然我國互聯網發展速度較快,但是網路安全性較差。國家需要加強網路安全監管,網民也要提高防範意識。互聯網的蓬勃發展出現了多種多樣的網路運用功能,但與此同時也爆發嚴重的安全危機。分類和識別互聯網流量能夠營造安全可信的互聯網環境,保證各項網路服務功能可以正常發揮作用。

關鍵詞:網路業務流;文獻研究;網路技術

一、網路流量分類和識別的意義

1.便於網路管理

網路管理員能夠通過網路流量的分類和識別,了解到當前網路的運行狀況,及時進行設備的搶修和擁塞鏈路的疏通。同時可以幫助管理員明確當前的網路結構,根據網路流量的分析結果進行網路結構的科學優化和補足設計,防止出現掃描式的修補和投資。

2.便於安全檢測

網路流量能夠察覺到各種病毒信息,受到不同病毒信息影響時網路流量會呈現出不同的變化趨勢,因此分類和識別網路流量能夠分析不同的病毒信息,如木馬、殭屍[5]、分散式拒接服務攻擊[1]等等。而且網路流量的識別和分類,能夠讓網路提供商加強網路安全的監管力度,保證用戶的個人隱私。

3.合理配置流量工程

雖然當前的網路應用較多,但是在眾多網路應用中,少部分應用佔據大多數流量,甚至會影響內存導致其他網路應用無法正常發揮功能。ISP為了實現網路流量的合理分配,根據不同用戶的需求提供針對性的網路服務。通過網路流量的識別和分類可以了解不同應用的實際運用情況,了解網路應用的未來發展狀況的發展潛力,採用預期性的路由政策,保證網路流量資源的合理配置。

二、網路流量分類和識別發展現狀

網路流量的分配和識別,能夠了解當前網路業務的開展狀況,進行網路結構的科學優化和補足設計,及時進行設備搶修和擁塞鏈路的疏通,提高服務質量等。如今越來越多的學者專家開始進行網路業務流精確識別和分類研究,這是當前的熱門研究方向,目前在眾多學者專家的努力下取得了驕人的成績。當前業界內權威的方法有四種,分別為:主機行為法、埠分析法、深度包檢測(DPI)流識別法以及流統計特徵的識別方法。

早期互聯網地址指派機構(InternetAssignedNumbersAuthority, IANA)頒布了埠映射表,成為指導人們識別和分類網路業務流的準則,可以進行網路業務流的分類。操作基礎是SYN包或TCP,根據埠號確定網路業務流,這是較為基礎和簡單的操作方法 ,也是當時業界內使用較多的方法。但是隨著新技術的發展,這種原理簡單、操作簡便的識別方法,已經不能滿足當前的社會需求,而且弊端也逐漸顯露,P2P的應用也讓它逐漸被時代淘汰。臨時埠無法得知動態埠號信息和IANA信息。很多P2P應用是基於動態埠或隱藏埠,因此防火牆難以實現有效的阻隔,當前的互聯網環境下這種分類方法已經逐漸喪失競爭優勢。

三、網路流量分類和識別的國內外研究綜述

二十一世紀初Moore等人通過IANA列表信息確定埠的分類標準,實踐後發現獲取的分類結果擁有低於七成的準確率。Williamson等人通過實證測試了解埠號流量的識別情況,發現近6成的流量無法進行有效識別。

在當前的互聯網環境下,埠號網路流識別方法已經逐漸喪失競爭優勢,為了滿足當前的流量識別需求,眾多學者專家和網路工作者希望能夠研發出更加精準的識別方法,能夠提高網路流量分類的準確率,由此誕生了基於深度包檢測(Deep Packet Inspection,DPI)的網路流識別分類方法 。Sen等人發現該方法的確能夠改善以往網路流量分類準確率不足的情況。Papagiannaki等在該技術的基礎上結合埠號後,能夠識別69%的網路業務測試流,能夠實現近百分之百的分類流量識別率,雖然基於深度包測試的方法能夠彌補以往測試方法的不足,但是本身並不是完美無缺的:如果網路流數據包超出負荷,處理器雖然能夠維持運轉但是內存消耗量巨大,容易造成硬體設備的損壞;而且移動寬頻的拓寬,需要處理和解析的數據流量越來越多,很多重要數據資料無法保存,會影響顧客的使用體驗;加密處理雖然能夠保障通信數據信息的隱秘性,但是也會降低網路業務流分類的效率和準確度。

不管是基於埠號還是DPI,這些分類識別方法都會泄露隱私信息和違反國家法律規定,而且難以對動態加密信息進行識別分類。而基於主機行為的方法,既不需要埠號,也不需要獲取數據包的字元信息,但是也可以進行網路流的分類和識別。Karagiannis等人在研究P2P流量的識別時,發現基於P2P流量額連接模式明顯優於深度包檢測方法,能夠實現近99%的P2P流量識別。之後Karagiannis等人在以往研究成果的基礎上,指出基於主機行為的識別分類方法具有明顯的優勢,不僅能夠識別較多的實驗數據流量,而且準確率高。可是該種方法的識別分類能力較差,如果首層加密後就會切斷與其他域的關聯,該種方法也無法正常發揮功能。

上述介紹的方法主要有各自的優缺點,學者專家在總結三種方法的優缺點後創造出更為科學有效的方法——基於機器學習的流統計方法,它不僅將以上方法的優點結合,而且能夠改善上述方法的不足之處,受到越來越多學者專家的重視和推崇,應用範圍越來越廣。目前分類方法分為無監督學習和有監督學習兩種。Mcgregor等人將數據包內存、網路流量時間等作為分類標準。Zander等人結合SFS和貝葉斯分類方法,選出有效的特徵集後可以自發分類數據流。Erman等人在研究網路流的分類時,將平均包內存、時間和間隔作為WeB、FTP的分類標準。Murthy是決策樹概念的首創人,Corinna Cortes等人是向量機(support vector machine,SVM)分類方法的首批擁護者。Zhu Li等人選取9個特徵作為流量分類指標,在SVM方法的幫助下發現該種分類方法的準確率較高。Auld等人在研究網路流時,結合神經網路分類標準獲得246個特徵數據,網路數據流分類識別結果的準確率較高。Williams等人在對比不同的分類方法後,指明每種監督學習分類方法的優勢,其中比較典型的就是C4.5決策樹,它不僅能在較短時間內獲得分類結果,而且準確率較高,可是無法和其他演算法拉開差距,與其他演算法也沒有本質差別。王宇等人確定了C4.5決策樹演算法的適用範圍,認為一般複雜情況的網路流可以應用該方法,而且能夠保持較高的準確率。徐鵬等人在研究C4.5隨機決策樹演算法時,通過實踐結果證明它的高效性和準確性。

四、小結

無論是基於深度包檢測、基於埠還是基於主機行為,這些網路業務流識別和分類方法都有各自的缺點。二十一世紀以來互聯網技術的發展,互聯網環境複雜多變,因此這些方法都無法滿足當前網路業務流的分類需求。相較於上述三種方法而言,基於流統計特徵的網路流量分類方法能夠較好的滿足數據流的分類需求,不僅速度快而且準確率高,可是該種方法也不是完美無缺的,需要解決測試樣本敏感的問題,這也需要眾多的學者專家和研究者們不斷努力,不斷進行方法的改進和完善,從而滿足當前互聯網環境下網路流分類識別的新要求。

華信諮詢設計研究院有限公司,最迅捷感知信息化建設、運營價值鏈中不斷變化的需求,提供全國範圍內的工程諮詢、設計、系統集成、EPC總包、代建、招標代理等服務。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |