用於檢測未知惡意軟體的深度學習方法
AiTechYun
編輯:nanan
目前,所有主要的反病毒供應商都在朝著機器學習方法靠攏,以求跟上不斷變化的危險環境。這是個好消息。然而,隨著每天有超過100萬個新的惡意軟體被釋放,傳統的機器學習方法可能無法勝任這項任務。現在一家名為Deep Instinct的公司希望通過深度學習,將惡意軟體檢測提升到一個新的水平。
在猶如「貓捉老鼠」的網路安全中,網路犯罪分子不斷試圖將其放到我們身上。如果他們可以通過我們的端點檢測系統竊取新的惡意代碼,他們就可以獲得經濟回報。
但事情是這樣的:網路犯罪分子每次都不需要新的代碼,他們可以使用一個舊的惡意軟體,並進行一些細微的調整,讓其可以通過安全軟體檢測。或者他們可以創建一個新的漏洞,這是WannaCry在5月份的攻擊中所使用的技術,這個漏洞影響了全球35萬個系統。
跟蹤漏洞和黑客編寫的漏洞代碼是網路安全行業研究人員面臨的一項重大任務。在一開始,基於簽名的方法尋找代碼片段,控制了惡意軟體的檢測。當網路犯罪分子意識到這種做法時,安全公司被迫採用更複雜的基於規則的方法。但壞人也很聰明。
惡意軟體檢測的下一個發展涉及機器學習。Symantec利用其「高級機器學習」(AML)來學習識別惡意軟體的屬性,而McAfee則傾向於採用「人機合作」方法來加強惡意軟體的檢測。Kaspersky Labs使用機器學習來加強軟體中的惡意軟體檢測工作已經大約10年的時間了。
然而,新發布的惡意軟體的數量仍在飆升。2015年,Symantec表示,它在去年發現了3.17億條新的惡意軟體,即每天有近100萬件。根據Dark Reading的一篇報道,Kaspersky Labs在2016年表示,它每天檢測大約32.3萬個新的惡意軟體文件,高於2011年的7萬件。在最近的McAfee Labs威脅報告中,該供應商表示,其檢測到的新樣品數量為5760萬份,約每天64萬份。
每天產生的新惡意軟體樣本的確切數量並不重要。對於民眾來說,重要的是有辦法在壞人有機會對他們造成傷害之前檢測到惡意軟體。
深入
三年前,包括Guy Caspi和Eli David在內的一對以色列網路安全研究人員創立了Deep Instinct公司,並大膽計劃利用新興的深度學習技術來提高惡意軟體檢測能力。他們的想法是建立一個系統,可以在新的惡意軟體正在生成時以驚人的速度擴展。
Deep Instinct公司產品管理總監Yaniv Shechtman表示,與傳統機器學習相比,深度學習的可擴展性優勢非常適合這項工作。
他說:「如果你每天都看數以億計的文件,而且你需要處理這些數據,以深刻理解其是什麼,如果它需要高度精確,那麼傳統的機器學習框架就不能滿足這一要求。」
從零開始開發Deep Instinct的深度學習框架,我們用了兩年多的時間。Shechtman表示:「我們沒有使用TensorFlow Caffe或谷歌、Facebook或百度提供的任何第三方深度學習庫。」「我們從零開始開發了自己的學習庫,因為利用網路安全的深度學習遠比用它進行語音識別或圖像處理,甚至是自動駕駛汽車要複雜的多。」
在構建深度學習網路安全框架的過程中,獲取訓練數據並進行標記是最大的挑戰。訓練數據來自於公共存儲庫、第三方供應商,甚至是黑暗Web,它們必須被敲成類似的大小,以使神經工作能夠正確地處理它們。當文件大小遍布地圖時,這是一個挑戰,從50KB的良性樣本到100MB的惡意軟體樣本(幸運的是,數據科學家不需要提取特徵,因為這部分是由神經網路自動處理的)。
Schectman說:「這是我們在公司頭兩年面臨的挑戰,」「但是,不僅開發框架是挑戰,而且如何訓練它同樣是挑戰。」
該公司發現,通過使用標準的基於CPU的伺服器,訓練他們的「深度大腦」(他們稱之為深度學習引擎)可以接受的樣本數量最多需要兩個月的時間。因此,該公司與英偉達取得了聯繫,並建立了自己的GPU集群。結果,該公司將訓練時間降低到了48小時。
現實世界的影響
該公司大約在6個月前開始銷售其產品,如今,該公司的軟體為20多名客戶提供了大約7萬個終端的保護。這些客戶的矛頭很尖,就像一個微小的Windows軟體,重量在20MB到30MB之間。
這款軟體利用從深度學習訓練中收集到的信息,對新文件進行干擾。該軟體在PC的CPU上受到了1%的攻擊,並為文件訪問請求增加了大約20到30毫秒的延遲時間,這還不足以引起真正的注意。
該公司聲稱,其深度學習方法比使用傳統機器學習方法的競爭對手表現得更好。該公司表示,其威脅檢測的準確性超過98%,而競爭對手的檢測精度低於62.5%。它說,在一個有10萬個文件的數據集上,它的誤報率小於0.01%;相對而言,其競爭對手的誤報率為2.5%-5%之間。
由於Deep Instinct的框架採用了深度學習技術來識別惡意軟體,它基於大量類似於之前的惡意軟體樣本,該系統相當獨立,只需每6到8個月重新訓練一次。這意味著它的端點保護幾乎總是最新的,需要每年更新一次或兩次,而機器學習的競爭對手必須每天檢查更新。
Schectman表示,這種方法使得Deep Instinct的軟體代理能夠檢測到WannaCry和NotPetya cryptoworm,而以前從未檢測到。他說:「他們被一個比實際襲擊早了一年的深部大腦發現。」當然,那時我們已經有了新的版本。但是,如果你觀察一段時間內的準確率,那麼,你就會發現我們會比其他人更準確,即使是在一年前接受過訓練。
英偉達的這一積極成果並沒有引起人們的注意,它將Deep Instinct評為「最具顛覆性的創業公司」。英偉達去年還參與了由NCTP牽頭的Deep Instinct的3200萬美元B輪融資。
隨著惡意軟體的數量和質量以及APT的不斷變化,網路安全公司將需要新的工具來保持最佳狀態。傳統的機器學習曾經被看作是保持領先於網路犯罪分子的必備工具,這可能還不夠,特別是當越來越多的證據表明網路犯罪分子正在使用機器學習時。
Schectman說:「黑客正在變得越來越複雜,需要一種新技術的發展,以跟上引入的新惡意軟體威脅的數量。我們的核心能力是檢測未知。今天的大部分攻擊都是未知的攻擊,這也是他們面臨的主要挑戰。」
※繼在中國開設AI中心兩個月後 Google這次又將一個重大研究項目轉向法國
TAG:ATYUN訂閱號 |