利用機器學習檢測惡意活動
研究人員開始使用無監督機器學習演算法來對大量域名信息數據集進行分析,以發現新的威脅並進行攔截。一旦惡意域名開始活躍,機器學習演算法就可以快速識別出攻擊活動的惡意域名。
背景
比如在一類在線的惡意活動中使用了許多個域名,並持續了一段時間。這些活動一般利用像世界盃這類近期的熱點事件,域名一般模仿一些合法服務或合法域名,比如c0mpany.com就是模仿合法域名company.com。
2017年Equifax數據泄露後,Equifax就搭建了一個網站www.equifaxsecurity2017[.]com來幫助用戶確定其是否受影響。然後惡意攻擊者就註冊了上百個模仿該域名的惡意域名,比如www.equifaxsecurity3017[.]com。
辨別一個欺詐域名很容易,但一個惡意攻擊活動會創建上百個這樣的域名,因此問題的關鍵就是如何找出所有這些欺詐域名。雖然這些域名不同,但屬於同一攻擊活動的惡意域名也有一些共同點,比如IP子網、Autonomous System Number (ASN)、DNS Time-To-Live (TTL)、Whois等信息。
因此,研究人員提出一種基於相似性來從DNS流量和域名簇來提出屬性的系統。系統通過充實現有的方法,可以識別出屬於同一攻擊活動的域名。
圖1 基於機器學習方法從DNS流量識別出惡意域名的系統
方法
如圖1所示,研究人員的方法是將被動DNS(Passive DNS)記錄中出現的域名進行聚集。Passive DNS是一種記錄DNS查詢和響應流量的機制。記錄主要含有時間戳、查詢的域名、響應的IP地址等。出於隱私考慮,來自單個客戶端的Passive DNS記錄有很多的來源,常被用來理解網路流量。研究人員發現每天會有6TB的passive DNS記錄產生。研究人員將沒有在passive DNS記錄中的信息根據特徵將域名進行聚類,比如IP地址、BGP、Whois等。
因為這些數據目前是沒有標記的,因此研究人員選擇使用無監督機器學習方法。這些被分為同一組的域名共享一些特徵,但這些特徵是否是惡意的還不能確定。為了找到惡意的分組,需要用到攻擊活動中的seed域名。
Seed域名
Seed域名是分組中惡意域名的示例。有很多方法可以找到seed,本例中使用三種信息源來識別候選seed域名:Domain Registrations, Newly Seen Domains, Trending Topics。
· Domain Registrations
查看最近註冊的域名,找出有相似名的分組。如果攻擊活動使用的是最近的事件,就會有許多與該事件相關的域名註冊。研究人員檢查了已知的惡意域名的分組,結果放在seed域名列表中。最後根據檢測結果和第三方威脅情報來識別已知的惡意域名。許多惡意域名可能都沒有被報告國,但只需要一些例子就可以開始這一過程。
· Newly Seen Domains
還可以在passive DNS記錄中查找一些新出現的域名。這些域名可能註冊了很久,但最近才開始使用。研究人員通過找出有相似名的分組,然後從含有惡意域名的組中找出seed。
· Trending Topics
同時也要從社交媒體來搜索最新的熱點。如果有大的公眾事件發生,一般都會成為當天的社交媒體熱點。可以通過在Google或Twitter中交叉搜索熱點關鍵詞。然後找出具有類似域名的分組並檢查是否含有惡意域名。
惡意域名簇
在識別出seed域名的分組後,在passive DNS數據中搜索這些聚集的簇(如圖2)。含有seed域名比例較高的簇被認為是惡意的,而且簇中的所有域名都會被標記為惡意的。
圖2: 域名簇
結果
研究人員近期發現一個模仿check-box-with-money##[.]loan的惡意域名的釣魚活動。同時又許多類似的域名註冊,其中一天就又77個域名。其中17個出現在惡意軟體資料庫中,但還不足以加入seed group中。通過對passive DNS中的域名進行聚類分析,研究人員發現2個沒有從註冊信息中發現的域名。在該攻擊活動的前2周,研究人員共發現與該釣魚活動相關的333個域名。-
這333個域名中,247個未在主流的在線惡意軟體資料庫中出現過。在隨後的兩周內,這些域名中只有7%被標記。兩周後,還有240個域名沒有被標記為釣魚郵件。研究人員也檢查了兩個知名的攔截列表。第一天這些域名一個都沒有出現,在之後的兩周,只有80個域名添加進了攔截列表。
這一結果說明即使安全社區和公司發現和攔截了攻擊活動中的一些域名,仍然有很多域名突破了攔截列表,這也是攻擊者的最終目的。
結論
過去的2個月里,研究人員共發現與15個不同的攻擊活動相關的超過1000個活躍的域名。其中許多域名都沒有被主流的第三方服務提供商識別出來。利用機器學習方法檢測惡意域名的結果平均比在線惡意軟體資料庫早2.4天,比第一個主流的攔截列表早3.9天,比第二個主流的攔截列表早2.4天;最大檢測時間差比在線惡意軟體資料庫早46天,比第一個主流的攔截列表早15天,比第二個主流的攔截列表早32天。圖3是palo alto networks與其他第三方檢測出惡意域名的時比較圖。
圖3: 第三方檢測惡意域名的時間圖
※迫於壓力,特斯拉將進一步擴展「漏洞懸賞項目」
※千面萬化的Android特洛伊木馬GPlayed
TAG:嘶吼RoarTalk |