當前位置:
首頁 > 新聞 > Facebook反垃圾實踐:人工治理與機器演算法齊飛

Facebook反垃圾實踐:人工治理與機器演算法齊飛

2016年末,Facebook上的假新聞幫助特朗普勝選的消息,將這家社交網站推到一個尷尬的境地,迫使它上線一個「爭議(Disputed)標籤」功能,用來標記被認定為不準確的新聞。

作為一家面向全球的社交平台,Facebook當前月活躍用戶數達已達18.6億人,其中包含各個年齡階段的用戶,這些用戶每天都產生大量信息。為了保證用戶體驗,促進平台良性發展,Facebook通過技術手段和人工手段相結合的方式,針對內容本身和用戶帳號進行識別,來實現反垃圾信息的目標。垃圾信息在不斷變化,Facebook的反垃圾策略和技術系統也在不斷升級。

Facebook上的網路釣魚攻擊,2011年


Facebook反垃圾策略

制定反垃圾策略首先需要明確的是垃圾信息的定義。對於Facebook而言,無論惡意的廣告、病毒、網路釣魚,無聊/不受歡迎的騷擾,驚悚、惡作劇類的圖文、視頻,還是前文提到的虛假新聞,無論私信形式還是公開信息,都會影響網站的正常運營,可能是讓用戶不高興,可能是讓一些美國政治力量不高興,這些都屬於垃圾信息的範疇。

從網站上每秒鐘產生的海量信息中找出垃圾信息並實時過濾,這是最直接的辦法,然而根據Facebook的活躍用戶數,從需要的資源和效率來看,這種方法可能不是最優解,況且垃圾信息也會根據過濾規則不斷升級,因而

找出垃圾信息的難以改變的特徵

才是將其扼殺的最好依據,這正是Facebook反垃圾工作的核心。Facebook組建了Site Integrity團隊專門負責這項工作。

Facebook反垃圾的一個重要途徑,就是

識別和處理一些可疑帳號

。Facebook認為,泄漏的(被釣魚、中木馬等)、偽造的(馬甲帳號、垃圾帳號)以及濫用功能的(騷擾、營銷)帳號,產生垃圾信息的三大根源。

找到可疑帳號的一個方法,是通過

異常行為檢測

,比如一個人發的同樣類型評論非常多,所有評論里都包含一個相似鏈接,這就非常有問題。一般人不會在不同人的主頁上發表一樣的評論,這就是一種異常行為。Facebook網站上積累了大量的正常行為模式和異常行為模式,可以用於機器學習。

作為一個社交平台,Facebook還充分發揮了人的力量,

用戶舉報

在垃圾信息的識別中佔據了很重要的位置。用戶舉報也是縮短垃圾信息影響時間的一種方式 – 為了達成反垃圾策略的實時性、有效性,Facebook反垃圾系統的設計會採用各種機制來優化響應時間,並在策略制定時注意

保護規則難以被攻擊者破解


Immune系統:基於核心特徵的技術對抗

2011 年,Facebook 發表了一篇題為《FacebookImmune System》的論文,整體介紹了他們與垃圾信息之間的技術對抗。Immune系統的一個重要能力,是對垃圾信息的核心特徵的識別,包括能夠迅速識別新特徵,並支持在線加入新特徵、新模型以實現實時的反垃圾。

上圖為Facebook與垃圾信息的對抗流程,包括攻擊、檢測、防禦、變異四個環節,又可以分為攻擊者控制和防禦者控制兩大階段。在攻擊者控制階段,系統還沒有響應能力,攻擊者可以發布大量的垃圾信息,受攻擊對象都會受到垃圾信息的影響;在防禦者控制階段,垃圾信息才會受到控制。

Immune系統要做的,是盡量縮短攻擊者控制階段的時間,延長防禦者控制階段的時間。變異環節可能時間很短,Facebook要在對抗中做到快速響應。

實現快速響應有兩個關鍵點:其一,

所有的升級都是在線的

,分類器服務和代表最新攻擊的特徵數據的提供,都不能是通過線下或者需要重新啟動;其二,

要以攻擊者難以檢測和變更的特徵為目標

Facebook為Immune系統的設計歸納的設計原則如下:


· 快速檢測與響應;

· 包含能夠支持各種功能的可進化的介面;

· 聊天、消息、信息牆(wallposts)、公共討論和朋友請求等不同渠道之間的信號可以共享;

· 可以實時分類。

基於上述思想,Immune 系統設計架構圖如下:

Facebook Immune系統架構圖

Immune的主要組件包括:


?

分類器服務

:分類器服務是一類介面,它們與抽象分類器介面之間建立網路聯接。它們之間通過不同的機器學習演算法,使用標準的面向對象的方法來實現的。實現的演算法包括隨機森林、SVM、邏輯回歸、Boosting等。分類器服務始終在線,並且被設計為從不重新啟動。

?

特徵提取語言(FXL)

:FXL(FeatureExtraction Language)是用於表達特徵和規則的動態執行語言。FXL檢查特徵表達式,然後在線載入到分類器服務和特徵追蹤器中,無需重新啟動服務。

?

動態模型載入

:模型建立在特徵之上,而這些特徵都是基本的FXL表達式或其派生的表達式。同樣地,模型在線載入到分類器服務,分類器服務或特徵追蹤器無需重新啟動,並且許多分類器實現支持在線訓練。

?

策略引擎

:策略引擎將分類和特徵結合起來表達業務邏輯和業務策略,並評估分類器的性能。策略是布爾值,由FXL表達式觸發響應,在機器學習得到的分類和特徵數據提供者之上執行。響應是系統操作,包括多種類型,例如阻止操作、要求身份驗證質詢和禁用帳號等。

?

特徵迴路(Floops)

:分類在特徵提取期間生成各種信息和關聯,Floops接收這些數據,將其聚合,並將其作為特徵提供給分類器。Floops還包含用戶反饋、來自爬蟲程序的數據以及來自數據倉庫的查詢數據。


Sigma系統:編寫策略手段升級

Facebook的反垃圾技術也在不斷的對抗中迭代。Facebook用於垃圾信息過濾和清理的規則引擎演進為Sigma系統,部署於2000多台伺服器之上。該系統將規則和機器演算法相結合,判斷所有用戶的評論、鏈接、朋友請求等行為是否正常,日均處理信息數量達百億級。

機器學習的一端,樣本主要來自於用戶行為,Sigma根據歷史數據訓練模型,預測某個行為/信息是否有問題,將有問題的行為/信息攔截或者刪除。以朋友請求為例,Sigma有多重判斷依據:第一,如果某個帳號之前發送的朋友請求都被拒絕,那麼接下來他被拒絕的概率就非常高;第二,如果發出請求的帳號和請求的對象沒有任何共同好友,那麼請求不合理的概率也很高。策略也包含了處理方式,例如,對於非正常請求概率比較高的,讓發送請求方進行手機簡訊驗證,或者其他方式認證。

Facebook反垃圾規則引擎流程圖

Sigma系統中,用於編寫策略的語言,已經從之前的FXL切換為Haskell。Facebook認為,隨著策略的擴展和策略複雜度的增加,FXL已經不能很好地表達這些策略了- FXL缺乏合適的抽象,比如用戶定義的數據類型和模塊,並且基於解釋器(Interpreter)的實現,性能慢於公司的需求,因而Facebook需要性能和表達能力更為成熟的編程語言。而Haskell是純函數式強類型語言,能夠確保策略不會發生意外的相互影響,同時Haskell具有自動批處理和並發數據獲取、分鐘級推送代碼變更到生產環境(快速應用新策略)、性能和支持互動式開發(策略開發者能夠馬上看到結果)等優勢。

規則引擎升級的設計需求

使用Haskell以後,Sigma系統每秒能夠處理超過一百萬個請求。這對Facebook及時部署新的反垃圾策略應對新出現的惡意行為很重要。


人的力量

Facebook此前也投入了專門負責內容過濾的團隊,讓他們不間斷地監測新上傳的內容,及時刪除其中的一些垃圾信息,這些人主要來自外包公司。外界並不知道該團隊目前的規模,然而Facebook重視用戶舉報是確鑿的。通過舉報、刪除等反饋通道的建立,來縮短垃圾信息影響用戶的時間。同時,這些行為也會為機器學習提供新的樣本。

針對虛假新聞,Facebook已經推出工具,讓每位用戶都能便捷地給可疑內容打上「爭議」標籤,然後由真實性核查組織如Politifact、Snopes.com獨立審查這些消息,根據結果決定保留還是去除「爭議」標籤。然而這個流程稍顯冗長,給虛假新聞留下了一定的傳播時間。除此之外,Facebook還在虛假新聞的治理方面投入專人,公司已經發出招聘公告,尋求一位擁有20年以上經驗的新聞合作負責人,專門負責提升網站上的新聞質量。

Facebook採用了新聞流排序演算法,通過機器學習(根據點贊、評論、分享等行為)預測用戶對內容感興趣的程度,決定其排序的權重,這在某種意義上說也是反垃圾,然而目前還沒有Facebook用排序演算法影響虛假新聞的消息,這與Facebook對虛假新聞的態度有關:讓用戶和第三方機構來甄別,不會官方標明某條消息的真偽。


小結

人力的方式,對於Facebook而言意味著很大的人力成本,同時對於審核人員的身體健康與心理素質也是一種考驗。曾有外媒報道稱,Facebook審查員工通常不到半年就離職。那麼Facebook不斷研發新的技術手段來提升反垃圾能力的動因就不難理解了。然而由於網站影響正常運營的垃圾信息日益複雜性,在這些垃圾信息消失之前,系統無法一勞永逸,技術對抗不會有終點,故而Facebook需要不斷研發新的反垃圾技術,也需要人工來升級規則並提供樣本優化系統的規則引擎。


編者說:

本文由網易易盾安全團隊根據facebook論文:Facebook Immune System原創編譯。社交是當前互聯網產品的基本屬性,垃圾信息對業務的傷害之深自不待言,機器演算法的進步不僅為我們治理垃圾信息節約成本,更為我們對二次攻擊的快速響應提供了便利,演算法協助人必定是未來的趨勢,當然這需要基於對業務的深刻理解而設計合理的規則和反垃圾系統才能實現,探索成本也不菲,故而從業者應該感謝Facebook如此慷慨、系統地分享了他們的經驗。

* 本文作者:heather,參考來源:Facebook Immune System,轉載請註明來自FreeBuf.COM


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 FreeBuf 的精彩文章:

一種會話劫持技術通殺全部Windows版本,但這真的是漏洞嗎…
如何入侵大疆Phantom 3無人機
滲透測試中利用基於時間差反饋的遠程代碼執行漏洞(Timed Based RCE)進行數據獲取
數字取證技術 | Windows內存信息提取
如何利用sdclt磁碟備份工具繞過UAC

TAG:FreeBuf |

您可能感興趣

Informatica通過自動數據治理與合規實踐 向企業交付可信及安全數據
我校沙漠治理學院師生共同完成的科研論文 發表在《Land Degradation&Development》上
機動車尾氣如何治理?有人把它變成了顏料Air-Ink
觸樂夜話:Steam看來走上了App Store先污染、後治理的老路
Datablau王琤:數據治理助企業穩築數據「地基」 實現數據資產價值
微博開源的Motan RPC最新進展:新增跨語言及服務治理支持
Airbnb全球副總裁葛宏:期望建立分享經濟多方治理機制
微服務架構中 API 的開發與治理
淺析RTO在製藥行業有機廢氣治理的應用
曹操教你如何治理公司當好大BOSS
共享單車亂停亂放難治理 ofo、摩拜為交通「添堵」
集體行動的邏輯與公共治理理論
阿里平台治理部:天貓國際並無Betta旗艦店 商標權之爭將由大眾評審解決
彭勁松:雲計算時代IT職能將從服務保障轉變為IT治理
火影忍者:歷代火影治理村子有妙招,鳴人最low,初代模式不可模仿
銀監會出手!治理銀行理財「飛單」
這位國王定居國外,靠Skype治理國家,太前衛
前有重罰鬥毆 今又嚴懲退賽 姚主席開啟nba式治理模式
關於VOCs治理,你想知道的都在這裡!