這位研究網路黑產的清華教授總結了一本《黑產黑話寶典》
本文作者:李勤,雷鋒網宅客頻道。
你聽過黑話嗎?
有!
天龍蓋地虎
寶塔鎮河妖
不不不,這句黑話已經OUT很久了。網傳,以下是一組知乎經典黑話(這是知乎用戶「張新也」說的,冤有頭債有主,要是錯了你們找他,雷鋒網編輯並沒有黑知乎):
男:你介意我和你一同探究孟德爾定律嗎?
(你介意我和你啪啪啪嗎?)
女:平面幾何與立體幾何性質是有差異的。
(看片和實戰是不一樣的,你有經驗嘛?)
男:我傾向於軸心一方的義大利。
(黑意呆利。經驗不多,但我有一顆想參戰的心)
女:滑鐵盧一戰拿破崙為什麼不動用空軍?
(咋不去打飛機)
男:你知道列剋星敦對於美國獨立的意義嗎?
(有了第一槍,後面才能星火燎原策馬崩騰)
女:經濟學中對消費的分類,除了自給性消費還有什麼?
(商品性消費,你給錢嗎?)
男:我崇拜提出「農村包圍城市」的那個偉人。
(論持久戰,可以長期包養)
女:你熟悉安培定則嗎?
(我只幫你lu可以嗎?)
男:乙醇制乙烯時溫度計的位置不能大意。
(不行,一定要插入)
女:我聽說秘魯西海岸厄爾尼諾已經持續了三個月。
(插入很危險,不要出事了。厄爾尼諾字面意思是指小孩子。)
男:熄滅酒精燈的方法
(我帶套了......)
啊呀呀,真是太污了,反正雷鋒網編輯是看不懂的。
不過,今天(7月26日),藍蓮花(Blue-Lotus)戰隊組建人之一的清華教授段海新介紹了一些網路黑產的黑話更讓人大開眼界(藍蓮花有多牛,你可以搜索一下)。
下面進入自我測試時間,如果這些黑話你都能看懂,也許你是黑產研究學八級,要麼就是經歷很豐富:
菠菜
平馬二中一
丁香五月天
咕嚕咕嚕出肉
段海新靦腆地介紹了一下第一個詞,「菠菜」就是「博彩」的意思,後面三個他居然沒解釋。
好奇的雷鋒網隨便搜索了其中一個關鍵詞,顯示出如下的搜索結果,嚇得我趕緊捂上了眼睛:
裝作看不懂的樣子,繼續聽段教授講故事。
瘋狂SEO的黑產網站
網路黑產,無奇不有,黃賭毒尤甚。
這些黃賭毒網站為了在搜索界面搶佔更有利的位置,往往會對一些權重較高的網站進行劫持,比如以edu.cn或gov.cn結尾的網站。
你只是想打開一個高校的官網或一個政府網站,一不小心就進入了不可言說的世界。
GIF/471K
你只能感嘆一句:黑產推廣真是喪心病狂。
然而,這並不算什麼。黃賭毒和詐騙類網站為了推廣自己,還會藉助一種技術:蜘蛛池。
蜘蛛池就是一堆由垃圾域名組成的站群,在每個站點下都生成海量頁面(抓一堆文本內容相互組合),頁面模板與正常網頁沒多大區別。給那些未收錄的頁面,在短時間內提供大量的真實的外鏈,入口曝光多了,被抓取幾率就大,收錄率自然也就上去了,又因為是外鏈,所以在排名上也有一定的正向加分。
如果你再稍微了解一點搜索技術,說白了,就是人為製造了一張不斷變大的網,把蜘蛛困在裡面,讓它不斷的爬行網內的頁面。
總而言之,就是網路黑產不斷地用各種手段推廣自己,爭奪注意力。
噢!黑產有行業術語
為了打掉黑產網站,就要研究黑產網站的 SEO!也因此,段海新發現了伴隨黑產網站出現的是「黑產詞」:這些網站總有一些關鍵詞像「標籤」一樣地貼在自己身上。
正經的說法是:
「黑產詞」是伴隨黑產出現的產品同義詞及違法產品本身的關鍵詞的統稱。非法商販和買家通過協定新的辭彙表示一種產品,以此躲避監管。
這些隱蔽的「黑產詞」通常會扭曲常用詞含義,導致「外行人」無法理解其背後的含義,上面舉例的一些即是「黑產詞」。
這裡有個小插曲值得一提。
清華大學有一個優雅的小院名為「怡春院」,曾作為校機關的辦公場所,但是,扭曲的黑產居然把這個詞變成了……額……
通過搜索引擎查詢「怡春院」這歌關鍵詞,國內外主流搜索引擎搜出來的都是成人社區(Google除外)。
他推測,也許這些搜索引擎比較真實地反映了用戶搜索的需求。
GIF/366K
好消息:這裡有本「黑話大全」
雷鋒網了解到,被推廣的「黑產詞「可以通過自動化方式檢測出來。人們在查詢某個商品時,可能會反覆觸及到多個類似「黑產詞」的網站頁面,這些頁面有可能包含惡意或欺詐內容。
好消息是,利用搜索引擎查詢相關頁面,並結合相關搜索擴展查詢結果,最後採用演算法可將結果融合判定是否為黑產詞,段海新和他的研究團隊做的就是這件事情(也許並不是為了報「怡春院」之仇)。
如何通過自動化手段檢測一些新的黑產黑話?
先來了解一下黑產網站是怎麼推廣的。段海新介紹,比如,毒品商家找到做非法 SEO 引擎優化的推廣商,根據產品和關鍵詞進行優化,搜索引擎的爬蟲自動到網站上抓取內容,用戶搜索時,就有可能被指向這個毒品網站。
因此,段海新的研究團隊想出的對抗辦法是:
1.輸入兩部分數據,一部分是搜索引擎廠商提供的惡意URL列表,另一部分是從蜘蛛池推廣網站中抓取的200多萬頁面,在這些頁面中提取的關鍵詞。
2.過濾掉這些詞中的合法辭彙(白詞),然後再到搜索引擎中驗證一次,是否觸發了搜索引擎的報警。
3.利用搜索引擎廠商的相關搜索進行擴展。
最終,就能找到「正確的黑話」。
看上去,三個步驟很簡單,但是隱藏了三個複雜的問題——
1.如何提取關鍵詞?
黑產關鍵詞可能會出現在黑產網站的任何一個頁面,在嘗試很多區域後,段海新發現,明文可點擊區域的效果最明顯。
你要問了,如果黑產把黑詞放在別的地方是否可以逃避檢測?
並沒有那麼容易,如果黑產想逃避檢測,帶來的副作用是, 搜索引擎的爬蟲也無法搜索到這些關鍵詞。
2.如何過濾白詞?
用自然語言理解的方法非常困難,但段海新的團隊發現了一個簡單的方法:很多詞都是從新聞熱點中抓取過來,而這些新聞標題比較長,所以我們就把超過一定長度的新聞標題過濾掉。
3.如何判斷是白詞還是黑詞?
比如,「清華」是一個白詞,所以搜索結果比較乾淨,而且搜索引擎已經把清華的頁面標註,但是搜索「菠菜」,三條以上的搜索結果標註為報警,那麼,這個詞就可能有問題。
因為「相關搜索」關聯了用戶的搜索行為,用戶輸入了一個辭彙,但沒有點擊任何一個鏈接,又搜索了下一個辭彙,那麼證明第一個辭彙和第二個辭彙是相關的;用戶搜索了一個關鍵詞,點擊了一個鏈接,那麼證明這歌鏈接里的關鍵詞與這個搜索詞相關。
於是,段海新和研究團隊得到了 40 萬個推廣的黑產辭彙,確定其中 94%為黑詞,去掉地名等"長尾"修飾詞最終得到了 1500 個左右的核心詞,手工分成了六類,並提取了相關的域名和URL 還有 100萬-200萬個。
為了驗證這些「黑詞」是真的黑詞,他們在2個不同的搜索引擎中再次搜索新黑詞,比如,搜索「***商人」,某歌前10頁全是與賭博相關的結果,則可以證明 SEO 的效果「非常好」,這些詞是有效的新黑詞。
拿到了黑詞之後,有什麼用?
(當然是為了打掉黑產,報「怡春院」之仇咯
)
開個玩笑。
雷鋒網了解到,段海新和他的同事們做了一個厚厚的研究報告,來討論黑詞的「用處」,他也簡單介紹了幾個用途:
1.基於黑產推廣頁面留下的電話號碼,他們進行了統計,發現黑產電話號碼歸屬地最多的是山東,徐玉玉案件發生在山東,也許不是偶然事件。
2.他們依據這些黑詞對貼吧、論壇進行了統計,發現這些黑詞在貼吧和論壇普遍存在,如果將這些黑詞反饋給搜索引擎廠商,再次搜索,可以凈化搜索結果,還可以凈化論壇、網上商店。
3.利用現在擴展的黑詞,在教育類和政府類網站進行搜索,發現大量被攻破的網站。
目前,段海新的研究團隊正在與百度合作,應用其研究成果。
註:該文引用了段海新在2017網路安全生態峰會上的部分發言,該論壇由阿里巴巴和螞蟻金服共同主辦,乾貨十足。
--寫在最後的話--
阿里巴巴的小夥伴告訴雷鋒網,阿里也在淘寶上應用了相關對抗「黑話」的技術,在實際應用過程中,還要面對更多變得連親媽都不認識的「黑詞」,對抗升級更可怕。
於是,雷鋒網決定,在接下來的某一期中,探討阿里到底應用了哪些「黑詞」檢測與對抗技術,敬請期待。
※全球頂級白帽黑客大會,騰訊安全獲白帽黑客奧斯卡提名彰顯中國安全力
※阿里巴巴安全第一人肖力:中國 90 %的企業安全只能得 0到1 分,這裡有四個趨勢
※CVPR論文解讀:全新的Mimic方法,效果遠優於傳統
※阿里iDST的CVPR論文:剁手有了新方法,明星同款邊看邊買
※通用 CEO Mary Barra:2020 年前發布新電動汽車架構和娛樂系統,支持 OTA 更新
TAG:雷鋒網 |
※中國互聯網黑產報告②—Uber被黑客勒索
※揭秘《我不是葯神》外真實藥品網路代購黑產!
※虛擬粉絲成現實貨幣:《紐約時報》曝光美國社交網路「精緻殭屍粉」黑產
※上海警方集中打擊侵犯公民個人信息,剷除網路「黑產」「黑市」
※一篇小黃文牽出國內最大黑產,你被「上」過嗎?
※老賬號買賣水漲船高,黑產上演黑吃黑
※【今日首播】精品公開課 | 從黑產視界挖掘技術真相
※網路黑產、爭奪用戶信息背後的數據之戰
※運營商,請別再做網路黑產的「保護傘」
※一夜被盜刷揪出「偽基站和簡訊嗅探」作案黑產
※《檢察日報》:引導取證成功偵辦「網路黑產」案
※揭開《我不是葯神》銀幕外的真實藥品代購黑產
※社交 黑產 不監管 一首涼涼送給滴滴順風車!
※無監督AI引擎下「摸瞎」的黑產「十八般武藝」
※每天還在悠哉的上網?其實網路黑產就在你身邊
※微博回應明星賬號流量造假:互聯網黑產對產品侵蝕
※黑產作惡利器——手機黑卡為何物?
※堅決打擊網路黑產,位元組跳動維護網路安全
※黑產獵人:老畢
※誰動了我的金礦:深扒黑產挖礦進階之路