當前位置:
首頁 > 新聞 > 我投了份簡歷,接到了十八個騷擾電話

我投了份簡歷,接到了十八個騷擾電話

都說金三銀四,最近打算換工作的蘇大強(蹭熱點式化名)在各大招聘平台掛上了自己的簡歷。誰知道剛過兩天就接到了十八個騷擾電話,其中只有兩個來自獵頭。

我投了份簡歷,接到了十八個騷擾電話

打開今日頭條,查看更多圖片

在接起第十八個貸款推廣騷擾電話後,蘇大強崩潰了,誰!又是誰TM泄露了我的信息,沒錢不貸款還不起還不行嗎!

你有沒有想過,數據泄露可能源於那份簡歷。

貼條巧達

先說一起新聞。不久前網上有爆料稱簡歷大數據公司北京巧達科技被查封,全員被抓,隨後有部分員工被放出。

3月24日,三言財經也實地走訪了巧達位於中關村辦公室,發現大門現已被封條封住,辦公室內空無一人。該封條由中鋼國際廣場保安部張貼,時間為2019年3月14日。

我投了份簡歷,接到了十八個騷擾電話

【圖片來源:三言財經】

於是有人好奇,這家公司做了啥突然被封?

根據公開信息,巧達科技號稱擁有中國最大的簡歷資料庫,其主要數據來源是「喬大招」。喬大招旗下則擁有「愛夥伴」、「簡歷時光機」等在內10多款招聘相關產品。

「喬大招」可以做到通過一款工具匯總多家招聘網站賬號信息,企業客戶可以統一發布職位、收取簡歷;其次,該工具可以抓取簡歷的修改歷史,可以查看到對應簡歷被查閱次數、修改記錄等信息;不僅如此,還可以將簡歷上傳至平台,供其他企業、獵頭使用。

愛夥伴是一款提供「員工離職預測」的工具軟體,該軟體可以檢測到員工投遞簡歷、員工簡歷更新情況以及員工簡歷被查看次數等信息。企業用戶購買愛夥伴後,即可查看其收集匯總的簡曆數據,依此判斷公司員工的離職傾向。

簡單說,這個一款給老闆打小報告的軟體,哪個員工有離職的想法都可能被提前知道。

截至2015年6月30日,在喬大招的資料庫中,以人為計算,收入自然人的簡歷超過1.6億人。以版本來計算,簡歷超過18億個版本,超過25億行為軌跡。說不准你精心準備的簡歷就在其中!

這些數據都被這家公司用於牟利,甚至涉及違規收集個人信息。封條一帖,巧達涼涼。

不過,一家「巧達」倒下了,還有其他「巧達」站起來,打著智能招聘SaaS系統的簡歷公司披著偽善外衣,暗地做著吸血勾當。

智能招聘SaaS系統

想要竊取招聘網站的簡曆數據有什麼招數?


1. 利用公開數據,通過爬蟲工具爬取;

2.合法賬號內部獲取數據;

3.利用網站平台的漏洞進入系統獲取數據。

其中,爬蟲技術運用最為廣泛,因為不需要網站有任何漏洞,只需要模擬正常用戶訪問操作,就可以抓取。

瑞數信息CSO馬蔚彥告訴雷鋒網,一般黑產會通過腳本、自動化框架、手機等工具去訪問招聘網站平台,通過分析招聘網站的介面,這些工具可以自動的進行搜索關鍵字輸入、翻頁,對招聘網站內容進行抓取,然後通過腳本程序,將抓取到的原始數據進行格式化處理,轉換成可閱讀的簡歷。後期爬蟲還可以同過定時機制,來進行簡曆數據的定時獲取更新。

這種爬蟲技術與爬各大網站低價機票本質是一個套路,不同點在於:機票是全公開的,誰都可以看。但部分簡曆數據需要登錄或者付費後查看的,這時候就需要爬蟲組織囤積大量賬號進行簡歷抓取。

這些賬號從何而來?於是打著智能招聘SaaS系統的簡歷公司出現了,聲稱該SaaS產品可以「幫助一個HR管理多個平台上發布的職位和收到的簡歷」,只需要登錄一個平台就能管理所有渠道的簡歷信息。

購買該產品後,HR手中各大招聘平台的付費賬號都被簡歷公司所掌握。

(註:目前很多招聘網站的商業模式都包括付費下載簡歷進行收費,花幾萬元可以下載幾千份簡歷,可以查看該招聘網站的無限量個人簡歷。)

雷鋒網編輯詢問了某做爬蟲技術的好友,對方稱,通過爬蟲技術抓簡歷一般要解決四個問題:


1.登陸的問題,需要購買一些賬號;

2.破解登陸的驗證碼;

3.購買ip代理、切換ip;

4.控制好爬蟲的速度,因為登錄後,一般網站後台都會存有日誌記錄,抓的太快的話,會被封。

而一套賣給HR的智能招聘SaaS系統就能解決前三個問題,把非法的變成合法的,破解賬戶變成買賣服務。這操作,這腦洞,編輯嘆為觀止。

我投了份簡歷,接到了十八個騷擾電話

有了賬號,之後的操作就更簡單了。利用HR的賬號託管,SaaS方可以去爬取各大招聘平台的簡歷信息,並做到實時翻新。

馬蔚彥表示這種實時可以分為實時和准實時。


實時的:有HR來招聘網站上進行簡歷檢索的時候,除了會顯示自己本地的數據,還會將搜索請求轉發給其他招聘網站的搜索介面進行數據獲取,並且可以將爬來的數據進行智能比對,更新簡歷。

准實時:每個簡歷在招聘簡歷上都一個唯一的ID,爬蟲可以定時的,以ID為參數進行簡曆數據獲取。也就是只要你更改簡歷,對方就會收到數據,同步更改。

這時候,你的簡歷還只是你的嗎?

掛鉤黑產

潘多拉魔盒未打開時一片平靜,放在黑盒中的簡曆數據也是一樣。

你的簡歷上都有什麼信息?生日、電話、地址、身份證信息、工作經歷……這些詳細得不能再詳細得數據被分銷出去,可能賣給大數據分析公司,賣給獵頭,賣給貸款公司、賣給詐騙組織,這些都是黑產中的某一環節。

而信息裸奔的你可能接到N個騷擾電話卻還不知道問題出自簡歷。

即使沒有這些打著智能招聘SaaS名義的公司,你的簡歷就安全嗎?

不一定,邦盛科技產品總監焦林俊向雷鋒網透露,某國內top級別的招聘平台曾表示,有些大商戶(付費大企業)利用在招聘平台的賬號密碼,登錄後台通過爬蟲刷新數據,爬取簡歷。

之後將爬取下來的簡歷放進自己的資料庫,在合適時機將這些簡曆數據出售給需要的機構,相當於二道販子。

至於是哪些公司,各位可以自由猜測。

反爬頗難

招聘公司面對各種爬蟲技術是否有反爬技術呢?


「目前也有多種反爬蟲的技術,如驗證碼,IP黑名單,頻率限制,IP限制,單一賬號可閱讀量、需要購買,通過User-Agent控制等手段都能進行一定限制。但越來越多的高級爬蟲,利用大量代理IP,並且與真實瀏覽器訪問的環境相似度很高,傳統的反爬技術在面對高級爬蟲時已經基本無能為力。」馬蔚彥說道。

焦林俊也表示,招聘網站確有採取一些反爬蟲技術,比如前端進行加密,後端加入了大數據分析,機器學習等技術。但對大商戶爬取數據的行為招聘網站也有些頭疼,迫於營收壓力,他們不會採取直接攔截的措施。而且先通過後台數據分析誰爬取了數據,再針對不同對象採取相應的反爬措施。

目前來說,爬蟲技術仍處於灰色地帶,對於利用爬蟲技術獲取公開數據這一行為的正誤,在認知上也各有不同。目前更多的還是在道德層面,而非法律,比如:遵循robots,盡量放慢爬取速度,從而減少對提供數據查詢網站的壓力,不要造成拒絕服務,不要公開爬蟲程序源碼,不要分享爬蟲數據等等。

(註:robots是網站跟爬蟲間的協議,用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的許可權,也就是說robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。)

但這些在馬蔚彥看來,缺乏法律保障的約束力非常弱。

隨著涉及個人、企業的數據資源越來越多,提供這些數據的平台、系統也越來越多,非常需要通過建立正確的爬蟲觀念、提升反爬技術手段、建立合理的爬蟲相關法律規定等都多方面的綜合努力,才能更好地提供對於惡意爬蟲的防禦,保護企業和客戶數據資源。

對於終端用戶來說,除了接到手軟的騷擾電話,似乎是完全無感知的。

焦林俊表示,用戶應該避免在不安全的招聘網站發布簡歷,遇到打電話稱自己是獵頭需要提供本人完整信息的說法也不要輕信。而對於招聘網站,應該從業務方面進行規範,搭建自己反爬蟲平台,利用前沿的反爬蟲技術,如大數據分析,根據訪問行為提取特徵,通過設備指紋,人機識別,環境檢測等技術識別出人還是機器。這樣即可以去掉驗證碼等降低用戶體驗的操作,也避免了用戶有價值的信息被爬取。


做反爬不能誤傷正常用戶,這是反爬蟲技術的關鍵點。爬蟲與反爬蟲永遠在對抗,沒有勝負。

參考來源:三言財經

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

3·15曝光閃付風險,銀聯回應:可全額賠付
如何讓機器像人一樣聽聲音

TAG:雷鋒網 |