當前位置:
首頁 > 最新 > 劍橋分析「濫用」Facebook的泄露數據只是一個必然

劍橋分析「濫用」Facebook的泄露數據只是一個必然

並非說這是一個壞時代,我們每個人都在有意無意,或被動或主動地散步自己的數據,這會獲得類似推薦系統這樣的方便,也會被人利用比如信息流上的操作。我們應該客觀唯物地認知到這個事實。

這一周Facebook的估價下跌了13%,百億美元的市值就這麼蒸發掉了。

引用一下媒體的報道:

據《紐約時報》和《倫敦觀察員》上周六的報道稱,Cambridge Analytica(劍橋分析)從2014年開始通過欺騙用戶和Facebook的方式收集數據,總共獲得了5000萬Facebook用戶的個人數據。

根據告密者克里斯托夫·維利的指控,Cambridge Analytica在2016年美國總統大選前獲得了5000萬名Facebook用戶的數據。這些數據最初由亞歷山大·科根通過一款名為「this is your digital life」的心理測試應用程序收集。通過這款應用,Cambridge Analytica不僅從接受科根性格測試的用戶處收集信息,還獲得了他們好友的資料,涉及數千萬用戶的數據。能參與科根研究的Facebook用戶必須擁有約185名好友,因此覆蓋的Facebook用戶總數達到5000萬人。

這家公司的業務,涉及到一個很有意思的人Michal Kosinski,一位組織行為學學者,他在2014年獲得博士學位,在斯坦福大學和劍橋大學都任過教職。他的研究領域在於使用網路數據去研究人的心理和行為。

結合最近幾年互聯網的發展和大數據應用的風潮,Kosinski作為學者可以說是非常時髦。

如果對於他過往的研究作品沒有太多印象,他最近還用深度學習發表過另一篇極有爭議的論文《在通過面部照片判斷個人性取向的問題上,深度神經網路比人類更準確》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images)

Kosinski在2012年使用Facebook的點贊數據建立了一個心理學側寫模型(注1),模型通過用戶對什麼事情點贊去學習他的性格。數據量級達到一定程度,大約70個點贊以後,模型對於用戶五型人格的判斷上有比一般人更高的性能。

這就是劍橋分析的理論依據:他們認為人類通過人格特質對事物的判斷行事,因此基於Facebook數據對用戶的性格建模,並據此進行對應的媒體信息投放,影響用戶的信息接收和判斷。

這看起來比傳統的根據人口地理學特徵去進行投放要更科學,畢竟我們都知道廣東人愛吃福建人只是無稽之談。

是這樣嗎?我們看一下Kosinski的模型:

用戶-物品矩陣,奇異值分解,線性回歸,很經典的計量方法,對於數據從業者來說都是相當熟悉的名詞。這不是什麼高深的技術,一個懂得使用python的本科生,對著文檔敲代碼,幾個小時就能複製出這個模型。在2017年,企業如果不提深度學習這個詞,都不敢說自己是大數據公司。

我是個單身狗,但是微信朋友圈會給我推送女士香水的廣告。我買的貓糧都收貨確認了,淘寶過了兩個月都還一直給我推送貓糧店鋪。精準投放這件事本來就沒那麼精準。

說回劍橋分析這件事,劍橋分析獲得的其實只有27萬用戶的數據,只是通過每個用戶至少要擁有185名好友,達到「最多5000萬人」的覆蓋範圍。說他影響了美國大選,基本上只是自己的公關說辭罷了。

這件事其實最有意思的事情,在於劍橋分析鑽了「授權」的漏洞。

當時的Facebook對用戶數據授權並沒有很嚴格的控制,劍橋分析通過偽裝成學術研究網頁的方式,獲得用戶授權後,進而獲取了用戶的歷史消息、關聯好友、互動行為等。說到底,其實是一個大型的爬蟲。

Facebook現在仍然允許獲得授權的應用獲取很多信息,只是集中於提供授權的用戶信息,不至於連他好友的信息都能獲取。從開發者文檔看來,目前允許獲取的數據仍然有相當的想像空間,如:

1. 用戶基本屬性:基本資料如生日地域,一些一度好友關係;

2. 用戶活動:書籍、運動、點贊、發文;

3. 用戶創建的活動和管理的小組;

(Facebook的登錄授權信息)

(微博的授權登錄信息)

大眾對於這件Facebook數據被「濫用」的事件非常敏感,還發起了刪除Facebook的活動。現實版的鋼鐵俠Elon Musk也響應了一下,刪除了他的Facebook賬號。

但是坦白說,這其實不是什麼新鮮事。不止我前面所說的Kosinski的五型人格模型其實大部分是經典方法,對公開數據的爬蟲產業現在早已經非常發達。兩三年前大數據這個詞還很火的時候,網上隨便搜索數據分析的入門文章,都是關於如何使用python進行爬蟲。

就如我之前寫過的一篇文章所說,利用爬蟲獲取公開數據,通過信息差去賺錢,已經是很常見的生意。

私人數據呢?

不客氣地說,國內大部分的大數據公司,其實都是在販賣私人數據。我前面提到淘寶給我推送貓糧廣告,但是我其實是在京東上買的貓糧,淘寶如何知道這件事?懂的人自然已經懂了。

這是信息時代的人類的現實。信息技術的發展和應用不僅僅讓我們能夠獲取更多的信息,我們自身也在成為信息。

人類文明這幾千年來的突飛猛進,與其說是生理上的進化,不如說是人類通過文字、宗教、國家這些架構來組織信息,使人類的智慧能夠規模化進步,脫離個體基因演化客觀上需要的時間局限。

獲得了計算機這個新的信息運算工具,又建立了互聯網這種巨大的信息架構,未來人類的生活不可避免地會繼續作用於信息和被信息反作用。

而現在,公司這種靈活的組織得以在國家之前搶先適應時代,獲取了大量的數據,而國內大型公司對於數據的獲取和使用比美國的同行只會更過分。讀者朋友們,你們都應該注意個人數據保護這件事。

Facebook自己受益於信息時代得以誕生,它也是世界上第一家使用演算法改變實時信息流的公司,通過廣告獲取了大量的收入。最終他也被他所擁有的數據所反噬。

並非說這是一個壞時代,我們每個人都在有意無意,或被動或主動地散步自己的數據,這會獲得類似推薦系統這樣的方便,也會被人利用比如信息流上的操作。

我們應該客觀唯物地認知到這個事實。

我是大本,一介數據分析師社畜。

生活中有趣的事情很多,我會跟你說說數。

特斯拉老闆Elon Musk註銷了Facebook,但他可沒有註銷Facebook旗下的Instagram。Instagram也採用演算法分發信息流。

得益於一位讀者,我下一篇會講一下跟它有關的另一個產品。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大本說數 的精彩文章:

利用信息差通過公開數據賺美元的小眾細分產品案例

TAG:大本說數 |