解密大數據:距離老大哥盯著我們的隱私看還有多遠?
本文選自中信書院閱讀時差欄目。閱讀時差動態實時同步全球前沿新知,為你打破知識的國界。
本期閱讀時差為你分享的這本書是《人人都在說謊》。
《人人都在說謊》
賽思·斯蒂芬斯-達維多維茨 著
點擊封面進入閱讀時差欄目
在這本書中,作者將帶你用大數據揭示生活中那些常見謊言背後的真相。
你知道在自由平等的口號下,許多美國人仍然是種族歧視者嗎?人們都喜歡聽那些讓他們自我感覺良好的謊言,然而憑藉互聯網的保護,人們卻敢在網上坦陳最為奇怪的事情。在屏幕前,人們放下戒備,用鍵入字元的方式表達自己心中的不快與萬千思緒,這些數據將成為窺探人類心靈的前所未有的機會,在這本書中,數據會帶領你走向一個比現實更加真實的世界,你會發現這個世界的運轉方式與你猜測的大相徑庭。
本書的作者賽思·斯蒂芬斯-達維多維茨是《紐約時報》的專欄作家、沃頓商學院客座講師,前谷歌數據科學家。他從斯坦福大學獲得了哲學學士學位,後又獲得了哈佛大學經濟學博士學位。他深入挖掘互聯網的新數據,試圖帶領讀者了解人們的真實想法,這些數據會讓你捧腹大笑,會讓你大吃一驚,甚至會讓你深感不安,但最重要的是,這些數據會讓你重新思考。
接下來我將按照作者在原書中的思路,從三個方面為你詳細闡述本書的內容。
首先,我們來看看大數據是如何顛覆我們的直覺的;
其次,是大數據在哪些方面可以發揮什麼樣的功用;
最後,是大數據在應用時有什麼做不到和不能去做的事情。
好了,讓我們繫上安全帶,一起去感受大數據的洪流給我們的認知帶來的顛覆吧。
1
如何用數據重新審視世界
雖然好的數據有時是一種出乎意料的直覺,但直覺並不總是忠誠於現實。比如,直覺通常會告訴我們在貧窮家庭長大的孩子更容易進入NBA球隊,但事實上,在調查了職業籃球運動員的出生地、得分王母親的婚姻狀況等相關條件之後,這種看法被證明是錯誤的,球員所在家庭的社會經濟地位越高,成長的家庭氛圍越幸福,進入NBA球隊的可能性越大,這樣違反常理的直覺有著合乎理性的解釋,因為良好的經濟條件保障了球員成長過程中的營養水平,使其身高、體型等身體素質潛能得以充分釋放,另外,在幸福家庭下成長的球員情商相對較高,這意味著他們有更強的適應力去應對複雜的環境。
我們生活中還有很多直覺經不起大數據的檢驗,例如,經驗告訴我們,如今的互聯網導致了人們日漸疏離,因為互聯網給了我們不加干涉的自由選擇空間,大部分人只在互聯網中尋找與他們志趣相投的人,但數據證偽了這種直覺,之前有兩位經濟學家用數據估量了互聯網上的政治隔離狀況,他們發現在同一新聞網站上,持有對立觀點的人「相遇」的概率約為45%,而在生活中遇到和你持有對立政治觀點的同事的概率約為42%,朋友則低至35%。因此比起互聯網的隔離,在線下生活中你對同事、朋友等的過濾與選擇反倒會造成比互聯網更加嚴重的信息隔離。
既然直覺沒有大數據那麼可靠,那大數據究竟有哪些強大的功能可以幫助我們重新審視世界呢?接下來我們來看本書的第二部分內容,大數據的強大功能。
2
大數據的強大功能
1
大數據的第一大功能:它是「數字吐真劑」,就是說大數據可以提供真實、可信的數據。正是借著互聯網的保護,人們得以在屏幕前吐露最真實的心聲。
生活中,人們可以將自己的性癖好隱藏起來,但卻瞞不過互聯網,作者第一次接觸色情網站時,發現了一些讓人驚訝的事實,大量訪問主流色情網站的人都在搜索亂倫主題的圖片,男性搜索排名前100的詞條中,有16個在搜索亂倫主題的視頻,涉及的是關於母子的場景,而女性搜索前100的詞條中有9個是關於父女亂倫場景的搜索。
雖然色情網站的數據無法準確地告訴我們,在觀看視頻時,人們真正幻想的人是誰,他們真的是在幻想和自己的父母發生關係嗎?關於這點,谷歌搜索可以提供更多的線索,的確有很多人有這樣的慾望。我們都知道谷歌搜索中會有自動補全的功能,試試「我想和某某人做愛」這個形式的搜索你就會發現,補全這個搜索最常見的辭彙就是「媽媽」,另外根據妻子對丈夫的檢索記錄可以發現,最常見的成年男性戀物癖,有些是希望穿著尿布讓媽媽哺乳。顯然,兒時的生活經歷對成年男性的性幻想產生了巨大的影響,這些廣泛使用的色情內容,以及隨後生成的搜索和觀點數據,是我們人類了解性行為及其背後秘密的重大進步。
有關性的話題,人們往往在互聯網上要比現實中更加誠實,但性愛並不是人們唯一會隱藏的秘密,互聯網能吐露更多的真相。
比如說,在谷歌上你會發現有許多人會問「為什麼黑人很粗魯」「為什麼猶太人如此邪惡」這樣的問題,更讓人驚訝的是,美國人搜索「殺死穆斯林」和搜索「雞尾酒馬提尼配方」、「偏頭痛癥狀」的頻率是相同的,雖然政治上處處在宣揚美國早就已經是一個平等、自由、沒有偏見的社會,但是互聯網上的數據卻與現實大不相同,藉由這個功能,我們可以發現看似陽光普照的美國社會中依然存在著對少數族裔的歧視、對同性戀的偏見與壓迫,對兒童的虐待等陰暗的角落,這些我們所不願意承認的真相,在互聯網面前暴露無遺。
2
大數據不僅提供了真實可信的數據,還帶來了新的視角,如今不同主題、不同形式的數據為我們打開了許多扇窗戶,讓過去僅能進行猜測的領域,藉由數據得以一窺其樣貌,接下來我們來看大數據的第二點功能:提供新型數據。
新型的數據不僅僅包括我們最常見的數字化數據,圖片和文字也能作為大數據的數據來源。
文字怎麼成為數據呢?幾位科學家曾發起過一項關於約會中詞語的使用對約會結果影響的研究,他們除了考量身高、職業、愛好等常規因素之外,讓約會者帶上錄音機,對約會的錄音做了數字化處理,記錄下雙方使用的辭彙、笑聲和語氣。他們發現,特定辭彙的使用能表現出雙方的興趣線索,如果女性在約會中頻頻使用「大概」「我猜」 「可能」這樣模稜兩可的辭彙時,說明她們可能不太喜歡約會的男性。當她們大量地使用「我」這樣凸顯自我表達的辭彙,以及採用「你知道嗎?我的意思是說……」這樣溫暖、友好、能夠吸引聽者注意力的辭彙時,則表達了她們想要與對方產生聯繫。你懂我的意思,對嗎?
文字同樣也可以用於對媒體政治傾向的研究,一個相同的概念,不同的黨派通常會用不同的語言進行表述,每個詞語都有自己的屬性,通過統計這些含有傾向性詞語的使用,我們能判斷一個媒體是更傾向於保守還是激進,我們還發現報紙的自由度是由特定地區政治傾向所決定的,也就是說媒體為了吸引讀者總是為他們的群眾提供他們想要的報道,總之,連新聞都是產品,人們撰寫新聞報道時,對詞語的考量就跟研究超市貨架的擺放沒有什麼區別。
除了文字,圖片也能成為數據的一部分並有著重要的價值,比如超市流水線的照片、貨攤上貨物的充足程度能反映一個地區經濟的狀況,數百年來人們的面部表情的變化也能推測人們思維狀況的改變,這些新的發現都是基於這些新型數據得出的,新型、非常規的數據拓寬了大數據的定義,當站在一個更廣的視野下去定義什麼是大數據時,我們會對許多事物有新的洞見。
3
有了如此多的數據,即便我們只提取大數據的一小部分子集數據進行分析,也是很有意義的,大數據的第三個功能就是允許我們放大數據的子集。
你覺得美國是一個充滿機遇的國家嗎?在之前一項關於機會平等的傳統調查中,數據顯示,在美國,如果父母身處收入分配最底層的20%,那麼孩子長大後進入收入分配前20%的概率為7.5%,這一數據在丹麥是11.7%,在加拿大是13.5%,那得分並不高的美國是一個很難實現夢想的地方嗎?大數據會告訴你:這取決於你出生在美國的什麼地方。
與傳統研究不同的是,大數據會通過放大不同地理區域的數據進行比較,研究團隊發現在加州、華盛頓州這樣高等學府分布較多的地區,孩子成功的概率明顯高於美國的平均水平,也就是說,在某些地方,美國確實是一個充滿了機遇的地方,但有一些地方不是。
放大數據子集還給我們提供了了解人類行為的諸多視角,曾有一項關於暴力電影究竟能在多大的程度上引起暴力行為的研究,兩位經濟學家將十年來美國聯邦調查局每小時的犯罪數據、電影票房數據和每部電影的暴力指數三大數據整合在一起進行了比較研究,結果發現在放映人氣頗高的暴力電影的周末,犯罪率不升反降。傳統的心理學實驗可能得出暴力電影會引起暴力行為的結論,但是大數據在放大了每個小時犯罪率的變化之後,發現正是電影的放映阻止了這些潛在的施暴者走向街頭飲酒、遊盪與犯罪。
如果不進行數據的局部放大,我們很有可能得出錯誤的結論,也很難發現這個世界是如此之複雜。
4
大數據還有最後一個更令人印象深刻的功能——它允許我們進行快速且受控制的試驗。允許我們進行因果實驗是大數據的第四大功能,什麼意思呢?
試想你並沒有足夠的時間和財力去測試兩個不同廣告牌對產品銷售帶來的影響,但是這在網上就可以輕易實現,你只需要動幾行代碼,就能輕鬆地製作兩種不同的界面,進而比較哪種特定的字體、顏色會讓人更加頻繁地使用你們的網站,或者在遊戲中,哪項任務能夠留住更多的用戶。在網路上,這樣的試驗成本低,速度快,結果反饋快,操作簡單,能夠讓我們在短期內得出準確的結果,填補了我們對認知的許多空白。
這樣的試驗雖然容易實現,但並非總能辦到,例如你不能模擬一個國家在失去了一位重要領導人之後會發生什麼,顯然我們不能讓領導人消失,然後做對照試驗。所以說我們只能尋求自然條件下的試驗,這也是經濟學家最喜歡做的研究之一,最具有代表性的就是彩票的例子。為了檢驗意外橫財的因果效應,經濟學家比較了那些中彩票大獎的人和買彩票卻沒中的人,研究普遍發現,中彩票大獎短期內並不會使人快樂,但從長遠來看確實會。
了解了大數據可以測試因果性這樣一個強大的作用之後,我們便能從直覺的誤區中走出來,通過真正的試驗更好地理解世界,進而改善我們的決策。雖然這些測試現階段大多用於商業,但它們將來一定會成為社會科學家的強大工具。
到這裡我們來總結一下數據的四大功能:
第一是「數字吐真劑」,大數據提供了真實、可信的數據;
第二,大數據提供了新型的數據;
第三,大數據允許我們放大數據的子集;
第四,大數據允許我們進行因果測試。
那麼大數據聽起來這麼全能,真的是無所不能嗎?答案是否定的,其實大數據在應用的過程中存在諸多限制,這些限制有些是技術上的,有些則是倫理上的,讓我們來看最後一部分,大數據做不到和不應該去做的事。
3
大數據做不到和不應該去做的事
大數據的技能在預測股票時能力就受限了,如果你想要用大數據來預測股價的漲跌,就很容易陷入到維度的詛咒中去,因為新的數據會帶來比傳統數據更多的變數和更多的維度。可能你哪天偶然發現一個因素與一個變數剛好相關,但是當你測試了足夠多的樣本後,發現兩者並無關係,這就叫維度的詛咒,那麼如何克服維度的詛咒呢?只能是必須保持謙虛,時刻對結果保持謹慎。
其次,在將大數據授權企業和政府使用時,還涉及到一些倫理道德問題。
授權企業時,部分企業會根據一些不相關的指標來判斷用戶是否應該享有他們的服務,例如在考量求職者的時候,僱主會考察其社交媒體上的信息,在銀行借貸時,銀行也會索引用戶的社交媒體,根據社交媒體的信息判斷是否應該向此人提供貸款,這並不是新的倫理問題,卻給我們發出了一個警告:數據革命會帶來一個危險,就是說,如果我們的真實生活不斷地被量化,那些綜合判斷我們自身的數據終將侵犯到我們自己,聽不懂?其實就是說,數據對我們預測得越準確,我們就越有可能被更加惡意而隱秘的歧視所限制。
授權政府時,大數據可以用來預防自殺和預測犯罪,舉個例子,如果一個人頻繁搜索如何殺死女友,那麼他就有嫌疑去做這件事情,這就涉及到政府是否應該在犯罪行為發生之前就追究個人責任的問題,而且這似乎是對隱私權的侵犯,依靠政府干預個人犯罪層面,我們必須要小心謹慎。
總 結
書中的第一部分講述了大數據是如何打破我們的直覺,帶來新的認知機會的;
第二部分,我們了解了大數據的四個作用,即提供真實、可信的數據;提供新型的數據、允許放大數據子集、允許進行因果和相關性測試;
最後一部分則提醒我們大數據並非無所不能,而且在應用時有倫理道德的限制,我們必須將大數據小心輕放。
這就是本書的主要內容,也許大數據還需要一段時間才能引領社會科學和行為科學在人類的愛情、學習、生活等方面取得巨大進步,但我們相信,這種進步即將到來,希望你能在本書中看到這種發展進步的輪廓,希望你也能受到啟迪,推動這種進步的產生。
特別推薦
比新更新,快人一步
中信書院還推出閱讀時差欄目
讓你平均早於中國市場388天
讀到全球好書精華
每周5本,每天只需15分鐘
原價
299元
哲學園頻道專屬優惠
199元
每天僅需0.55元
※唯一可以確定的是,明天會使我們所有人大吃一驚!
※還為家中管道堵塞煩惱?這根神奇的清潔棒,幫你一點就通!
TAG:哲學園 |