一個披薩電影夜,你到底泄露了多少個人數據?
大數據文摘作品
編譯:汪小七、王夢澤、荊浩男
最近Facebook在處理和保護用戶數據方面的危機駭人聽聞,恐懼的同時也讓人們反思,大量的個人數據泄漏到底來自哪裡?
本文我們將假設這樣一個場景,你和你的朋友(Sally和Kristen)準備度過一個披薩電影夜,讓我們用這個常見的場景為例,來評估一下,僅用一個披薩的價格,有多少數據在不知不覺中被共享了。
計劃
首先,Sally拿出她的iPhone X,和她的好友Kristen互發了一些信息。
Sally和Kristen使用Apple iMessage互傳簡訊,由於信息是加密的,所以Apple並不能看到簡訊的內容。
當信息發送時,蘋果公司可以即時捕獲並分析像時間戳之類的匿名元數據,這樣就可以確保伺服器有足夠的帶寬用於未來的流量。例如當她們兩人互發以下信息時:
提供給蘋果公司的數據:終端對終端的加密文本、iMessage地址信息。
蘋果公司額外收集的數據:匿名時間戳、匿名的消息路由信息。
訂單
當Kristen清理她的公寓時,她對她的亞馬遜Echo說道:「Alexa,打開Domino』s並下一個訂單。」
在Echo上安裝的Domino』s應用程序會將Kristen存儲的信用卡信息提取出來,然後Alexa會問「你想用尾號為1234的Visa卡嗎?」
存儲的信用卡信息用來購買批薩。Alexa還記錄了交互信息,Domino程序則根據她所說的內容創建了記錄。
提供給ALEXA的數據:聲音特徵、請求內容。
ALEXA額外收集的數據:交互歷史、Echo設備類型、位置信息、信用卡號的後四位。
提供給DOMINO的數據:支付和賬單信息、購買的披薩種類、訂單數量。
DOMINO額外收集的數據:說話記錄、硬體設置、操作系統、性能統計數據。
途中
Sally上車後並拿出她的iPhone,打開谷歌地圖並設置了去Kristen家的導航。谷歌地圖是使用iPhone的感測器來確定她的行駛位置,並利用加速度計和陀螺儀來確定速度與方向。
谷歌收集了她的速度和位置的匿名數據,同時也在收集附近司機的數據,以檢測是否堵車。
提供給谷歌的數據:目的地、位置信息。
谷歌額外收集的數據:速度、行駛的主要方向、設備類型(iPhone X)、設備的IP地址、最近的wi-fi路由器、最近的基站。
自拍
Sally和Kristen很久沒有見面,於是倆人決定舉起手機自拍一張。
Sally上傳照片到Facebook後,應用程序會根據面部識別系統建議她給Kristen貼標籤,Kristen也同意了這樣做。
Facebook可以根據上傳照片的IP地址來收集Sally的位置信息,這樣可以向她推送她可能感興趣的同城活動,或者向她推送針對附近某地特定人群的廣告。同時系統也會對照片進行分析,以確保沒有不恰當的內容。
提供給Facebook的數據:上傳的照片、照片配文、面部識別。
Facebook額外收集的數據:照片分析、照片的位置(如果元數據中有此信息)、日期、設備類型(iPhone X)、設備ID、設備操作系統、電池電量、信號強度、藍牙信號、連接速度、剩餘可用空間、應用程序及文件名稱和類型、附近的Wi-Fi信號和基站、附近帶有投屏功能的智能電視、時區、移動運營商或互聯網服務提供商、IP地址、運行的時間、頻率和持續時間、硬體版本、軟體版本。
電影
Kristen打開Apple TV,搜索併購買了電影《神奇女俠》。之後,Apple會建議Kristen購買其他同類電影,比如《蝙蝠俠大戰超人:正義黎明》(Batman v Superman: Dawn of Justice)。在默認情況下,Apple會提供個性化推薦,但用戶可以關閉這項設置。
在這個過程中,Apple核對了Kristen的Apple ID,並對賬戶中預留的信用卡進行扣款,同時它還使用了互聯網帶寬信息,來確保下載電影速度正常。
提供給蘋果公司的數據:選擇的電影、Apple ID、信用卡信息。
蘋果公司額外收集的數據:互聯網帶寬信息、購買歷史。
數據成本
Sally和Kristen至少貢獻出了53條信息,各場景中列出的數據反映了這些公司根據他們的隱私聲明、服務條款和相關文件所能收集到的信息。
蘋果(Apple)、亞馬遜(Amazon)、谷歌、Facebook和達美樂(Domino』s)的隱私條款共計76,069個單詞,上述場景中涉及到的隱私條款,若每分鐘閱讀250個單詞,則需要5個小時以上才能全部讀完。
數字公民自由組織電子前沿基金會的研究員Gennie Gebhart說:「用戶看不見他們丟失了什麼,這並不是他們自己的過錯。」
這些公司處理數據方式迥異,用途也往往不同。例如,蘋果公司經常將用戶的信息與用戶進行分離,並將其用於改進設備;而Facebook和谷歌則主要使用數據來改善服務並支持他們的廣告業務。
隱私政策中還有些什麼呢?
根據他們的隱私政策,Sally和Kristen提供的信息僅是科技巨頭公司所收集的一小部分。下面是一些數據收集列表,但遠遠不止這些。(以下內容可上下滑動)
亞馬遜收集的數據
在網站輸入的信息:名字、電話號碼、郵寄地址、信用卡信息、收貨人姓名、地址、電話,朋友的電子郵件地址、評論內容、與Amazon的郵件往來內容、個人資料中的個人簡介、社會保障賬戶、駕照號、登錄賬號及密碼、購買歷史、瀏覽歷史、IP地址、時區、瀏覽器類型、瀏覽器版本、瀏覽器插件、操作系統、點擊流數據、給Amazon致電的電話號碼、查看Amazon發來的郵件、頁面響應時間、下載錯誤、訪問時長、頁面交互(滾動、點擊、滑鼠懸停)、瀏覽頁面的方法;
APP的使用:位置,設備標識碼;
Alexa的使用:姓名、電話號碼、聯繫方式、待辦事項,購物清單、音樂播放列表、默認的支付信息、收貨信息、語音特徵、手機通訊錄(如果已導入)、請求內容、交互歷史、購買類型、郵編(若你用「Skill」查詢過天氣)、「Skill」定製音樂電台、輔助產品信息、智能家居設備(類型及名稱、功能、狀態、網路連接、位置)、語音信息、常用聯繫人。
亞馬遜的說法
「我們的隱私條款描述了我們將要收集的信息以及使用方式。我們從未出售客戶的個人信息,我們會在傳輸和存儲時對數據進行加密,並為客戶提供多因素身份認證的功能。」
蘋果收集的數據
創建蘋果ID、購買等行為:姓名郵寄地址、電話號碼、電子郵箱地址、聯繫人偏好、信用卡信息、生日;
使用服務或設備:位置信息、職位、在APP Store的操作、搜索查詢服務、手機運營商、語言、國家、郵編、操作系統、瀏覽器類型、互聯網服務提供商、引用的URL、設備唯一標識符、時區、IP地址、打開的蘋果電子郵件、朋友或家人信息(姓名、郵寄地址、電子郵箱、電話號碼);
蘋果媒體服務:所在國家、支付方式、蘋果ID、設備活動、位置、內存。
蘋果的說法
蘋果公司認為企業不應該建立客戶的詳細資料檔案。蘋果公司通常會將用戶的信息與用戶本身進行分離,分離出的信息用於改進公司銷售的設備,同樣也不會將用戶的個人信息出售給廣告商。
Domino"s收集的數據
用戶註冊信息:姓名、郵寄地址、電話號碼、電子郵件、賬單信息、感興趣的領域、產品消費情況、信用卡信息、密碼;
交易信息:位置、購買特性、購買數量、購買價格、語音指令記錄、交易時的溝通實體;
使用服務時獲取的數據:二級通訊、背景噪音、設備標識符、設備類型、操作系統、瀏覽器類型、硬體設置、性能統計數據、伺服器名稱、IP地址、互聯網服務提供商、通用地理信息、訪問日期和時間、使用網頁或應用軟體訪問的頁面、引用的URL、退出URL、交易歷史記錄、安裝字體、Javascript對象、社交媒體的內容(若使用Domino"s的標籤時)。
Domino"s的說法
「我們從數字化訂單中收集到的任何客戶信息僅用於完成訂單或改善客戶體驗。」
Facebook收集的數據
使用服務時獲取的數據:名字、電子郵件地址、共享的內容、瀏覽的內容、參與的內容類型、評論內容、與他人的信息和交流、與朋友及其帳戶和生活事件標籤的聯繫、宗教觀點、政治觀點、感興趣的人、健康、種族或民族起源、哲學信仰、工會會員、地址簿(「如果你選擇上傳、同步或導入」)、調用日誌(「如果您選擇上傳、同步或導入」)、SMS日誌歷史、聯繫方式、支付信息、配送信息、手機號碼、精確的設備位置、上傳的照片和視頻、面部識別、設備的設置、信使交流、在Facebook上的行為、與朋友及其帳戶標籤的互動、使用的功能、使用Facebook產品的時間、照片的位置(如元數據)、日期、活動的頻率和持續時間、操作系統、硬體版本、軟體版本、電池電量、信號強度、可用的存儲空間、瀏覽器類型、應用程序、文件名和類型、插件、設備行為(滑鼠移動、前台或後台的窗口)、設備ID、使用的設備、藍牙信號、附近的無線網路信標和基站、移動運營商、互聯網服務提供商、語言、時區、IP地址、連接速度、附近的設備(帶有投屏功能的智能電視)、購買、使用的服務、Facebook上的活動(訪問的網站、購買的內容、瀏覽的廣告和使用的服務)、來自第三方數據提供商的在線和離線操作、Instagram活動、朋友對你的評論、朋友與你的聯繫信息、有你出現的朋友的照片、Facebook搜索查詢記錄。
Facebook的說法
「我們清楚地知道用戶很難找到隱私設置和其他重要的工具,因此我們必須做更多的工作來讓人們了解。」
谷歌的數據
註冊賬戶獲取的數據:名字、密碼、登錄賬戶、電子郵件地址、電話號碼、資料中的照片、性別、出生日期、國家;
使用服務時獲取的數據:語言首選項、與谷歌服務的交互分析、信用卡信息、聯繫人、寫過的評論、回復的帖子、歷史位置信息、地圖搜索、行駛速度、行駛方向、語音搜索內容、照片和視頻的信息(拍攝的日期、時間、位置信息)、年齡(通過信用卡交易確認)、瀏覽歷史記錄、查詢日期和時間、搜索歷史記錄、訪問頻率、查看和點擊的廣告、感興趣的類別、Gmail消息、Gchat即時聊天消息、面部識別、谷歌驅動內容(即文檔),YouTube觀看歷史、主叫用戶的電話號碼、轉發數據、通話歷史及內容、通話日期和時間、語音留言、郵件問候語音、通話時長及類型、簡訊路由信息、IP地址、移動網路信息、操作系統、硬體模式、設備標識符、硬體設置、崩潰報告、瀏覽器類型、書籤、擴展安裝、打開的瀏覽器標籤、引用的URL、日程、登錄地點、請求的日期和時間、最常聯繫人、訪問鏈接的IP地址url、網站下載記錄、Wi-Fi或手機信號強度。
谷歌的說法
「為了讓使用者做出正確的隱私選擇,人們能夠了解和控制他們自己的谷歌數據是必不可少的。過去的幾年為實現這一目標,我們專門開發出了像My Account這樣的工具,而且我們鼓勵每個人對它進行定期的監督檢查。」
在Domino』s的「獨立隱私策略」部分中規定,其數據適用於Domino』s的比薩網站、移動端網站、應用程序和通過Domino』s的任何軟體平台訪問的第三方設備。
https://www.wsj.com/graphics/how-pizza-night-can-cost-more-in-data-than-dollars/
【今日機器學習概念】
Have a Great Definition
志願者介紹
回復「志願者」加入我們
※ResNet告訴我,我是不是世界上最美的人?
※AI=神經網路?這8個技術就不是!
TAG:大數據文摘 |