不是危言聳聽,即使匿名你的身份也可能被反向識別出來!
只要手機處於開機狀態,用戶的位置、行動等信息就可以被標繪出來,這種數據會以匿名的方式被提供給第三方,從而讓用戶能獲得更好的服務,同時也能讓廣告主更加精確地找到目標客戶。在大數據時代中,海量的用戶數據已經變得能被那些管理和分發數據的互聯網公司所獲得,有些時候是以「匿名」或是聚合數據集的方式而公開的。
脆弱的匿名ID 僅四個數據點就能識別個體
零散的信息數據看上去無關緊要,但在麻省理工學院學者Yves-Alexandre de Montjoye的一份研究中表明,僅僅需要4個外部確認信息,數據使用者就能以超過90%的幾率識別特定用戶。所謂外部確認信息,也就是跟用戶相關的時空數據點,比如帶有定位信息的Twitter、在Google上對某地的評價、Netfliex上的電影評分等等。
如今,為了保障個人信息不被泄露,數據提供方通常使用隨機ID代替個人身份信息。比較敏感的個人身份識別信息,如名字、住址、手機號碼等因此得以隱藏。但是,匿名ID並不是萬全之策,在很多情況下,公開數據只能做到某種程度上的匿名,匿名化的數據也可以被逆轉。通過極其少量的外部確認信息,比如時空數據點,數據使用者就能夠反向識別某個具體的個人。
反向識別的大致流程是:數據使用者想找到用戶A的消費記錄。他們由外部確認信息得知,A曾經在4月15日在某甜品店消費,並於4月16日在某餐館就餐。經過信用卡數據的集中篩選,只有一位ID為「8bdc1a23」的用戶完全符合上述條件。於是,只通過兩條外部確認信息,研究者們就在海量的信用卡數據中找到A,並通過ID獲取了他的所有相關記錄。
這個例子無疑為置身於大數據時代的人們敲響了警鐘:個人的日常生活軌跡極易被各個平台記錄在案,它們可以互相參照,並成為其它數據集的外部確認信息。心懷不軌的攻擊者,可以輕易地獲取和使用不同數據集進行比對,並定位目標個體。
識別 VS匿名 一場偵察與反偵察之戰
對於人口普查、選民登記、醫療信息等更為敏感的身份信息,也常常在經過簡單匿名處理之後,就直接向公眾開放。早在1997年,麻省理工學院學者Latanya Sweeney就曾質疑馬薩諸塞州保險委員會公布的匿名醫療記錄無法保護個人隱私。她藉助該州的選民信息,成功反向識別了病患身份,並將研究結果發給州長加以警示。
鑒於匿名ID本身的脆弱性和不可靠,學術界和業界也在不斷發明新的方法,以提升個人身份被識別的難度。對於數據隱私保護,當前已經出現了很多模型:K-匿名 (K-anonymity)、I-多樣化 (I-diversity)、T-closeness、差分隱私 (Differential Privacy)、同態加密 (Homomorphic Encryption)、零知識證明 (Zero-Knowledge Proof)等。
比如差分隱私是向原始數據中加入雜訊,在增加識別難度的同時,保持數據原有屬性。舉個例子,Chrome瀏覽器會首先對用戶上傳的數據進行隨機化修改 (Randomized Response),通過使用布隆過濾器加入雜訊,再上傳給伺服器。不過,差分隱私還是無法避免多個相關數據上報而導致的隱私泄露。更何況,這些方法在推陳出新的同時,攻擊者們也會採用更為強力的識別工具。
傳統體系的缺陷 隱私保護將往何處去?
令人擔憂的是,並不是所有互聯網公司和數據公司都有保護隱私的道德良知。很多時候,數據被公開之後,公司就無法再通過後續手段加強其安全性。區塊鏈與數字身份技術的出現,為身份數據隱私保護提供了良好的技術解決方案。
回顧數字身份技術歷史,從集中身份、聯合身份、以用戶為中心的身份,再到如今自我主權身份,每一次演進都在削弱中心化機構的權利,同時提升用戶個人的權利。在自我主權身份框架下,用戶必須是身份管理的核心,這不僅需要用戶的身份在多個平台之間具有互操作性,還需要用戶對該數字身份的真正用戶控制,從而創建用戶自主權。
為了實現這一目標,一個自我主權的身份必須是可移植的,它不能被鎖定在一個平台。同時,自我主權身份也必須允許普通用戶提出聲明,這可能包括個人身份信息或個人能力或團體成員資格的事實。它甚至可以包含由其他人或組斷言的用戶信息。在建立自我主權的過程中,必須防止權力的濫用,並支持個人的權利,使其不再成為巨頭手中的商業籌碼。
如果說區塊鏈與數字身份搭建了身份保護的基礎框架,那麼同態加密和零知識證明等加密技術的融入則為隱私數據提供了雙層保護。同態加密無需解密信息數據即可對加密數據進行運算,只有使用解密秘鑰才能訪問這些數據和交易的詳細信息。但同態加密並沒有解決這一問題:如何讓系統在不泄露過多信息的情況下改變狀態?
而零知識證明則正好彌補了這一短板。零知識證明並非新鮮事物,這一概念初見於1985年的論文「互動證明系統的知識複雜性」。ZKP是一種密碼學技術,允許證明者和驗證者來證明某個提議是真實的,而且無需泄露除了它是真實的之外的任何信息。
一個零知識證明必須要滿足以下三個條件:
l完備性:如果證明方和驗證方都是誠實的,並遵循證明過程的每一步,進行正確的計算,那麼這個證明一定是成功的,驗證方一定能夠接受證明方。
l合理性:沒有人能夠假冒證明方,使這個證明成功。
l零知識:證明過程執行完之後,驗證方只獲得了「證明方擁有這個知識」這條信息,而沒有獲得關於這個知識本身的任何一點信息。
上述的前兩個條件也是通常意義上互動證明系統的屬性,第三個條件形成了零知識證明。
越來越多的事例及研究表明,即使採取匿名方式,也無法對隱私數據進行更為妥善地保護。在大數據時代,重隱私者才能得天下。隨著Equifax、Facebook等一系列數據泄露事件的爆發,以及各國越來越嚴格的隱私保護策略施行,將在某種程度上警醒市場對於隱私保護的重視。
另外,在當前的司法體系下,數據提供者依舊沒有義務上報可能遭受了反向識別的數據集,攻擊者們也甚少被追究責任。因此,公眾很難得知自己的身份數據是否遭遇了泄露和攻擊。無論是技術層面還是法律層面,大數據時代的隱私保護依舊任重道遠。
參考文獻:
Christopher Allen(2016)The Path to Self-Sovereign Identity
Boris Lubarsky(2017)Re-Identification of 「Anonymized」Data
Nelson Petracek(2017)What zero-knowledge proofs will dofor blockchain
Latanya Sweeney,Ph.D.(2017)Policy and Law:Identifiability of de-identifieddata
[ About IDHub ]
IDHub是建立在開放原則之上,基於區塊鏈技術的去中心化數字身份應用平台,具備良好的技術兼容性與功能拓展性。作為進入數字社會的入口,IDHub通過區塊鏈技術,對個人身份的有效性、真實性、唯一性進行合理驗證,并力求將身份控制權由第三方信息服務機構重新收回到個人手中,為用戶塑造完整、可信的「自主身份」,並構建以用戶為主導的數字身份管理和應用平台以及安全、自主、可信的身份管理機制,最終實現以數字身份鏈接一切(社會服務、數字資產、數字生活等)的願景。
關注IDHub,驅動你的數字未來!
Twitter:http://twitter.com/IDHUBOFFICIAL
Github:http://github.com/idhubnetwork
Telegram:http://t.me/IDHUBOFFICIAL
[ IDHub官方客服 ]
TAG:IDHub |