天真!你以为打马赛克就安全了?
网上保护隐私的防范措施越来越容易被破解了,尤其是模糊处理和打马赛克的图片。这些方法可以防止吃瓜群众看到敏感信息,但是对于德州大学奥斯汀分校和康奈尔大学的研究者而言,这些措施在机器学习时代已经不堪一击了。
通过深度学习工具,这个三人团队可以识别高度模糊的面部和数字。在一个行业标准的数据集中,人类只有0.19%的识别准确度,而算法则有超过7成的胜算(在可以猜测5次的情况下胜算达到了83%)。该算法并不会制造去模糊的图片,它只是能识别从模糊图片中看到的东西,基于它已经知道的信息。这一方法对马赛克和P3同样有效,后者是一种被视为可以安全隐藏信息的JPEG加密方法。
今年,专门用来看穿模糊图片和马赛克的工具如雨后春笋般冒出,比如马克斯普朗克研究所的一款识别脸书上模糊人像的工具。德州大学和康奈尔大学的研究与众不同的是它简单。他们使用了Torch(一种开源深度学习图书馆),神经网络Torch模板和标准开源数据。
「我们用的是乞丐版方法,东西都是现成的,」康奈尔大学的研究合著者Vitaly Shmatikov说。「找来一堆训练数据,扔一个神经网络,在扔一个标准图片识别算法,于是我们得到不错的结果了。」
Shmatikov承认,考虑识别的语境线索的话,普朗克研究所的成果更加高端。但是他说他的简单方法已经充分说明隐私保护形同虚设。
为了做演示,研究者们用油管视频工具找来一些图片和模糊的人脸。然后他们将这两组图片都交给算法处理,从而它能够将模糊的图像跟清楚的图像建立联系。遇到同一个人的不同照片时,算法一次性识别准确率是57%,5次识别的准确率是85%。「这玩意很简单,」研究合著者Richard McPherson说。「唯一的限制就是你拿来训练它的数据集。但是如果想搞,还是搞得到的。」
用油管模糊工具处理的图片可以被轻易识别
训练数据集可以是脸书上的头像,或者是网站上的员工目录。从数字到字母(甚至是手写的),网上都能找到训练数据集。McPherson和Shmatikov说,油管上推荐的模糊措施只能防人,防不了机器。
「在安全和隐私方面,人们尚未感受到机器学习的威力,」Shmatikov说。「除非有人用简简单单就找到破解之道,人们才会意识到自己的隐私不堪一击。」
[许叔 via quartz]
※马赛克打到了寿司上,日本人真的很会玩啊……
※这段全是马赛克的视频 感动了整个中国!从此 大家都记住了一个名字!
※王诗龄肚子被李湘上打了马赛克,网友秒懂原因
※真的没有打上马赛克!用八位呈现的世界名画
※《银魂》真人版:我看过马赛克最多的TV动画片