隐私保护，在法规以外更依赖技术

大数据话题下的优秀回答者

前两天，Tectonix出了个视频，展示了春假期间迈阿密海滩的人群，几天内是如何散布到全美国的。如此大规模位置信息的追踪，可以说是疫情防控的定海神针。但是，相关隐私问题的来龙去脉和行业现状，也需要深入理解。

首先，我们要正视一个现实：今天的互联网服务，已经深深植根于用户数据，并且创造了巨大价值。如果一定要对用户数据使用层层设防，无异于在倡导大家不用电器一样荒唐。

为了严控隐私数据收集和使用，欧盟颁布了号称“史上最严格隐私保护”的GDPR标准。据估算，严格执行这个标准的话，实施成本可能就要上百万美金，小公司其实无法践行。用力这么猛，真的能解决问题么？

依我看，隐私问题如同大禹治水，宜疏不宜堵，主要靠技术而非法规解决。只有在中美这种互联网产业高度发达的市场，才能产生足以对抗隐私侵犯的技术。实际上，这方面的法规和技术能力，近两年都在逐渐清晰化。只是由于中国互联网早期的粗犷发展，大家出于惯性而疑虑重重。

当然，部分用户隐私问题，确实可以通过法规约束来解决或改善。

您肯定用过这种软件，像忠实粉丝一样，疯狂地要求授权，痴迷地收集着你的个人数据：办公软件要GPS，天气预报要摄像头，不论谁都要麦克风。这都是些什么操作？难道用软件还得面带微笑、文明表达，要不然就算不上优秀用户，需要定点清除么？显然，这些明显超出使用范围的过度授权，都是对用户隐私的侵犯。

对于提供综合性互联网服务的大平台而言，获得的数据自然更加多维，所生成的用户画像也更精准一些，不过在合规基础上的数据收集也只是为了让广告的投放更有价值，不必太过担心。但是，相比对平台可能存在的数据过度收集问题，我们更应该警惕的是大数据黑产。

卖数据，并不是给广告主几个兴趣标签这么简单。怕的是把地址和电话给无良商家，直接往你家里发货到付款的快递。你糊里糊涂收完了打开一看，原来就是块泡沫塑料！这可是真金白银的损失了。

这引出了隐私领域的一个重要概念：像地址、电话、邮箱这些能直接找到你的信息，泄露给陌生人风险很大。这些信息，叫做“个人可定位信息(Personal Identifiable Information，PII)”。

近年来法规趋严，从主观意图上看，PII数据的泄露风险已经很低了。毕竟，掌握大量PII信息的都是有一定规模的公司。而如今，卖五十条用户数据就要负刑事责任，为了这点小钱铤而走险的公司，恐怕早就倒闭了。

那么，这些信息是怎么流出来的呢？多数情况下，是因为内部人员的泄露。显然，这里有技术管理的问题。

研发人员因为统计和建模的需要，总要接触到用户数据，这就不可避免有泄漏的风险。上回，某公司的用户电话和地址泄露，不就是技术往外卖的么？

怎么办呢？可以建立这样的数据使用框架：产品技术人员只能访问一小部分采样用户数据，用以调试程序；而全量数据上的分析，则在与开发人员隔离的账号上提交执行。这样，就可以有效避免内部人员批量获得用户数据。

实际上，以欧盟的GDPR为代表的隐私保护法规，其主要内容除了在管理流程上做文章，对数据范围限定的部分主要聚焦在PII。

那么除了PII以外的数据，又能带来多大的隐私风险呢？其实，文章开始的例子已经给了我们答案：想想看，只要给出你的某个熟人几天的数据轨迹，即使像是一些日常人际交往、外出旅行等非敏感信息，以你对他的了解，是不是也很容易认出他是谁？

这也就意味着，仅靠管理权限和限定敏感数据的收集是不够的，我们还需要从技术手段进行有效的个人信息保护。

我们之所以能认识到这样的风险，是因为Netflix的推荐算法大赛。那次比赛的任务是：根据某用户对看过电影的评分，预测他对某一部新电影的评分。当然，在数据集里，用户的PII信息都是被抹去了的。

无巧不成书，有位参赛者在浏览数据时，无意中翻到一条记录。看此人的观影记录和评价，这不就是某某同事嘛！为什么这么肯定？因为他们俩经常交流电影，结合观影时间、片单和评价，正好能和这位某某同事一一呼应上。

于是，这位参赛者定睛又一看，同事的记录里还有些同性恋题材的片子，是从未提起过的。显然，这个数据集以始料未及的方式，泄露了他的隐私。该同事得知后怒不可遏，一纸诉状将Netflix告上了法庭。于是，推荐算法大赛只办了一届，就寿终正寝了·。

《纽约时报》在2010年3月16日的《How Privacy Vanishes Online》文章报道

看来，即使不是位置信息，由于人的行为千差万别，一旦通过行为数据关联找到某个熟人，就可以发现他的更多秘密，这称为行为数据引起的去匿名化风险。

互联网上的个体行为数据，即使不是敏感的PII信息，在公开或交换时也要相当谨慎。

既然能通过行为数据去匿名化，那我们能不能空手套白狼呢？比如我们知道一个人的少量信息，然后像滚雪球一样，这边撸点儿，那边撸点儿，最后就能把这个用户查个底儿掉。

实际上这是可以实现的。具体怎么做呢？其实，玄机就在很多广告平台都提供的受众分析功能里。

比方说，我想知道某用户A的性别，可以先指定一个十人用户集，在平台拉出男性其占比是60%；然后，把A加入用户集，再查出男性占比是54.5%；两个比例做简单计算，是不是就可以知道A是女性了？

这叫差分隐私攻击，它是通过平台提供的聚合数据分析做差分运算，探知某个具体用户的信息。但兵来将挡水来土掩，大企业也有自己的防御方案，基本思想是在数据上加扰动，让差分攻击失效。

就我了解的案例，腾讯广告在提供受众分析时，就实现了对抗差分隐私攻击的方案：在给广告主提供的受众分析上，系统会加上一定的随机扰动，这样一来，简单直接的差分就无效了。

那我多拉几次数据取平均，不就可以去掉随机扰动了？没错。所以，系统还要让这个随机扰动，在一定时间内保持相对稳定。其中的技术细节很多，就不赘述了。

对于设备制造商来说，也可以在数据获取到云端时，实现差分隐私保护。这样一来，云端再有多么复杂的数据应用和交换，风险也都不大了。苹果手机从iOS10起，就引入了这样的方案。

总之，差分隐私问题要求我们，即使在提供人群上的聚合数据时，也需要精心设计算法，否则就如同裸奔。不过不用太担心，因为现在拥有大规模数据的平台，已经有了这方面的考虑和实践方案，否则不可能走得远。

有人说，只要有数据交换，我作为普通用户就还是不放心。那么，能不能根本不收集数据，又能完成系统必须的建模任务呢？这引出了一个有趣的新技术方向——联邦学习(Federated Learning)。

举个例子，输入法要根据用户的实际输入数据优化模型，如果不把数据收集到云端，能不能做呢？2017年，谷歌的研究员发表文章“Federated Learning :Challenges, Methods and Future Directions”，提出了这个研究方向。简单地理解概念，就是把模型下发到各个数据拥有方，它们分别更新以后，再到一个聚合方，同步成新的模型。整个流程如下图所示：

(图片来自“Multi-Institutional Deep Learning Modeling Without Sharing Patient Data: A Feasibility Study on Brain Tumor Segmentation”)

也就是说，不再需要从各个数据拥有方那里收集和交换数据，也可以完成建模的任务！当然，联邦学习具体的实现技术，以及适用于哪些场景，还是相当前沿的研究课题。如果想深入了解产业界这方面的问题和进展，建议大家参考微众银行的《联邦学习白皮书1.0》。

显然，利用联邦学习技术，可以在不将用户设备数据同步到云端的前提下，完成一些建模任务。比如，谷歌在输入法的“下一词预测”问题中，采用了此方案，并且取得了优于服务器端集中训练的性能。

联邦学习除了用于用户和平台之间的数据交换，还可以用于几家公司合作时，各自数据不便外流，又要完成联合建模的场景。最典型的例子，是相似人群拓展(Look-alike)问题：广告主甲有自己的种子用户，希望利用广告平台乙，拓展出相似人群，定向投放广告。

由于去匿名化风险，乙不会把用户数据交给甲；而甲考虑到信息安全或是法规限制(比如银行业)，有时也不能把数据交给乙。显然，采用联邦学习的方法，也可以实现这一建模任务。

最近，微众银行与腾讯广告RTA有一个应用案例，里面就提到了联邦学习技术。我们有理由期待，这样既保护了各方数据安全，又可以基于用户数据进行建模的方案，会逐渐成为业界的显学，而用户的隐私保护问题，最终会被不断进击的技术所解决。

另外，蚂蚁金服也在致力解决数据孤岛的问题。在其《共享学习：蚂蚁金服数据孤岛解决方案》一文中，该项技术被称为共享机器学习(Shared Machine Learning)。近来，蚂蚁金服还在IEEE（电气和电子工程师协会）等标准化组织正式立项《共享学习系统技术框架及要求》，参与了国际标准的制定。

这么看来，隐私保护这张试卷，对欧盟的职业政客们而言，有点超纲了。因为这里除了加减法，还有微积分。如果对技术复杂性考虑不够，那就好比小学二年级毕业，就要强行给出全部标准答案。最终的唯一结果，是让互联网创业成本徒增。反而是中国互联网市场在用户和数据规模的基础上，更有可能发展出成熟的隐私保护技术，对这一点，我深信不疑。

我是@北冥乘海生，想吸收更多负能量，请大家关注我的公众号“计算广告”(Comp_Ad)和下面的知乎专栏：

隐私保护，在法规以外更依赖技术

隐私保护，在法规以外更依赖技术

Recommend

平地抠饼型公司，CXO们怎么分工？

NBS：将以流量为根本、以技术为依托，打造重量级明星区块链项目

约炮，是权与利交易的剪彩仪式

KPI是怎样凑出来的？

腾讯广告终于迎来全面整合

干掉Tiktok只是打响了第一枪

听完吴声的演讲，我感觉智商梗阻了

比特币突破12年来新高，市值超26000亿，到底是什么在支撑它的价值？

后2万美元的生活——比特币突破历史新高后将何去何从

捉放Tiktok，特朗普摆了一场鸿门宴

About Joyk