13

消失的人工智能 “法外之地”

 4 years ago
source link: https://www.huxiu.com/article/351313.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

MZfauuq.jpg!web

美国首都华盛顿特区,国会山庄北部。一阵笑声,从玻璃窗里传出。窗外晴空万里、绿野满坡,圆柱式门廊气势恢宏……

世界顶级立法机构的办公环境,果然宜人。

这一切,对于40岁就坐到参议院办公桌前的霍利(Josh Hawley)来说,他的黄金岁月才刚刚开始。

2019年,分水岭。

此前,他是美国密苏里州第42任司法部长。

此后,他是美国国会参议员。

作为一个每天都在上演“提案如何变成法律”的立法机构,美国国会的关键词本该是“庄严”。然而,国会却频繁“做客”美国脱口秀演播间。

很多年前,马克·吐温讲出了实话:“这是一群‘土生土长的犯罪团伙’”。

meIvAbu.jpg!web

而霍利在同僚中,保持着一项幸运的记录——本届美国参议院最年轻的议员。

对于政治家来说,年轻与激进都是优势。川建国拥有后者。霍利,两者兼具。

上任不久,他迅速成为共和党在科技产业问题上最响亮的声音。

MvM3iae.jpg!web

东边日出,西边雨。

一种浓烈的自豪感,正在“抖音在国外有多火?”话题的带动下升腾。

无数掌声,正在送给头条系产品——抖音面向中国以外市场的TikTok。

政客高亢激昂的演讲、TikTok节奏强劲的短视频,就像“含笑半步癫”,是洗脑、居家、旅游的必备良药。

而今,在美国,它们混淆在一起,成了一种不和谐的背景音。

北京时间3月5日凌晨,华盛顿特区,一场美国国会参议院的听证会,正围绕用户数据安全、隐私问题展开。霍利议员挥舞起旗帜,在个人主页用加粗字体写下大大的标题:TikTok是“危险的伙伴”。

faMBZjI.jpg!web

霍利早都准备好了。

他自信满满地坐在听证会的皮椅上,却久久未等到两位主角到场。

一则快报的标题是《TikTok和苹果,两公司双双缺席听证会》。

TikTok发言人告诉媒体:“我们感谢霍利参议员的邀请。不幸的是,短期内,我们无法提供能够为实质性的讨论做出贡献的证人。”

霍利坐在椅子上回忆,这是TikTok第二次拒绝参加听证会。

上次是2019年11月。

霍利能高兴嘛?虽然他知道自己这样做也只是为了吸引媒体注意,但是没有配合的演出,就是大写的尴尬。

“拒绝参演”后的整整一个月,TikTok都没有闲着,2019年12月赶紧发布了上半年《透明报告》,虽然内容不长,只有5页,但态度还是优秀的。Facebook自2013年起,也会定期发布。

RZRN326.jpg!web

一面,霍利等国会参议员已经开启团队作战模式,加入的参议员越来越多。

一面,TikTok呢,越来越争气。

在美国已下载超过1.23亿次。

在每月5亿活跃用户中,有2650万来自美国。

约有60%在16至24岁之间。

在不到18个月的时间里,美国成人TikTok用户数量增长了5.5倍。

议员们一边开会讨论,一边看着TikTok增长曲线往会议室天花板上窜。

霍利站立起来,说出他的好主意:

怀疑TikTok上传的短视频可能会泄露美军的秘密,对于美国能够接触到敏感的国家安全信息的人,禁止在政府设备上安装TikTok。

ZfyIVbf.jpg!web

公务员管公务员,没毛病。

在听证会后,TikTok觉得此事得当面解释清楚,表示:

“(我们)最近与几位国会议员取得了联系,(大家)有兴趣在不久的将来见面。”

除了可能的约咖啡、约饭之外,TikTok也绞尽脑汁。比如,计划建立一个“透明中心”,允许外部专家查看公司团队如何管理短视频内容。

据说,位于美国洛杉矶,将于2020年5月开放,共享源代码和公开独立安全措施。

这里的工作令人向往,每天都看各种有趣的短视频,像极了很多人疫情期间每天躺在床上的销魂姿势。不用愧疚,大家都中了毒,用户平均每天在TikTok上花费52分钟。

ERv2EjY.jpg!web

为了证明产品“无毒”,让美国用户“吃”得放心,TikTok快马加鞭复制出西贝莜面村同款透明厨房。

听证会上的一切发言,都是要宣誓的。怀疑、质疑、传闻,都可以让美国立法机构采取一定程度的行动,而不限于事后惩罚。美国立法机构质疑TikTok产品层面的数据收取、保存路径。

谁能想到,TikTok会和数据泄露界的“犯罪之王”脸书公司相提并论,同样成为讨论数据安全、隐私问题的焦点。

vEj6fuR.jpg!web

图为传说中的TikTok(美国加州办公室)

TikTok背过脸,轻轻拭去脸上的泪水,有些眼泪是因违反美国儿童隐私法,被罚了几百万美金而流下的。

华盛顿夜未眠,立法争论永不休。

这只是一道坎而已,九九八十一难在后面排队拿号。

2020年3月6日。

听证会的第二天,TikTok有了首位首席信息安全官Roland Cloutier,他也是一位网络安全专家,向抖音负责人朱骏(Alex ZHU)汇报。

3eENFnr.jpg!web

这一消息,霍利也注意到了。

中国互联网公司全球化的阻力好比台风天黑压压的乌云,有一朵,始终是数据安全和用户隐私。

东边日出,西边雨。

美国国会立法调查好比“鹰眼”,欧盟《一般数据保护条例》(GDPR)好比“鹰爪”。为保护数据,GDPR已经织起了天罗地网。一项强制性法律,保护的是自然人的“个人数据”,包括姓名、生日、信用卡、地址、病史、位置信息、行踪轨迹……

这个条例对AI技术的约束是从摇篮到墓地。“摇篮”是指,一开始获得授权,得用户点击“同意”;而“墓地”就是,数据用完了也不能存太久,还得抓紧时间删除。

《三国杀》里的曹丕说:“管杀,还得管埋”。

简单讲,数据是情报,是生产资料,AI技术极度依赖数据。没有汽油,劳斯莱斯再昂贵也只能观赏,无法行驶。缺了数据,再先进的AI也只能人工,无法智能。

所以,法例的约束会贯穿AI产品整个生命周期。窒息的高墙下,只留“合规”这个窄门,门后是欧盟市场5亿发达人口。

欧洲高度注重隐私和数据保护,这是文化。

第二次世界大战期间,欧洲建立了详细完备的个人数据库。结果,被纳粹用来清洗犹太人和迫害反纳粹人士。

欧洲600万犹太人的冤魂不散,致使很多欧洲人终身坚信,无论是出于何种目的,个人信息到后来一定会被滥用。

耶路撒冷灰暗的混凝土墙壁、静默的白色马安石地面、英文和希伯来文悼词,没有人再去打扰这份宁静。

3yMBR3V.jpg!web

二战结束五十年后,GDPR的亲大哥《95指令》出生(1995年)。2009年,亲二哥《欧洲Cookie指令》出生。你别误以为GDPR是一个人在冲锋。不,这是一家子在战斗(Cookie是互联网常用的用户跟踪和识别技术)。

程序员开玩笑会说:

“数据和女友不能分享。”

欧洲程序员再加一句话:

“这是法律规定。”

欧盟高管表态:“我们欧盟委员会(的人),并不反对来自大西洋彼岸的科技巨头,但是前提是,他们必须守规矩。”

美国互联网企业享受了全球化最好的一轮红利,俯仰之间,王公贵胄、皇亲国戚都难逃一考。

加试题目是:数据安全与用户隐私保护。

东边日出,西边雨。

TikTok是AI技术领域的“贵族”,有着领先行业完整的现代化推荐系统(含推荐算法、训练平台、后端架构的推荐系统技术栈),建设有大规模分布式实时机器学习训练平台和分布式高性能Parameter server平台。

海量短视频数据,“化作”充足的生产资料,使TikTok有能力探索最新机器学习算法落地。

TikTok在用AI算法改造自身业务的路上从来不迟到。甚至有外媒总结:“截至2020年,TikTok已成为全球最受欢迎的应用程序之一(至少对于某些年龄以下的用户而言),其成功由一些世界上最先进的AI技术推动。”

一位曾经就职于小桨科技(产品,微叭App)的视频推荐算法工程师告诉我:“推荐算法(的结果)要看留存率、点击率、活跃时长、播放时长,(公司)直接考核业务指标。不达标会被产品经理锤死。”

机器无电不休,算法日夜不眠,算法工程师在“拼命”,背后站着熬红了眼的产品经理。

aIBbUbZ.jpg!web

AI早已应用于挽回用户流失等功能。

产品经理一边唱着“爱我,别走……”,

一边伸出胳膊指挥:“再次对用户投放广告,精准挽留。”

“你的偏好,我知道。”用户每一次上翻、下滑、点赞,都是一份《产品改进意见书》,背后还有今日头条 AI lab 的支持。

AI技术渗透的力量,摧枯拉朽。一个没有智能算法的TikTok,已经不可想象。

东边日出,西边雨。

GDPR的余音回响,欧洲版的营业执照,一照难求。

2020年,当你打开GDPR认证的网站,可以看到许多站张熟悉的中国面孔,华为、小米、OPPO、美的、第四范式。OPPO进军欧洲市场,其认证的产品种类之多,居然包括了计算器(Calculator)和钟表(Clock)。

Nz2I7jr.jpg!web

李鸿章在给同治皇帝的奏折上写下,“三千年未有之大变局”。

变局已成定势,做好思想准备和工作准备。

美国已死,欧洲苟活,人工智能法外之地会一寸一寸消失。

来者,需要拥抱高墙、窄门。

拥抱合规、限制、约束。

拥抱枷锁、脚铐、铁链。

将思考的维度上升到管理与合规,渗透在技术思考之中,包括在框架之内,体现在解决方案里。而不是绕着它走。绕也绕不开。

这些,要看企业是否愿意付出额外努力。

第四范式创始人兼CEO戴文渊的答案是:我愿意。

戴文渊,总是讲话温和,语速平缓,但是一旦你给他抛出问题,就能感受到清晰、缜密的思考力。

他说:“从技术手段上讲,保护隐私和数据安全是有办法的。不是没有办法,而是说,想不想解决?愿意花多大的代价去解决?”戴文渊似乎没有对GDPR低头。

他轻描淡写地提了一句,“第四范式的先知平台,已经是国内首个通过GDPR认证AI平台”,这一句更是增添了上一句话的底气。

突然想起香港应用科学研究院的一位博士也说过类似的观点:“技术上翻越肯定是可以做到的,只是很多时候不愿做,或者懒得做。”

业界有一个声音:

机器学习是一个有难度的技术,是“难度一次方”。

机器学习想落地,变成“难度二次方”。

再解决隐私保护问题,这又是一个很有难度的问题,变成“难度三次方”。

解决这些技术问题,专家不是一般的专家,既要懂机器学习技术,又得懂隐私保护技术,还得懂业务。要求是非常高的。

用金庸的话说,练成易筋经,需体质强。练成乾坤大挪移,需内力高。练成独孤九剑,需资质慧。想成为攻克“难度三次方”的专家,需能运用多种武功入化境。南帝北丐很难批量培养。望眼整个武林,还好有一代宗师。

一代宗师可能会说:

“解决好隐私保护问题,看上去是一个技术问题,实际上是,人工智能的从业者要有一种思维的变革意识。将对文化、制度、法律等“社会因素”的思考融入代码、模型、架构、解决方案……”

第四范式主任科学家涂威威告诉我:

“隐私保护作为一个学术问题已经走了很长一段路了,较早之前的需求来源于企业自我保护。个人关心隐私,企业关心的是商业机密。”

涂威威用两句话概括了隐私保护技术的昨天,继而又谈起它的现在。

他总结到:

“隐私保护就是一个矛与盾相争的过程,大家都研究又会出现哪些新的攻击手段,又有什么方法可以保护。”

“隐私保护会涉及到非常多种类的技术,有底层的,也有最近几年才奠定起基础的。涉及的技术种类多,不是为了卖弄技艺,而是面对的情况复杂。”

拳守“数据安全”,脚护“隐私保护”。

易筋经、乾坤大挪移、独孤九剑,演变成“差分隐私算法”“安全多方计算”“自动多方机器学习技术”“联邦学习”。

当细数起这些“厉害的”技术,涂威威的语速加快,仿佛不需思考。

“根据不同场景,有时可能是允许数据出去的,可以通过加密的方式出去,运出去的过程中别人是没有办法知道的,因为是加密的,这里参考图灵奖获得者姚期智老师的思想,用安全多方计算。

有时可能是不允许数据出去,出去的只是一些统计结果或者模型,这里参考香港科技大学杨强教授的联邦学习技术。”

香港科技大学杨强教授曾说:

“联邦学习希望在不共享数据的前提下,利用双方的数据实现模型增长。”

他曾举例:

“假设A和B两家公司想要建立一个用户画像模型,其中部分用户是重合的。联邦学习的做法是,首先通过加密交换的手段,建立用户的识别符(identifier)找出共有的部分用户。

因为关键用户信息并没有得到交换,交换的只是共有的识别符。再将各自拥有的同样用户的不同特征输入,迭代地进行模型训练、参数交换。

我们证明了给定模型参数,双方不能互相反推出对方拥有的、自己没有的特征,因此用户隐私仍然得到了保护,双方的模型性能都得到了提高。”

姚期智院士、杨强教授……宗师们总有无上智慧。

“为什么第四范式会做隐私保护技术?”

涂威威的答案是:

“第四范式作为一家创业公司,初始做隐私保护技术是出于一群有理想的年轻人的前瞻性预判。一种来自技术本能的预判,数据孤岛迟早要打破,当打破发生之时,这个技术成为必备品,只靠‘解决信任’路途尚远。”

然而,现实的磨砺很快降临在向理想前进的路上。

涂威威说,我们的“一只脚”伸入到了金融,为什么是金融,因为金融的数据是最完备的,我们的技术是在数据之上做决策,必然选最完备的行业。

“一只脚”后,金融、医疗行业对隐私保护的需求推动了技术的另一轮发展。比如,第四范式经常参与银行竞标,《招标书》里,绝不会少了数据安全性条款。

涂威威在以往的《银行招标书》中划好了重点,并指给我看。

“隐私数据保护技术,苹果、谷歌都在用,谷歌早在2016年就提出了本地化差分隐私(Local Differential Privacy)技术,并成熟应用在产品数据采集阶段,第四范式的优势在哪?”

涂威威越谈越从容,带压力的问题也难不倒他。

他说:

“第四范式也提出应用在机器学习模型上的差分隐私技术,我们将训练数据按特征切开,并分别去训练,按特征重要性来进行隐私预算的分配,重要的特征分配较少的隐私预算,不太重要的特征则分配较多的隐私预算,从而保证了在相同隐私保护的条件下,获得更加有效的分析结果。”

涂威威的回答,就好像准备了答案,细节中处处都有巧思,无法容下不满意的蛛丝马迹。

话声未落,他就在草稿纸上手写了一篇学术论文的题目《Privacy-preserving Stacking with Application to Cross-organizational Diabetes Prediction》。

论文只是在工业界解决问题时的“副产品”,他想把荣誉感写在产品上。

他介绍,在公司的算法实验室里完成工作后,其实还有两个重点,一个是自动化,一个是场景。

他谈道:

“隐私保护,如同加密,解密。暴露的中间过程越多,泄露隐私的可能性越大。比如,AutoML(自动机器学习)之所以能够减少隐私的泄露,其实就是减少了人触碰数据的机会,减少人去分析特征,减少人在各个环节泄露隐私的可能。让机器去完成中间的过程,最后输出结果。自动多方机器学习就是隐私保护的自动机器学习,中间的过程全部是自动化完成的。”

他的答案中,技术细节多,观点少,唯有这句:“算法的未来就是自动化,不能自动化的算法,剩下的路也不长了。”

余音未尽,尚在绕梁。

场景落地又是另一场硬仗。他压低声音说了一句:

“如果不是瑞金医院的瑞宁知糖项目(预测三年后患糖尿病的概率以及个性化的干预),医疗算法团队都要稳不住了。”

创新,有时候就是下了一步险棋。

涂威威和也和我讲了“作弊”的办法:

“从某种角度讲,成本最低、效率最高的方式是侵犯隐私。”

好比打扑克偷看别人手里的牌。如果全世界艾滋病药厂知道了患有艾滋病人的家庭住址,就不需要打广告了,直奔病人家,挨家挨户兜售不就完了。

广告费都省下了。

别人披荆斩棘,你通过践踏个体隐私直接抄了近路。

法律会让你一直痛快下去吗?

企业选择用技术保护隐私时,其实是选择了一条“刀光剑影”的路。说不定就会像涂威威一样,没有好的落地场景,变成“光杆”。

观察发现,不少企业也在“研制隐私保护的秘诀”。由于金融行业是数据界的富豪,联邦学习技术被用于中国首家互联网银行——微众银行。微众银行也在推动“联邦学习”的标准。

从某种意义上讲,这是一份全球领先的标准。联邦学习作为隐私保护的代表技术,并没有被欧美大厂垄断。

在隐私保护的江湖里,中国人工智能从业者并不甘心屈服于国外标准。

招商金科(招商银行下属金融科技公司)一位不愿意透露姓名的研发高管告诉我,他们也参与了“联邦学习”第二版标准的制定,但不便于接受采访。

“京东集团也在使用联邦学习保护数据隐私。”京东大数据研究院首席数据官刘晖告诉我。

东边日出,西边雨。

流量、广告、品牌……的老故事,已经翻篇。中国互联网企业想变成全球互联网企业,光靠突破Facebook、Google、Amazon的防线,已经不够了。企业的战场向四面八方延伸,“法外之地”正在消失。

在别人看来绝望的事情,“创新者”与“创造者”总能从中找到希望。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK