深度 | 大数据之殇 - JOYK Joy of Geek, Geek News, Link all geek

毫无疑问，作为技术概念的“大数据”拥有光明的前途，它是人工智能的基石，是未来世界的“石油”。但作为生意的“大数据”，在中国正走到一个关键的转折点。

从业者都很焦虑。对大众来说，2019年3月以来，围绕着“大数据”而密集发生的丑闻似乎是一种监管加紧的信号——前有“315”晚会上集中曝光的大数据黑色产业链，后有号称拥有8亿国人真实信息的“大数据公司”——巧达科技被查。但对于一向嗅觉灵敏的中国大数据行业的从业者们来说，这并不突然。

从2017年底开始，中央网信办、工信部、公安部和国家标准委等部门就开始密集合作，针对国内大数据行业野蛮生长中的各种乱象展开各种行动。进入2018年，相关工作组先后多次对微信和淘宝等“国民级”应用进行隐私保护评估，提出整改意见。同时，重点垂直行业和地方监管机构也明显提高了约谈频率。2019年2月，银监会和保监会约谈银行高管，谈及app收集信息的问题；上海网信办连续约谈辖区内应用程序，而北京市公安部门也在“净网2019”行动中将“非法爬取数据”作为整治重点。

2019年1月，中央网信办、工信部和公安部牵头的多个机构开始对违规收集数据信息进行专项治理，被业内形容为“史上力度最大”的治理行动。此后，相关部门还着手制定“大众化应用基本业务功能及必要信息规范”，3月，工作组更直接在微信上开通公众号“App 个人信息举报”，直接接受用户的侵权举报，并在4月就对30多款应用提出整改要求。

在PingWest品玩与近10名来自大型互联网公司数据部门以及“大数据公司”的从业者的接触中，他们普遍认为，315晚会“抓典型”和“巧达数据”被整治，更像是一系列行动的结果，而非开始。

“其实能感受到所有的环境都跟两年前不同了，美国有Facebook出的事，欧洲又有GDPR（《通用数据保护条例》（General Data Protection Regulation，简称 GDPR， 为欧盟条例——PingWest品玩注），以前觉得这都不影响我们国内的业务，但去年以来一扭头却发现，国内管得也更严了。”一家总部在杭州的电商公司相关数据算法部门的团队高层对PingWest品玩说。

然而，无比焦虑的从业者们似乎仍然没有意识到，监管层面的变化背后，本质还是国内广大用户们数据隐私意识的觉醒。

“我们最近的政策法规研究以及行动的节奏很大程度是受到大众对隐私保护的意识觉醒的影响。”一名接近公安第三研究所网络安全法律研究中心的人士对PingWest品玩透露。他们正参与到多部委联合推进的个人信息保护法律法规研究中。3月上线的“App 个人信息举报”微信公号投诉平台，某种意义上就是在帮助法规制定者们更直接的感受大众的态度。新华社的一篇报道介绍这个公众号处理投诉的方式：“对于用户实名举报的信息，工作组逐一与举报人沟通。”

很明显，在监管者以及广大用户看来，“大数据”在中国作为一门生意，如今在各个环节都已出现必须纠正的问题。

谁的数据，被谁拿走了？

2018年4月23日晚，北京市公安部门公布了此前“巧达数据”被查案件的细节。这也与PingWest品玩与多位从业者探讨时的判断接近：一家被巧达数据爬取过简历数据的公司，向公安举报了巧达。之后北京警方在数个月的调查取证后，将其作为”净网2019“行动中的典型，予以处理并拘捕了公司实际控制人。

图片来源：北京市公安局海淀分局公众号

根据警方通报：“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段，绕过该公司服务器防护策略，大量窃取存放在服务器上的用户数据…… 经初步查明，巧达科技公司采用技术手段在未经授权的情况下，恶意窃取上述报案公司的用户数据，并将其用于自身经营。”

也就是说，巧达的问题首先出在其过激的“爬虫”行为上。

“爬虫”指的是开发者设计一套程式让它按照一定规则，自动抓取互联网上的海量信息。一位曾在巧达数据短暂工作的员工对PingWest品玩表示，他们的团队有不少来自主流招聘平台的员工，他们往往对前公司的系统比较熟悉，能够更高效地爬取平台上的简历，在反爬虫措施出现之前完成足够多的抓取。据他介绍，这种爬取招聘网站简历的方式，在所谓的“简历大数据”公司是一种常态。

与巧达数据收集数据方式相似的还有许多，比如总部位于上海的e成数据。e成数据的员工对PingWest品玩透露：这家公司的数据来自猎聘和智联招聘等网站爬取，其官方网站声称“积累了1.3亿份有效简历”。今年3月，e成再次获得C轮8000万人民币的融资。

总部在武汉的“简寻”，同样主打爬取公开简历的生意，其官网显示“产品可通过自然语义处理的技术爬取简历”，实质也是通过爬虫技术爬取几家主要的招聘网站，这家公司在去年完成千万级A轮融资。

此外从事类似生意的创业公司还有很多，多数处于天使轮阶段。

“从这个角度看，巧达数据像是被当作典型给抓了。或者也是因为它做的太大了。”上述员工说。

此外，虽然此次的公告中没有提及，但据PingWest品玩了解，巧达数据还涉及购买“非法获取的数据”的问题。上述员工对PingWest品玩透露：他多次参与过团队在一些业务领域的竞标活动，也就是多家“大数据公司”竞争同一个服务客户，尝试为其提供数据分析等服务。而在竞标前，他们往往会密集从黑市上买进大批数据。

“巧达自己有许多接口能拿到简历，并不会将大部分精力放到撞库等做法上。但那些数据中介可就不是了，他们每天就是撞库，什么数据都有。”

“撞库”指的是利用已经泄露的用户信息，去尝试批量破解用户在其他网站上的账号。据巧达离职员工介绍，在特定的招标前，他们会购买与此次竞标贴合的特定类型的数据，用于提供更多维度的交叉验证，让自己的数据能力在竞标时看起来更强。

根据多家媒体此前的报道，这类提供敏感数据的“数据掮客”大量活跃在暗网中，链条大致是“黑客通过攻击获取数据，之后在暗网卖给一些数据中介，数据中介再转手多次，卖到那些需要这些数据进行精准营销的公司手里。”一位从事数据埋点的工程人员表示。

“所以，当你看到最后这些公司花了多少钱买来这些高度隐私的真实数据时，其实价格已经翻了几倍，而且这些数据只是露出水面的冰山一角，下面藏着的被获取和交易的数据，隐私和敏感度还要更高。”

这种生意随着“精准营销”和“个性推送”的走红而需求大增，一些“明星公司”也开始做起类似的生意。最典型的当属新三板上市的数据公司“数据堂”。

2018年7月，新华社报道，山东省破获的“特大侵犯公民个人信息案”中，数据堂“在8个月时间内，日均传输公民个人信息1亿3000万余条，累计传输数据压缩后约为4000G”，这些数据包括手机号码、上网基站代码等40余项信息要素，“记录手机用户具体的上网行为，甚至部分数据能够直接进入公民个人账号主页”。而将这些数据以产品的形式出售，是数据堂这类“大数据公司”的重要业务形式和收入来源。

据上述巧达员工透露，巧达数据自己其实也在扮演着”数据中介“的角色，其CEO曾高调地表示：“简历是最有价值的自然人数据。巧达数据通过大数据及人工智能技术研发的认知引擎，能够快速还原网上自然人的清晰画像。”本质上这部分生意就是在贩卖“真实数据”，这与大部分的“数据中介”所从事的地下业务十分相似。

随着大数据概念的兴起，中国诞生了一大批自称为大数据公司的初创企业，它们为那些不具备数据采集、分析能力的大量的中小互联网企业提供数据服务，并借此积累起自己的数据。这种长尾效应让他们的数据库也十分可观，他们往往像巧达数据一样，一边会从其他渠道购买数据，一边也会以同样方式销售自己收集来的数据。这些大数据公司和以BAT为代表的本身拥有海量用户数据的公司一同，成为数据最主要的归处。

而据PingWest品玩接触的包括百分点和同盾等在近几年高调地将自己定义为“大数据公司”的数名现员工以及前员工证实，他们普遍都购入过来自“黑市”的数据，且多发生在一些竞标之前。

这种事实上违法的获取方式，在这些大数据公司的PPT中，摇身一变以“外部购买”的名义暧昧呈现。“其实业内的人都知道这是什么意思，你能从哪买啊，最大的数据要么就在BAT手里，人家没必要卖给你赚这点钱，要么在政府手里，不会卖给你。你能买到的有用的数据，就只有那些渠道。”

这背后的数据归属明显存在严重问题。黑产市场的数据掮客，一向是警方严打的对象，他们在非法售卖公民个人信息上的犯罪事实比较明显，尤其在《网络安全法》发布并实施之后，整治和惩罚都更加严格。与此同时，通过爬虫进行数据爬取的行为，在近些年也在产生越来越多的纠纷，监管者也在处理过程中逐渐建立应对的逻辑。

2015年，新浪微博将职场社交app脉脉告上法庭，指责后者在合作协议之外爬取了大量微博平台上用户数据，并在合作终止后拒绝删除数据。案件经过近两年审理后，在2017年初终审判决，脉脉被判“不正当竞争”。这起案件被许多律师视作标杆性的判罚。其中明确的爬取其他平台用户数据时的“三原则”，在之后贯穿于国内的各类判罚中——当两个平台希望就数据进行分享合作时，数据提供方应首先取得自己用户的同意，之后当数据获取方收集数据时，应获得数据提供分的授权，并且还需要再次告知用户，并再次获得他们的授权。也就是“用户授权+平台授权+用户再授权”三原则。

在这种逻辑下，2017年大众点评起诉百度爬取其网站数据的案子中，百度败诉；2019年3月，天津市滨海新区人民法院就微信起诉抖音擅自获取微信用户数据一案作出判决，要求抖音立即停止将微信/QQ开放平台授权登录服务提供给多闪，停用此前获得的微信用户头像和昵称等，而今日头条决定继续上诉。

尽管没有直接对爬虫行为进行约束的法律法规，但在这些案例中，最常用到的法规包括《反不正当竞争法》中，第十二条第二款规定的“经营者不得利用技术手段……破坏其他经营者合法提供的网络产品或服务正常运行的行为”。而涉及刑事犯罪时，往往触犯了《刑法》第285条规定的“非法入侵计算机系统”罪。

爬虫的问题在美国互联网界也屡屡成为争议的焦点，其中《1986年计算机欺诈与滥用法》（CFAA）是经常被援引的条款。CFAA规定，未经授权及超过授权故意访问计算机，并从有保护的计算机获取信息，都构成犯罪。严重者甚至可能是刑事犯罪。

不过，2017年著名的“hiQ VS Linkedin” 的判决，却显示出与国内大部分判决不同的思路。Linkedin指责创业公司hiQ爬取其网站数据时违法其使用条款，但hiQ认为其爬取的都是公开数据。最终加州法院“站”在了爬虫方一边，认为Linkedin被爬取的数据都是网站上的“公开数据”，且单靠Linkedin单方面的条款和事后发出的警告，都不足以触发《计算机欺诈与滥用法》,反而是LinkedIn有利用市场领先地位不正当竞争的嫌疑，法院要求它解除对hiQ爬虫设置的临时禁令和IP封锁。

研究个人信息数据保护的公众号“Martin的读书笔记”在分析这些爬虫判例时认为：美国对爬虫“正在慢慢突破合同法思维和CFAA的限制，开始更多考量公共利益的优先性。”

但仔细观察这些案例会发现，无论是在国内的案例还是美国案例中，更多的关注点在于平台之间的数据归属争议，却往往有意无意回避了一个更重要的问题：在平台彼此争夺数据归属的背后，真正产生数据的用户对数据的归属拥有怎样的权利？

要回答这个问题，就需要弄明白用户的数据究竟是如何被互联网公司获取的。

用户知情权与“低隐私社会”之争

“如果需要，其实我们可以还原你使用我们app时在屏幕上的所有操作。”一名总部在上海的O2O公司数据部门相关负责人对PingWest品玩表示。“你先点了哪里后点了哪里，你上下滑动屏幕的速度，你停留在哪个产品时间较久，我们在后台都知道。相当于给你的所有操作录屏，并且传回了我们这里。”

当然，这些app并没有真的给你录屏，实现这种“恐怖”的数据收集，依靠的是“埋点”技术。也就是在特定的位置加入相应代码，收集用户在这些位置的操作行为，并发回到后端进行收集分析。这种技术早已是互联网公司的标配，如今常常以一个SDK（软件开发工具包）的形式添加在应用程序里。用户在使用应用的过程中，不知不觉地就被应用收集了所有数据。

“今日头条的SDK除了收集用户在使用中记录下的关键词和阅读行为外，还会通过获取你的第三方社交产品账号，来分析你的性别，通过获取你的机型信息来分析你的年龄，另外还有地理信息，用来推出你的工作地点和生活住所等。” 今日头条资深算法架构师曹欢欢在一次公开分享中表示。

而随着精准推荐的需求越来越高，采集数据的需求也跟着增加。“到最后，数据采集的埋点越来越多，几乎成了全范围的埋点，管它有用没用都先采集回来再说。”上述O2O公司员工说。而在这样的思路下，许多对用户来说十分敏感的数据信息，也成了采集信息的目标。据两名知情人士对PingWest品玩称，今日头条已经开始采集用户安装应用的列表，用于分析用户的特征。而这样的权限在其他一些大厂的数据采集中是“不敢碰”的。

而对于那些没有能力自己埋点，或自己埋点性价比不高的中小企业来说，则普遍选择使用第三方的SDK（软件开发工具包），这些SDK由近年来诞生的“大数据公司”提供。

由于这些埋点和SDK的行为都是由互联网应用自己决定，缺少技术知识的用户很难反过来进行监督，无法搞明白自己到底哪些信息被收集。更多时候，是分发这些应用的应用商店来对应用的程序包进行审核。其中，由于苹果的封闭生态，iOS系统的应用都只能通过苹果App Store分发，苹果对应用调取的权限等规定更加严格，iOS系统向这些应用分享的底层数据也较少。但作为开源的Android系统，可以获取的底层数据权限相对更多。

“比如，同样的一个应用，Android版的往往能更加准确地获得用户的位置数据，就是因为它底层的Wi-Fi列表数据是可以获得的，我通过分析Wi-Fi属于哪个店铺，结合GPS就能获得更准确定位，但iOS的Wi-Fi列表权限不开放给第三方应用。”一名资深App开发人员表示。

而且，国内各类应用商店也更加鱼龙混杂，在审核上尺度不一。这些因素在一起造成许多安卓应用，在获取权限和收集数据上变得十分贪婪。而尽可能多的获取用户各种行为数据，也成了第三方大数据公司们竞争的焦点。他们推出的SDK要求的权限不断增加。

据了解Talking Data相关业务的人士介绍，其提供的SDK 有能力收集与用户蓝牙配对的其他移动设备的信息，能够收集Android用户设备上的安装程序列表，一方面可以用于借此分析用户的喜好，另一方面也借此统计各类app的市场占有率，后者是其数据分析业务的重要组成。

类似的模式普遍存在于这类通过提供SDK而进行数据采集和分析业务的公司中。关注移动互联网行业的人会经常看到如TalkingData、易观和个推等企业发布的行业份额类的数据报告，这背后就是基于它们广泛提供的SDK。

而近几年，这些公司都开始主打“可视化无埋点SDK”技术，让购买服务的公司可以通过直观的可视化操作页面完成数据采集——“使用者不需要有太多代码知识”。

但这也引起一些技术人员的质疑。“所谓无埋点，其实是全埋点，能埋的都埋了，能收集的都先收集走再说。”一家在杭州某电商类创业公司从事数据分析的工程师对PingWest品玩表示。“而且，我认为这种傻瓜化的产品和宣传，其实造成的一个更危险的问题是，那些真的不懂或者不去关注这些第三方SDK的使用者，一方面不知道自己平台的哪些数据共享给了这些第三方公司，另一方面甚至有时候不知道自己触碰了用户的哪些权限和数据。”

每个提供SDK服务的大数据公司，都会把收集来的数据中的一些“占为己有”，从而丰富自己的数据资源，然后再把这些资源反过来集成到所谓的数据分析平台上，卖给客户。也就是说，这些数据并不是只用于收集者自己的平台，而是作为某种商品进行了出售。

大数据公司百分点为此提出一个新的概念——“第二方数据”：“指企业和合作伙伴共同拥有的数据，所有权如何分配是商谈出来的。在使用这些数据时，也要遵循双方共同的利益”。

但在这过程中，用户却完全缺席，这些数据采集过程中，很多都没有经过用户的同意授权，甚至是没有明确告知用户。最近频频出现的怀疑app“监听”自己，指责输入法泄露自己隐私等新闻，就都是来源于用户的不知情。

在2016年时，Google Play就曾集中下架一批使用TalkingData SDK的应用，原因正是过度收集用户数据。之后TalkingData对外表示这是“沟通误会”，并在之后单独为Google Play 设计了一个改良版本。而据上述知情人士介绍，对国内各大Android应用市场的版本，依然可以获取被视为高度隐私的权限。“这样的现象不只是TalkingData，类似个推等其他提供SDK服务的第三方公司，其实都有这样的现象。”而绝大多数国内Android用户的app正是来自这些应用市场。

talking data 为Google play商店版提供的sdk介绍页面

对于这些数据采集的行为，大数据公司们的一个常用解释是，数据已经“脱敏”。但目前全行业并没有关于脱敏的统一标准，也没有相关详细法规。脱敏与否，完全成了大数据公司们的一种自觉，全靠一家公司的“底线”和价值观来决定。

而与此同时，随着各类公司对精准营销和个性化推送等效果的更高要求，对“用户画像”的极度痴迷，客观上形成了谁越能无限逼近用户的真实身份，谁的数据服务就更有吸引力的事实。这种商业上的动力和脱敏的安全考量之间出现了明显矛盾。很多漏洞也因此出现和被利用。

比如，在目前的许多第三方大数据公司的数据库中，在脱敏处理后，用户数据也依然会被分配各自的独立ID。但是很多app其实同时都在收集用户的设备号，其中主要的是手机的Mac地址和机器的IMEI号。前者全称Media Access Control,是手机网卡的ID，用来定义网络设备的位置。后者是 International Mobile Equipment Identity，相当于机器的身份证。两者都具有唯一性。尽管第三方公司将自己分配的独立ID形容为一种将用户真实身份去掉的方式，但显然，只要将两者对应，这些ID本身依然是一种真实信息。

而在电信实名制的当下，想要让ID直接变成真人，只需要一步：当这两个数据与电话号数据对应上时，用户的真实身份就会彻底暴露。

今年315晚会上曝光的“探针盒子”，就是用来完成这最后一步。据央视的调查，这个设备能在发现用户手机信号后，识别出用户手机的MAC地址和IMEI号，并利用背后的“大数据技术”，将这些设备号转换成手机号码。

随着用户被收集的数据种类越来越多，用户的隐私变成了一张拼图，要不要把用户的真实信息“拼”出来，完全取决手握这些拼图的大数据公司们自己。

“目前很多案例都是集中在厘清平台之间互相争夺数据的问题，但之后肯定不可避免的要深入到，用户自己对个人数据的权利的问题。” 接近公安部第三研究所的人士透露。

最近一年，各类公司过度收集用户数据成为整治的重点。据新华社报道，中央网信办、工信部、公安部和市场监管总局在今年年初成立app违法违规收集使用个人信息专项治理工作组，“截至4月16日，举报信息超过3480条，涉及1300余款app。对于30款用户量大、问题严重的app，工作组已向其运营者发送了整改通知。”

这些举动像是一种铺垫，背后是相关部门对个人数据权利的思考。

上述人士表示，在个人数据权利方面，相关部门一直在密切研究欧盟的GDPR，也就是欧盟去年5月开始实行的《通用数据保护条例》，它是全球现行的最严格的数据保护法案。而研究者对其过于严格的监管仍存异议。

比如，GDPR中提到用户的数据可携权，要求Facebook和Google等主要网络将用户的数据“还给”用户，由用户直接跨平台掌握自己的所有数据。“这显得过于激进。”

“过去的那种宽松，事实上是两方面原因，一是监管跟不上业内的技术；另一个也是因为，监管方面还是有些倾向于管的太严会扼杀创新的观点。”上述人士表示，这种倾向依然会继续存在下去。

再比如，GDPR里的引言部分直接提出的“匿名化”的概念，规定个人数据要移除可识别的个人信息，与此同时在法案中对个人数据作出详细罗列，位置数据、IP地址、MAC地址都属于个人数据。这些数据在匿名化中必须抹去。

但作为对比，2019年4月10日，公安部第三研究所等机构联合发布的《互联网个人信息安全保护指南》中，在提到个人信息的保护时，则避免了使用“匿名化”这个比较激进的概念。“我们的概念还是和欧盟GDPR的匿名化有些不同的，最后我们只是直接引用《网络安全法》里的概念。” 相关人士表示。在这份指南中，对个人信息的保护要求的描述为“经过处理无法识别特定个人且不能复原” 。

“总体上你能看到有两个思路，保证用户隐私肯定是第一位的，二则是，数据只在用户手里是没有价值的，所以还是要鼓励公司对数据的合规处理。”上述人士透露。

最高人民法院司法案例研究院4月的一篇文章也透露出这样的思路。文章指出，解决用户个人数据保护的关键在于“区分包含用户个人信息的原始数据与处理加工形成数据产品后的衍生数据，并分别判断归属”。文章认为，原始数据归属于用户，而衍生数据则归属于运营公司。这样不仅能合理平衡双方利益，更能“鼓励网络企业不断进行技术创新和产能创造，促进社会总体财富增加的需要。”

这些年这种客观上“先发展再监管”的环境，导致许多互联网公司根本的商业模式有很大一部分已经是基于这种野蛮的数据收集以及分享的基础上。此外，人工智能发展中最为关键的算法模型，也极度依赖这些数据。

海银资本创始人王煜全就认为：在人工智能的竞争中，焦点就落在数据上，随着企业越来越多的把数据拿出来给机器训练，人类正进入一个低隐私社会，这成为一种不可逆转的趋势。

而这就导致事到如今，大数据从业者们对“隐私”的理解与用户产生了差距，一提到保障隐私，大数据行业给出的应对往往是“不再和其他平台分享数据”，而用户希望的则是连你这个平台自己也干脆不要收集我的数据，出现了明显的沟通障碍。

在这种情况下，监管部门也不可避免的要面对两难的处境。一个可能的方式是，首先让用户和大数据公司们回到一个能够沟通的状态中去。比如要求这些大数据公司用普通人听得懂的话向用户说明白每个数据采集行为的目的，获得用户的正式许可，并且通过一定的方式让用户分享利用他们数据生成的收益。同时，在法律层面很难明确对数据归属进行明确确权的情况下，可以通过更加严厉的事后惩罚机制，来提高过度收取用户信息以及贩卖用户信息等行为的成本，也为用户提供某种类似遗忘权的权利，让他们拥有更强的事后防御能力。

在大数据时代，数据的确是拥有巨大潜质的新石油，但若在用户权利和行业发展之间无法正确权衡，这种新石油也一样能带来巨大的污染。

深度 | 大数据之殇

谁的数据，被谁拿走了？

用户知情权与“低隐私社会”之争

这些举动像是一种铺垫，背后是相关部门对个人数据权利的思考。

Recommend

4月区块链融资月报：金额较上月环比下降69.7%，中美投资热情皆有所下降

浅谈声明式编程范式

ArmNeonOptimization/boxFilter at master · Ldpe2G/ArmNeonOptimization · GitHub

GitHub - aimerforreimu/auxpi: ? 集合多家 API 的新一代图床1557109902219163

嫌pandas慢又不想改代码怎么办？来试试Modin - 知乎

更安全的MySQL 8.0之全新密码策略

groupCache 源码阅读 | 织网

我是如何在一晚上拿到阿里巴巴offer的？

细谈 vue - slot 篇

有奖竞猜（88个集思录金币）永鼎转债5月8日开盘价

About Joyk