上千万民工“标注”出来的今日头条们

fY7fUbu.jpg!web

出品丨虎嗅科技组

作者丨石晗旭

编辑丨宇多田

题图 | Vice Media

早上九点，刘吉手下20多个人就坐在各自的台式机前，眼睛一眨不眨盯着屏幕，没有任何交流。要不是手里来回移动的鼠标和屏幕点击声，外人会以为这些人统统陷入了“JPG模式”。

他们的屏幕上满是文字，仔细看去，都是用户给电商平台的留言：

“我的货还没到”，“什么时候能发货”，“周二可以发货吗”……

数据标注员熟练地给这些语句中出现的“语素”打上各种标签，包括情感、词性和用户诉求。而这样的句子，他们一天就要处理2000多条。

只有“学习”大量像这样打好标签的数据，所谓的“AI客服”才能真正弄懂人类想表达什么，从而做出相应的回应。

实际上，无论我们听到的AI技术有多酷炫，都无法掩盖其认知水平还不如5岁小孩的事实。

现阶段，让AI提升认知世界能力的最有效途径仍然是监督学习，刘吉团队正在做的数据标注是其中最基础的一环。

就像教小孩子一样，数据标注员通过打标签的方式，将数据处理成AI能够理解的特征。这些特征将指向一个结果，进而通过模型训练让AI可以将特征与结果对应，从而完成对某一类事物的认知——

其实就是一个在人类看起来极为简单的分类过程。

以自动驾驶为例，标注员们在图像上框选出汽车、行人等物体轮廓，这些轮廓标签反馈到AI训练模型后，无人汽车才能具备分辨周围物体的能力。

FFZFFzZ.jpg!web

图片来源：视觉中国

而让AI达到人类的认知水平，至少需要几十亿甚至几百亿样本的喂养。 这些样本只能通过人工一点点的拉框、标点来获得。

没错，智能的背后，是大量的人工。

像刘吉这样的团队，数据众包平台——莫比嗨客上还有30万个。他们都是注册在案的公司，平均有20~25个数据标注员，是一个个分布在贵州、河南、山西等地的小型数据工厂。根据中科院自动化所研究员王金桥的估算，全国从事这项工作的人已达到千万级。

这些数据标注员有一个被圈内人默认的外号： AI民工 。

他们中的大部分人教育水平不高，在各省的贫困县里，重复着单调的拉框、标点，像一台台每天高速运转8～15个小时的机器。

在他们看来，这跟在田里、工地里工作最大的不同是能够安稳地窝在办公室中——与其说是办公室，不如说更像一间网吧。他们机械地忙碌着，拿着微薄的工资(月均不到3000元)，全然不知自己参与的是值上千万的高科技项目。

YreAjeN.png!web

美国青年文化媒体Vice在2018年去中国农村小镇采访蜗居在那里的青年数据标注员

如今，除了互联网及人工智能创业公司外，越来越多的政府、学术机构等对AI的投入也在迅速增长。据IDC、浪潮报告预估，2023年，中国人工智能基础架构市场将超过80亿美金，未来五年年复合增⻓率达到33.8%。

但由于市场的分散，带着需求的甲方们很难找到经济又实惠的解决方案，在效率、质量、成本间难免有所取舍。

而对于大大小小的乙方们来说，拓展客户资源本就不易。在服务客户的过程中，依靠自己的能力兼顾团队产能、任务期限、价格、交付质量等环节毫无疑问是更大的挑战。

此前曾被彭博等多家知名外媒报道的硅谷公司Scale AI正在通过人机协作解决这些痛点。

Scale开发的软件可以实现对图像等数据的自动化标注，标注员们在此基础上进行审核及修改即可交付结果。

这款软件实现了Scale首席执行官Alexandr Wang提升数据标注效率的设想，“以往需要几小时的任务现在只需要几分钟就能完成”。

在Scale的启示下，莫比嗨客、格物钛（Graviti）等众包平台也开始探索智能化提升数据标注效率与质量的方式。他们正在将一部分的数据标注、任务分配、结果管理、激励机制等环节交给AI完成。

去年，Scale完成1亿美元融资，并达成近亿美元的销售额，在成立短短三年内便跻身独角兽行列。这不禁让人期待，中国数据服务巨兽的崛起。

效率与质量之痛

互联网、AI公司及政府、学术等各类机构的数据需求很难自给自足。

2017年，中国安防巨头海康威视全年共售出9800多万个摄像头。如果这些摄像头一年所能产生的数据总量是1500多万PB，那么中国的所有数据中心加起来都存不下这么多数据。

这种爆发增长的非结构化数据，当然需要相当大规模的人工进行处理。

莫比嗨客创始人刘端阳告诉虎嗅，字节跳动在全国一共5万多员工，其中在济南、天津、武汉的数据标注员就占到了4万人。

但字节跳动毕竟只是个例。

如果所有企业或机构都在内部建立动辄几百人甚至上千、上万规模的数据标注部门，承担的人力成本将极为高昂。而且一旦需求断档，这些闲下来的人员如何安排也是很大的问题。

所以，越来越多的公司正在选择成为甲方，将数据需求通过外包解决。一方面，可以交给有能力控制整个流程的数据工厂，如管理5000标注员的Testin云测；

另一方面，可以通过众包平台转接给分散的从业者们，如百度众包、京东众智等。

JNVf2a3.png!web

京东众智数据标注平台

但问题随之而来。

前者虽然可以统一地把控交付结果，但成本依然偏高，且其规模仍旧受限，只能在一定周期内满足一部分需求；

后者将大任务拆分成若干个小任务进行分配的做法固然实用，但由于供应商或兼职标注员的良莠不齐，对数据标注的完成度和准确率均存在极大考验。

前Uber自动驾驶工程师崔运凯回国后所在的第一家公司就深受其害。

2018年下半年，他们带着训练模型的任务找来了国内12家数据标注供应商。了解需求后，只有2家表示有接这单的能力。崔运凯选了价格便宜的一家。

没成想，这家公司不理解数据的最终需求就算了，连基本的标注工具都没有，竟然用Photoshop在图片上拉框。而圈内人都知道，AI只能接受CSV、XML、JSON等特定格式的数据。

“这（用PS）输出的格式能给AI用么？”他向虎嗅吐槽。

甲方到底要什么？乙方们也在暗自揣度。

随着AI应用的加速落地，数据工厂们已经清楚地认识到，报价低和提交的标注结果数量不再那么重要，准确率能否超越95%，达到97%、甚至99%才是自己活下去的命脉。

也就是说，甲方对数据质量和效率的要求早已凌驾于成本之上。

从这个角度来看，行业的缺口仍然很大。刘端阳创办莫比嗨客也是因为看到这样的机会。

“每年中国这个市场的规模差不多有三四百亿。但从数据采集和标注的角度研究，国内的公司其实没有做得特别好的。”

本来想继续做AI应用创业的崔运凯也决定切入机器学习基础服务市场，成立AI数据服务平台格物钛智能科技。

“只有先解决这些痛点，用更自动化的方式提供数据服务，才能为AI创业者提供更好的基础设施。”他说。

小型玩家难以自救，用AI反哺数据标注的平台方应运而起。

今日头条的启示

由于行业不同，自动驾驶、医疗AI、新零售公司对数据标注的任务要求也截然不同；而众包平台另一端，接单方也各有所长。要他们找到合适的彼此，无异于大海捞针。

这带来的另一个后果是，接单方出于生存需求拿来任务就做，数据标注的质量难以得到保证。

如果将这一匹配的过程智能化，今日头条的内容推荐系统是个很好的参考——它总是在判断你想要看什么，而且似乎越来越准。

这也是刘端阳构想中莫比嗨客进化为智能化众包平台的第一步： 打造智能化的任务推荐系统。

因此，在莫比嗨客上线初期，刘端阳用公开的任务对每一个入驻的数据标注团队进行测试，根据结果从专业领域、标注速度、完成质量等维度对每一个团队内的每一个数据标注员进行能力画像与评价。

另一端，刘端阳也给任务打上相应的标签：任务内容是图像、音频、或文本，标注的是人脸、物体还是动作……

之后再通过一定的算法，便能实现标签相同或相似的任务方与接单方的匹配。且随着平台客户、接单方两端数量的增加，算法将迭代得更为准确。

去年8月开始做AI数据服务平台Graviti时，崔运凯也发现了标注员之间的极大差别：

“有一些特别喜欢打游戏的男生，手速特别快，他在做标注的时候有可能比另外一个人要快五倍，而且质量特别特别高。通过算法来自动分发任务，就可以把最好的任务分发给最擅长的人。”

这种任务推荐系统对接单方也很友好。

他们省去了部分自己挖掘客户的人力与时间成本，可以更多投入任务本身。大大小小数据标注公司的老板接到任务后，也不再用亲自给员工逐一分配工作，因为系统将直接定位到人。

刘端阳将这种模式称为众包2.0——

经过智能化的匹配，甲方的需求可以得到更好地满足，愿意为此买单，付给平台佣金。而乙方也能劳有所值，更积极地在平台上接单。

现在，刘吉每天醒来后不再先为谈客户而焦虑，而是打开莫比嗨客的后台，看看今天团队要处理多少任务。

QRz6N3Y.png!web 莫比嗨客接单团队负责人的后台界面 / 受访者供图

但匹配还只是整个链条的第一环。

就算任务分发极为精准，平台也难以避免接单方出现拖延等各种意外情况。虽然甲方有权减少甚至不支付酬金，但平台很难保证这些问题不会再次出现。

因此，在接单过程中， 奖惩机制的动态变化也是十分必要的。

在Graviti平台中，除了对接单方初始能力的掌握，崔运凯还通过模型不断监测接单方在实际任务中的能力。

譬如，Graviti采用的奖励模式类似Bing、滴滴，对在线时间长、工作质量一直较高的接单方提供额外的奖励。

理想状态来看，这将是一个良性循环——接单方的良好表现使之得到更高的报酬，更高的报酬又促使他继续在平台接单。若平台借此留住优质的接单方，则平台也可以获得更高粘性的客户。

但相比Graviti这种需要一定时间积累的奖惩方式，莫比嗨客的做法更为直接，将奖惩直接体现在了任务分配的过程中——

假如现在平台上的一个项目有5000万张图片需要标注，系统会将其自动打散成5万个任务组，根据平台画像匹配后，将任务推荐给符合要求的接单方。

被派单的人可以选择拒绝，但一旦接单，必须要在15分钟内完成10张图片（莫比嗨客打包的最小单位）的试标注；如未完成，任务将直接自动推荐到下个公司。

而正式标注的过程，莫比嗨客也会用极为严格的Deadline要求接单方：一个任务包，最多延后10个15分钟，即2.5小时。未完成的话，任务将重新分配。接单方不仅将颗粒无收，还将面临信用降级，影响日后的派单。

用AI取代“AI民工”

不过在这里需要提醒大家，即便流程进化得再智能，以“数据标注员”为核心的数据标注产业，依然要受制于人工的天花板。

毕竟相比于AI，人工输出的结果无法完全统一，运算能力也十分有限。

一旦智能化的数据标注能够替代人工，这意味着数据量和质量指数级的提升，算法成熟得更快，对数据服务行业乃至整个AI产业来说都将是一个极大的里程碑。

也正因如此，开发一款能够实现自动化数据标注的工具才是这些玩家们真正的竞速赛道。

如今，莫比嗨客先运用AI技术对一些不复杂的常见图像任务进行预标注，再分配给接单方审核、完善并交付结果。

这样一来，平台上数据的流转速度提升许多。

“同样是2000张医疗影像图片（的标注），我们半天时间就可以交付，一般的平台可能要一周”,刘端阳告诉虎嗅。在刘端阳的统计中，平台效率的提升可以为客户节约20%的成本。

目前，莫比嗨客服务的客户包括腾讯、华为、抖音、科大讯飞等，业务覆盖自动驾驶、医疗影像、人脸识别和新零售等各个领域。

峰值时，莫比嗨客单天接到2亿6000多张图像的标注任务，日均图片任务量在7000万~8000万左右。去年全年，平台流水达到2亿元。

而晚一年入行的崔运凯也在加紧训练自己的AI标注模型。

riu632Y.png!web

Graviti官网

相比于其他外包形式，他表示当下Graviti可以将效率提升5倍以上。

“理论上限是可以提高150倍。” 但他坦承，AI还不能达到同人工一样的准确率，算法仍需要在精确度和召回中做平衡。

独角兽正在路上

去年4月创办Graviti时，崔运凯凭借几个对数据标注产业进行改进的优秀设想，拿到了红杉、真格、云启、风和的千万美元级投资。而再往前一年，投资界大佬，梅花创投创始合伙人吴世春承包了莫比嗨客的天使轮。

投资大佬们虽然在这个领域的动作还不大，但这种试探似乎透露着趋势的到来。

确实，在AI爆发式增长的这几年间，作为基础服务之一的数据标注市场规模增长迅速。当下中国80亿美元的AI基础架构市场，和33.8%年复合增长率极为诱人。

而莫比嗨客上线近两年间，刘端阳从客户一端也感受到了市场的这种张力。

“一些A轮左右的初创公司每年数据标注预算差不过二三十万，D轮的都是千万以上。去年，腾讯只是在微信公众号文章审核上的预算，就是26个亿。”

高速增长的市场引来了互联网巨头的关注，这个赛道中不乏百度众包、京东众智的身影。

大厂的这种操作既能满足内部需求，对外又能创收，还能在数据标注市场中站下脚跟，等风起后，又能依靠自身的资源优势迅速扩张，算盘打得很响。

但与大而全相比，后起者都各怀绝技。

莫比嗨客从医疗AI起家，在CT片、病理细胞图像、病例文本已经形成了先发优势；Graviti平台则在崔运凯基因的影响下，长于自动驾驶领域。

与行业的紧密联系，对创业公司来说就是深入客户其他需求的开始。

“我们在服务甲方时，还会做很多咨询工作，包括参与他们的系统架构设计。我们天然和甲方的信任关系会比普通公司要强，因为我们本身就是speak the same language。”崔运凯告诉虎嗅。

美国数据标注的竞争格局较国内形成更早。除了Scale AI这家新晋独角兽外，Uber收购的Mighty AI、亚马逊的自动标注服务以及如Hive、Alegion等初创公司也想分下一杯羹。

而知名风投Accel与Peter Thiel的Founders Fund之所以更看好Scale AI，是因为他们认Scale的工具更先进，可以更快又更便宜地完成数据标注。也正因如此，Scale的软件去年全年能卖到近亿元的销售额。

RRZ7RjV.jpg!web

Scale AI年仅23岁的创始人Alexandr Wang

据此，我们不难推测，如果国内某一家数据服务公司能够在这场智能化竞速中率先推出高精度的数据标注AI，真正让交付效率和质量实现飞跃，就能从一众公司中脱颖而出。

毕竟，这是将数据标注标品化的过程，而标品是规模化的前提。

如今，鲜为人知的数据标注市场已悄然在美国孕育出了一只独角兽，中国市场却还一片朦胧。但在数以千万计的人员规模、指日可待的千亿市场的召唤下，中国独角兽也理应破土而出。

没错，智能的背后，是大量的人工。

他们中的大部分人教育水平不高，在各省的贫困县里，重复着单调的拉框、标点，像一台台每天高速运转8～15个小时的机器。

前者虽然可以统一地把控交付结果，但成本依然偏高，且其规模仍旧受限，只能在一定周期内满足一部分需求；

后者将大任务拆分成若干个小任务进行分配的做法固然实用，但由于供应商或兼职标注员的良莠不齐，对数据标注的完成度和准确率均存在极大考验。

甲方到底要什么？乙方们也在暗自揣度。

这种任务推荐系统对接单方也很友好。

经过智能化的匹配，甲方的需求可以得到更好地满足，愿意为此买单，付给平台佣金。而乙方也能劳有所值，更积极地在平台上接单。

但匹配还只是整个链条的第一环。

也正因如此，开发一款能够实现自动化数据标注的工具才是这些玩家们真正的竞速赛道。

Recommend

人造肉企业星期零STARFIELD获愉悦资本、经纬中国数千万融资

“云逛街”拯救线下商场？商家：不如店员做微商

屌丝站长的平凡创业路

创新的人要有点250精神，也就是阿甘的气质

扒一扒抖音上的“抄袭产业”

想用GAN和Deepfake瞒天过海，没那么容易：这是Adobe和加州伯克利的新研究

PHP Magic Methods Cheatsheet

使用消息中间件时，如何保证消息仅仅被消费一次？

Why I dislike the rem unit (2013)

一个极简、易用的灰度分流方案_运维_温柔一cai刀-CSDN博客

About Joyk