下一代 AutoAI：从模型为中心，到数据为中心

本文作者：李梅

2022-08-05 19:23

导语：算法的迭代事实上变成了数据的迭代。

作者 | 李梅

编辑 | 陈彩娴

今年年初，知名 AI 学者吴恩达在接受 IEEE Spectrum 的采访中，呼吁大家将目光从以模型为中心转向以数据为中心。深度学习问世以来，随着神经网络架构趋于固定和成熟，转而寻找改进数据的方法，已经成了 AI 研发的新出口。

近日，2021 年吴文俊人工智能科学进步一等奖获得者、云天励飞首席科学家王孝宇博士，在人工智能产业年会上作了题为“ Towards Automated Artificial Intelligence”的主题报告。报告中，王孝宇博士详述了AutoML/AutoAI 的三个发展阶段，并介绍了他在云天励飞主导开发的自动化 AI 模型生产平台 YMIR。

王孝宇，现任云天励飞首席科学家，此前曾任 Snap 研究院计算机视觉主席，NEC 美国研究院研究科学家。本科毕业于中国科技大学，后相继在美国密苏里大学获得统计学硕士与电子计算机工程博士，主要研究领域为计算机视觉、机器学习与数据挖掘等，是目前国内唯一一位在系统、芯片、算法三个方向获得吴文俊人工智能科技进步奖的 AI 学者。

AI 科技评论对王孝宇博士在吴文俊奖大会上的报告作了不改原意的整理，并围绕 AutoAI 对王孝宇博士进行了一次深入对话。

1 AutoML/AutoAI 的三个阶段

第一阶段：模型设计、调参自动化

当前，很多学者都已经注意到，学术界或者工业界的优秀人才所聚焦的研发，花费太多时间用于模型结构设计以及调参，但实际上它本不应该成为研究的主要内容。所以，有没有一种自动化的方法，让深度学习的网络架构在面对一个问题的时候，能自主的演化其架构？

今年，关心这个问题的学者们共同发起了第一届“自动化机器学习国际会议”（International Conference on Automated Machine Learning，AutoML Conference 2022），会议近期于2022年7月25日-7月27日在巴尔的摩举办。

在大会上，学者们概括出了自动化机器学习所涵盖的 10 个主题：

Neural Architecture Search（NAS）
Hyperparameter Optimization（HPO）
Combined Algorithm Selection and Hyperparameter Optimization（CASH）
Automated Data Mining
Automated Reinforcement Learning（AutoRL）
Meta-Learning and Learning to Learn
Bayesian Optimization for AutoML
Evolutionary Algorithm for AutoML
Multi-Objective Optimization for AutoML
AutoAI（including Algorithm Configuration and Selection）

NAS 研究的是神经网络结构的自动搜索和设计。Hyperparameter Optimization （超参数优化）自动化的目标是在我们训练神经网络的时候，不必再去费时挑参数，去考虑哪一个参数好一点、哪一个参数差一点，而是可以自动预测和寻找。CASH 是个更难的问题，指我们要解决一个具体问题时，可以自动化地选择哪些机器学习方法，而不是自己手动设计。

第二阶段：简单模型训练的软件化

如果说第一阶段的自动化主要面向专业的算法研究人员，第二阶段的系统化则面向一般的AI从业人员。他的主要目标是在给定标注好的数据的情况下，通过可视化的操作界面实现模型的训练。但第二阶段只是个美好的故事，很难实际应用，因为他缺乏对算法在实际场景中不断迭代的支持。

第三阶段：数据迭代自动化

在算法设计自动化的基础上，正在发生一些变化。在去年的 NeurIPS 会议上，知名人工智能科学家吴恩达举办了一个 workshop，讨论“模型和数据到底哪一个更重要”。在设计化的工业生产中，他的观点是，以模型为中心（Model-centric）的技术研发已经转化成以数据为中心（Data-centric）的技术研发。

模型和数据之间的关系可以这样类比（这是我个人的理解，不代表其他人的看法）：模型和数据分别类比为一个人的 IQ 和知识储备。假设一个人天生的 IQ 很高，如果从小就把他养在家里，永远不跟社会打交道，也不让他学习新的知识，那么他还是会成长为一个很笨的人。而即使一个人资质平平，但如果他见过全世界各地的事物，去过欧美留学，在中国做过实际的工业化生产，看过很多设计的案例，那么他可能比那个 IQ 高的人更厉害。所以如果这样理解，模型就有点类似于 IQ，数据就有点类似于知识。二者同等重要，但到后面你会发现知识越来越重要，因为只有亲历过你才能知道，“知道”比“不知道”更重要。

在工业化大规模发展中，大家正在慢慢地从模型为中心的生产转化为以数据为中心。下图显示的是吴恩达所做的一些实验对比：

我们可以看到，当我们有了一个基础算法之后，我们可从两个维度来提高它的性能，一是以模型为中心的方法，即想尽各种办法提高模型设计的复杂度、技术含量等；二是以数据为中心的方法，比如加数据（加数据也是有一些科学方法的，并不是加了数据后性能一定会提高）、检查数据有没有问题等等。他发现，以数据为中心的方法比以模型为中心的方法能更多地提高性能。我们自己做模型生产时也得到这样一个结论：越到后面，数据的迭代越来越重要。因为所有模型的服务实际上是针对某一个特定场景，使用的是特定的数据。

在我们过去八年的实践中，我们发现，算法的迭代事实上变成了数据的迭代。另外一个维度看，到现在为止，我们已经研发了大量算法模型，但从来没有一个模型是搜集了一次数据、调整一次参数就不用再调整了，很多模型都迭代了 5-6 年，迭代的主要内容就是数据。因为我们解决不同的需求时，会遇到不同场景下的泛化性问题，我们碰到的问题越来越不一样。这并不是算法不一样的问题，而是场景不一样，要处理的数据也不一样，所以我们要不停地更新迭代数据，才能够满足不同场景应用的需求。

既然算法迭代已经变成了数据迭代，那么有没有办法把数据的迭代也自动化呢？如果算法设计可以自动化，那数据迭代也可以自动化，所以端到端地完成自动化的 AI 模型生产平台就逐渐成为可能。

而数据迭代的自动化需要技术的支持，同时还需要系统层级的支持。

2 YMIR：自动化 AI 模型生产平台

为什么要做AI模型生产的平台化？如今，有自动化 AI 模型生产平台需求的，已经不仅仅是谷歌、微软、Meta、IBM、苹果等大公司了，我们国内就有不少房地产公司开始投入 AI。他们都有人才的需求，自动化的 AI 可以降低他们的成本。地产公司、物业公司，以及像宁德时代这样做电池的公司，都在慢慢引入 AI 来解决实际问题。

为什么会这样？因为：“AI 是新时代的电力”。AI 是一个非常基础的能力，可以提高我们做事情的效率，AI 并不改变行业，但是可以提升所在行业的生产效率，所以这种影响是全方位的，已经慢慢地波及到非技术类公司了。更不用说现在广泛的制造业，制造过程中的很多环节都可以利用到 AI 的能力。如果想提高自己的国际竞争力，提升自己的生产质量，就需要 AI 的能力去赋能生产。

但问题又来了，我们没有这么多 AI 人才，我们需要更scalable的方法进行AI的研发。因此我们就做了 YMIR 这样一个自动化模型生产系统。

YMIR 是一个开源的、公益性的 AI 模型生产平台，是我们和国际知名高校以及硅谷科技公司一起联合发起的国际开源项目。我们还邀请到了多家美国科技巨头公司的首席AI官担任我们的项目顾问。该项目已经在 GitHub 上开源。

Github 地址：https://github.com/industryessentials/ymir

YMIR：覆盖模型生产全流程，聚焦模型的快速迭代能力

有了这些技术的支持之后，我们打造了一个工程化的系统 YMIR。YMIR 覆盖模型生产全流程，聚焦在模型的快速迭代上。我们不是训练出一个模型就结束了，而是把模型（通过数据）迭代到能够满足现实场景的需求为止。

下图是整个技术的框架，左边是模型生产的初期阶段，包括数据的准备、数据的标注、模型的训练，右边是一个迭代的过程，包括准备挖掘数据、数据标注、更新训练集、再次做模型的训练。

研发实践：算法生产效率提升 6 倍，算法人员需求降 1/10

我们做了很多大规模研发实验，来看看在实际生产的时候，它到底能不能解决问题。我们做了大概 6 个月的跟踪，投入了 10 个标注人员，他们要么是高中生，要么是职业院校毕业的学生，当然也有算法人员。我们目前不能完全脱离算法人员，在面对一个问题的时候，怎么将其分解成技术实现，这还需要算法人员介入。同时，我们还需要算法人员给标注人员做一些简单的系统培训。算法人员投入 0.3 左右，即他们花费一天中的 30% 的时间去做这些事，其余时间他们还要做算法研发、标注文档的审核、模型迭代情况的查看以及发现模型的问题。

我们标注的图片总数是75万，标注图片框数 100 万。标注人员的工作内容的 90% 用在标注上，把要检测的物体标注出来，10%的时间是用在操作 YMIR 系统上。我们在 3 个月的时间里，使用 10 个标注人员、0.3 个算法人员，生产了 50 个算法，而且这些算法大部分能够满足实际应用的需求，比如应急事件中的灭火器检测、消防栓检测等城市治理的需求。有的算法都已经达到 97% 的精度。

这是我们使用这套系统和不使用这套系统的投入时间对比：

周期都是三个月左右，没有这套系统的时候，算法人力的投入大概是36人/天，标注人员的投入是24人/天，模型生产了六个算法。在投入了这一套系统之后，我们在相同的时间周期内可以生产51个算法，生产效率大概是17个算法/月，而以前是3个算法/月。使用自动化平台后，算法生产效率提升了 6 倍，但是算法人员的需求降为原来的 1/10。（公众号:雷峰网(公众号：雷峰网)）

3 对话王孝宇

AI 科技评论：云天励飞是一家算法公司，为什么会研究 AutoAI ?

王孝宇：我们不是一家单纯生产算法的公司，我们为客户提供端到端的AI解决方案。

同时我们意识到我们国家技术智能化、信息化的基础还比较薄弱。我们希望5年之后，公司都认识到 AI 的重要性，投入去做AI升级的时候，自动化的AI平台将为他们节约大量的成本，并成为AI大规模普及的催化剂。而当AI成为不可或缺的部分的时候，才有平台化的硬件、平台化的生产力工具、平台化的服务的机会。我们希望YMIR AutoAI系统能推动行业的进步，并促使公司进入下一代人工智能技术及服务的研发。

AI 科技评论：您提到 AutoML 经历了三个发展阶段，它们的本质不同在什么地方？

王孝宇：第一阶段主要是在学术的范畴，比如学者们发起AutoML Conference 2022，大家主要在探索算法模型设计的哪些环节能够用自动化的方式去完成，以及用何种方式去实现自动化，比如如何实现神经网络结构搜索、超参数优化、混合算法选择等等。

第二阶段是打造出自动化的算法模型生产系统，把第一阶段积累的方法论沉淀为平台和系统，以低代码甚至零代码的方式实现自动化算法模型训练。但这类平台并没有把模型迭代的过程落实到系统中去，没有覆盖真正模型训练的完整生产周期，所以满足不了工业化生产的需求，我把这个阶段的 AutoML 定位成一个「玩具」，玩一玩可以，但是不能真正用到实际任务中。因为没有任何一个工业化生产的模型只训练一次技术就可以了，它是需要迭代的。

而我们正在做的是第三阶段的 AutoML，即打造面向产业应用的自动化模型训练平台。据我们的市场调研，YMIR 是市场上唯一一个覆盖模型生产的全生命周期的系统，它可以真正地用到工业化生产中。可以认为，早期的 AutoML 偏向于纯技术，而 YMIR 更强调实际的工业应用。我们做的是一个产品系统，所以我们考虑的不仅是技术的问题，还有工程和系统的问题。

AI 科技评论：AutoML 和 AutoAI 两个概念有什么区别？

王孝宇：我认为，我们比较合适将 AutoML 的概念限制在它的第一阶段，它专注于技术。Machine Learning 也只是人工智能技术之一，生产系统其实并不是传统意义的 AutoML ，只是我们现在还找不到一个合适的词去概括它。相比较而言， AutoAI 能更好地概括我们现在做的事情。

AI 科技评论：为什么说数据越来越重要？

王孝宇：数据和算法等技术是相辅相成的。而最终技术如果要满足应用需求，数据到位是不可或缺的一环。

算法可以将AI模型精度从 50% 提高到 60%，但还是不能最终解决应用中实际的问题，而数据可以将AI系统精度从 60% 提高到 90%。因为模型的设计逐渐趋同、技术趋向成熟，这时数据的迭代变得比技术本身更重要。算法技术一直都很重要，但往往落地的临门一脚，需要数据来推动。

AI 科技评论：现在已经有别的 AI 模型生产平台声称其训练一个模型只需要十几分钟，您怎么看？

王孝宇：模型要真正能部署到现实系统中去、真正能跑起来才有用。宣传训练一个模型需要多短的时间是没有意义的，因为真正耗时间的是数据。模型训练可能只需要十几分钟，但百万的数据标注也需要花费一个月。在一个模型的全生产周期中，我们首先要对问题进行定义，之后收集数据，再去训练模型。将训练完的模型用到现实的场景中，看是否存在什么问题，然后再次收集大量的数据去做迭代，这个迭代的过程是很长的。

我们的很多算法人员将 90% 的时间都用在数据的处理上，只有 10% 的时间用来写代码和研发模型结构。互联网的数据相对容易获得，但也需要大量的工作，因为数据的噪声很大，尤其是随着这一波人工智能的应用场景慢慢下沉到线下，数据的噪声变得更大。例如传统企业中质检员拍摄的图像数据、数据标注质量也会因为质检员的个人素质差异而不同。

AI 科技评论：YMIR 平台包含数据的自动标注吗？

王孝宇：我们提供预标注。所谓的“自动标注”是一个伪概念，最起码在现阶段没有一个平台可以真正做到完全自动标注，现在还需要人去介入，比如说做井盖检测时，我们提前给井盖画一个检测框。如果画对了，标注人员就直接过审；如果没对，标注人员还要再修改。

AI 科技评论：为什么你们目前还没有选择将 YMIR 商业化、而是免费开源？

王孝宇：我们国内的消费市场发展的非常好，因为有良好的移动互联网基础。而我们 ToB 服务的企业相较发达国家差距巨大，我想相当一部分原因是我们没有良好的企业信息化基础和企业服务生态。我们其实是一个底层的布道者角色，想要促进企业服务生态的繁荣。所以我们的平台是完全开源的，无论你是个人用还是把它商业化都是免费的。这的确有些理想主义，但我们认为，整个行业好，我们就好，这是一种长期主义。（公众号：雷峰网）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

资损率小于亿分之0.98，支付宝智能反诈系统入选2022世界人工智能大会最高奖TOP30

下一代 AutoAI：从模型为中心，到数据为中心

Recommend

DBSCAN Implementation | Machine Learning

TruffleC | Proceedings of the 2014 International Conference on Principles and Pr...

Sonos Delays Release of More Affordable 'Sub Mini' Wireless Subwoofer

Register for Fast Company Taste of Innovation dinner series

微信发布公众号头像设置新规范，禁止仿冒官方消息提醒

华为2022年上半年销售收入3016亿元，净利润率5.0%

苹果汽车无源进入专利公布，智能手机手表等设备可与车辆交互

To 0-2岁产品新人：还在画野路子原型？来看原型设计标准流程是怎样的！

干货！2022年中国光纤激光器行业龙头企业分析——杰普特：重视研发的有力竞争者

The Five Tools of Hedonic Design

About Joyk