3

36氪首发 | AI数据服务公司「爱数智慧」完成B轮融资 即将上线开源社区MagicHub

 3 years ago
source link: https://www.36kr.com/p/1178475944428034
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

36氪首发 | AI数据服务公司「爱数智慧」完成B轮融资 即将上线开源社区MagicHub

许跃鑫 · 30分钟前
AI数据服务行业的市场规模不断扩大,开拓新的业务增长点很关键。

作者:许跃鑫

编辑:石亚琼

36氪获悉,AI数据服务公司爱数智慧已于2021年初完成B轮融资,融资金额达到数千万人民币。本轮融资由凡创资本投资.爱数智慧的创始人兼CEO张晴晴博士告诉36氪,本次融资的资金将主要被用于打造覆盖全球的AI开源社区MagicHub,人工智能对话式AI的训练数据集产品设计和数据采集标注SaaS平台的研发等方面。

随着人工智能在各种场景的落地应用,上游的AI数据服务行业的市场规模不断扩大。数据、算法、算力是驱动人工智能发展的三大核心要素。数据作为人工智能技术架构的基础层,其数量和质量会直接影响算法的训练效果。AI数据服务是指将语音、视频、文字等原数据经过加工处理后形成AI算法模型能够直接使用的训练数据。

爱数智慧成立于2016年,为超100家国内外客户提供专业的人工智能数据解决方案,包括数据处理方案设计、训练\测试数据集产品、数据标签化,以及数据处理系统的私有化部署等。爱数智慧告诉36氪,爱数智慧不但拥有十几万小时的覆盖多语种多种方言的训练数据集,还为大型客户提供数据采集标注私有化部署。

张晴晴认为数据识别率的提升包括三个阶段:分别是0-90%,90%-95%、95%-100%,第一阶段的绝大部分场景并不需要定制数据,标准化训练数据集即可满足;第二阶段可以使用标准化+部分定制的垂类数据集,第三个部分才真正需要100%精准定制。语音数据的标签化涉及语音、情感、信号等多维度,规则和规范十分复杂,一旦某些步骤出现问题,数据训练出来的效果可能会不尽如人意,非常浪费客户的成本和生产周期。

爱数智慧告诉36氪,目前公司已处于AI语音数据服务行业的第一梯队;2020年,爱数智慧的营业收入接近亿元。客户包括国内外头部互联网公司、移动通信、知名算法公司等,这些客户将成为爱数智慧新的营收增长来源。此外,在业务板块上,爱数智慧还于2020年开拓了文本数据业务线,提供文本数据的产品和服务,以完善对话式AI业务板块。

为响应国家十四五规划提出的支持数字技术开源社区,同时在行业深耕多年的经历,爱数智慧发现AI工程师最崩溃的就是如何在汪洋大海里找到好数据/能用的数据。俗话说,巧妇难为无米之炊,数据作为基础层,为算法提供了坚实的基础,没有好数据,什么也做不了。于是,MagicHub开源社区应运而生。MagicHub开源社区的发布将满足更多行业和AI从业者对于训练数据的需求、降低数据使用门槛,解决找数据难的问题,爱数智慧将会在4月15号开源30种语音训练数据集,首批数据集包括NLP数据集、ASR数据集、TTS数据集和LEX发音词典,涵盖了多个语种、场景和领域,未来每个月都会更新训练数据集。

爱数智慧建立开源社区为AI从业者提供丰富的训练数据集和数据处理工具,探索训练数据集即可满足企业业务需求的可能性,从而帮助企业降本增效,促进AI行业的快速发展。

最后,张晴晴博士总结说,训练数据集、数据采集标注SaaS平台以及MagicHub开源社区是爱数智慧业务三大基石。

数据作为虚拟世界的原油,针对数据处理的核心竞争点在于对数据业务的专业性理解和提供解决方案的能力。除了爱数智慧外,AI语音数据服务行业已有的玩家还包括海天瑞声、澳大利亚企业APPEN、标贝科技等企业。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK