32

AI时代的文本智能化利器:百度语义理解技术与平台文心ERNIE

 3 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzUxNzk5MTU3OQ%3D%3D&%3Bmid=2247488246&%3Bidx=1&%3Bsn=658aa531651ca842783b4c4e78ebd3b9
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

语言与知识技术,被归类为认知智能,一直是人工智能最热门的研究与应用领域。

9月15日,百度世界2020召开,作为“AI新型基础设施”百度大脑6.0的重要组成部分,百度语义理解技术与平台文心(ERNIE)在大会上的发布吸引了大量NLP开发者的目光,尤其基于多流机制的预训练语言生成技术ERNIE-GEN、知识增强跨模态语义理解技术ERNIE-ViL等,均达到了世界领先水平。

ieaqyeu.png!mobile

文心(ERNIE)是百度在语言与知识领域深耕多年的技术大成,同时登顶国际权威榜单GLUE也代表着中国语义理解技术在世界舞台的地位。

随着企业智能化转型的深入,智能文本处理得需求广泛存在,通用API/SDK已无法充分满足需求,而传统的NLP定制方法在实际的产业应用中面临着不少问题,包括:需要较多高质量的人工标注数据、缺少NLP技术选型与模型调优经验、迭代调优耗时长等,再加上往往需要高昂的算力花费,让不少企业望而生畏。

对此,在今年8月25日的百度大脑语言与知识技术峰会上,百度集团副总裁吴甜重磅发布语义理解技术与平台文心(ERNIE),为企业提供了一种革新性的应用范式,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让企业用户更简单、高效地定制企业级文本模型。

百度通过将世界领先的NLP技术成果开放给业界,降低了NLP技术的准入门槛,让各大产业都能快速拥有构建和应用文本智能的能力,为产业智能化提供了全新的加速度。在今年7月的世界人工智能大会(WAIC)上,文心(ERNIE)更是摘得了大会最高荣誉SAIL奖(Super AI Leader,卓越人工智能引领者),在人工智能领域技术创新和应用探索等方面获得权威肯定。

EfqYbym.png!mobile

目前,文心(ERNIE)累计支持2万余名开发者,覆盖金融、通信、教育、电商等行业,并在多个公开权威语义评测中获得了近十项世界冠军。

破局NLP建模难题, 为企业NLP应用按下加速键

从数据到应用,文心提供一整套文本建模能力

6NfU733.png!mobile

文心(ERNIE)基于领先的语义理解核心技术,内置百度自研业界效果领先的预训练模型集ERNIE和全面领先的算法集,将文本数据处理、基于深度学习的模型训练、模型评估和上线部署等NLP开发流程进行易用性封装,为NLP开发者提供一整套效果领先、简单易用、高效灵活的NLP模型开发服务。

文心官网: wenxin.baidu.com

丰富的文本数据处理能力,摆脱繁琐数据处理流程

不论是互联网领域还是传统行业,大量的企业核心信息都分布在非结构化的文本数据中。在IDC的报告中也提及:“最近几年全球新增的数据中,有80%来自非结构化数据。”一方面,这些文本数据蕴含着的高价值信息,对企业的良性发展至关重要;另一方面,对这些信息的处理往往要耗费大量的人力,也是一笔不小的成本。

数据是模型训练的起点。而在实际业务应用中,文本数据在数据处理的环节就要面临数据标注成本高、数据样本不均衡、数据质量不高、格式处理繁琐等一系列问题。

数据标注成本高?交给文心“智能标注”能力

一般来说,高质量的标注数据越多,模型的效果就会越好。但数据标注本身就是件耗时耗力又耗钱的事情,如何能够低成本获取大量高质量标注数据对企业来说至关重要。文心(ERNIE)提供了全新的“智能标注”能力,开发者只需要标注少量数据,文心就可以基于这部分数据学习、优化,结合人工校正,快速完成大量无标注数据的高质量标注。

体验文心智能标注功能,可登录EasyDL:

https://ai.baidu.com/easydl/pro/app/annotate/interactive

aqAZbqn.png!mobile

数据样本分布不均?“数据增强”功能试一试

在实际的应用场景中,往往会面临文本数据的样本分布不均的情况。比如NLP领域常见的文本审核任务,需精准分类出正常文本和敏感文本,是一个典型的文本分类问题。但在实际的数据收集中,正常样本与敏感样本的数量很容易失衡,经常会遇到9:1(90%的正常样本),甚至差异更大的情况,但又要求训练出的模型能够更全召回敏感文本。这种情况就需要文本“数据增强”的功能,来丰富和扩展敏感样本的数量,让数据更丰富、比例更适合。

此外,还有数据噪声多、格式处理繁琐等问题,文心也一一提供了解决方案:文本“数据降噪”帮助开发者快速定位高噪声数据,支持丰富数据格式和配套的预处理能力。

超强实力的预训练模型和算法集,快速get高质量模型

文心(ERNIE)内置百度自研业界效果领先的中文预训练模型和NLP优质算法集。其中ERNIE预训练模型开创性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化,如同人类持续学习一样。这些硬核实力也 让它在去年12月,斩获自然语言理解权威榜单GLUE榜首。

zInQvaf.png!mobile

文心(ERNIE)模型集包括通用模型、任务模型、领域模型、轻量级模型等预训练模型,为业界提供最完备的预训练模型能力。

YvMfMfn.png!mobile

全面的评估工具和部署能力,模型落地无忧

为了满足各行业模型应用的需求,文心(ERNIE)还配套了完整的模型评估与部署能力。文心提供了10余套常用NLP评估工具,包括多标签分类评估、准召率、宏/微平均、正逆序比、BLEU值、ROUGE值、马修斯相关系数等,同时也支持用户灵活自定义评估指标。

在部署方面,文心(ERNIE)也很好地支持了模型的公有云部署和本地化部署两种方式,方便用户根据不同的业务需求来选择合适的部署方式。

从世界级技术突破到产业级NLP应用能力

聚焦企业业务价值,面向不同业务需求提供丰富产品形态

为了让文心(ERNIE)的世界级技术突破转化为企业发展的动能,在产业应用中发挥更大价值,文心还提供了多种使用方式,让不同需求、不同开发层次的企业开发者都能快速掌握。

零门槛、无代码的云端开发体验:EasyDL-NLP

百度EasyDL是一个零门槛的AI开发平台,支持开发者一站式定制高精度AI模型。文心通过EasyDL提供了一整套简单高效的NLP开发能力,提供零代码、少代码的模型训练方式,同时也支持高阶用户进行灵活组网调参。开发者无须了解算法细节,最快5分钟即可上手,快速定制NLP模型。目前EasyDL已支持了单标签和多标签的文本分类、短文本匹配、情感倾向分析等NLP常用任务类型。

2IFnM3V.png!mobile

可深度定制的企业级全功能开发能力:BML-智能文本

百度BML平台是全功能的百度机器学习平台,为企业用户提供一站式人工智能模型建设功能服务。文心(ERNIE)通过百度BML平台建设BML-智能文本产品能力,基于各类文本处理场景提供丰富的自动化产线,实现一站式文本建模开发与应用。

AVbuUjE.png!mobile

真实业务实践淬炼,丰富场景化落地经验

文心已在金融、媒体、电商等业务场景中崭露头角

目前,文心(ERNIE)已广泛应用于搜索引擎、信息流、智能音箱等互联网产品中,同时也在金融、电商、媒体、教育等行业中落地,成为推动产业智能化转型的利器。

ZBb6Vv.png!mobile

某互联网金融企业,携手文心,基于用户数据快速建模,实现高效评估借贷用户风险的能力。结合文心的预训练模型,对用户行为信息进行语义层面深度建模,用户风控少量训练数据进行精细Fine-tuning,在较短时间内完成模型收敛取得准确率显著提升。金融风控领域模型准确率背后关乎着企业的收入,模型的效果提升,带来的是真实的价值收益!

某综合性电商平台使用EasyDL中的文心(ERNIE)搭建起了完整的智能评分系统平台架构。AI赋能后的服务考核监督机制得以升级,用户的差评反馈都会被自动分析处理,大大提升了服务效率与服务质量。该系统将负面问题处理率由先前的60%提升到100%,客服运营人力由5人/日降至3人/日。

文心与企业开发者共同成长

全流程技术服务支持,真正做到“授之以渔”

QVRFZvU.png!mobile

除了基于预训练技术提供完善的开发工具外,文心(ERNIE)还面向企业用户提供全流程技术服务配套。包括业务问题分析、技术选型指导、模型优化指导、开发者使用培训等服务,真正做到"授之以渔"。

百度大脑推出文心(ERNIE),正是为了帮助企业在NLP赛道上跨过技术、工具、算力、人才等门槛,开发者和企业进行开放赋能,让语义理解等技术在产业内“遍地开花”,真正帮助企业降本增效,并发展出智能化的新业态。百度大脑正在通过语义理解研究新思路,在推动人工智能技术的发展的同时,进一步推动产业智能化发展,让文心(ERNIE)成为AI时代的文本智能化利器。

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

UJBBBnN.jpg!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK