公开课回顾 | 百度文心(ERNIE)定制化训练实践 - JOYK Joy of Geek, Geek News, Link all geek

百度语言与知识技术峰会第二节系列公开课《百度文心(ERNIE)定制化训练实践》回顾来了！

本课程中，百度NLP资深研发工程师龙心尘向大家详细解读基于百度文心(ERNIE)的NLP任务定制化训练实践案例，并分享定制化训练的实践经验。

NLP定制化训练任务

如何抽象拆分及技术选型

常见的网络及预训练模型介绍

如何提升训练和迭代效率并进行模型优化

在《百度文心(ERNIE)语义理解技术详解》和《百度文心(ERNIE)定制化训练实践》两节公开课中，大家就百度文心(ERNIE)提出了较多关注的问题，接下来，我们将以系列专题的形式进行解答，欢迎大家持续关注！

Q&A环节

建模的实体在整体训练语料中的比例是怎样的？

大约占20%左右。

各个预训练任务带来的具体收益是怎样的？

有进行对比过，不同的预训练任务的加入都能够提升ERNIE的预训练效果。举例来说，ERNIE中的句子排序任务对于不同中文任务平均提升0.8%，句子距离任务平均提升0.4%。

在预训练中怎样判定是模型还是海量数据起作用?

预训练的模型和海量数据是整体的，缺少一个都难以发挥作用。预训练技术的目标就是利用更好的模型去学习海量数据，应用到不同的下游任务。

task embedding 是怎么做的？

使用task embedding建模不同的预训练任务，例如预训练任务0，task_id用0，预训练任务1，task_id 用1，依次类推。Fine-tuning使用任意task_id即可。

寻求词向量的可解释性可以从哪些方面入手？

建议看一下Word2Vec论文里，作者从可解释性上展示了很多实验。也可以找一些引用Word2Vec的论文研究。

文心(ERNIE)相对于BERT的优势有哪些？

ERNIE 1.0通过建模海量数据中的词、实体及实体关系，学习了真实世界的语义知识。相较于BERT学习局部语言共现的语义表示，ERNIE直接对语义知识进行建模，增强了模型语义表示能力。

在V100卡上pretrain 500万的数据大概需要多久？

对于最大文本长度为512的数据，使用base大小的模型做pre-training，预训练500万行数据，8卡V100环境，大约需要8小时。如果数据长度更短，需要的时间也更短。

寻求词向量的可解释性可以从哪些方面入手？

这个问题无法给出统一的标准，根据任务难易和目标效果不同，需要的数据量不同。目前有些任务上几百条数据就可以得到不错的效果。

在文本因果推理上文心是怎么处理的，例如一段话中涉及到一个结果和多个事件，但只有一个事件是该结果的原因，这种情形能判断吗？

可以，建议使用分类任务来做。使用ERNIE模型分别对每一个“事件结果对”建模，然后对事件结果对的CLS的表示做Softmax分类。（事件结果对以 [CLS] 文本1 [SEP] 文本2 [SEP]的形式输入）

百度的ERNIE在世界上处于什么水平？

可以说是能够达到在中文领域TOP级别的水平，英文也是世界领先的水平。并且这个领域竞争也非常激烈，大家你追我赶，不断会有新的技术出现。文心也在这个过程中不断进化与发展。

百度的ERNIE针对非中文数据的效果怎么样，能否快速用于小语言场景，如阿拉伯语？

文心正在研发跨语言预训练模型，能够对小语种进行比较好的支持，最新的进展都会在官网发布。

欢迎关注文心官网：

https://wenxin.baidu.com

BOW的embedding指什么？

神经网络本质是一堆矩阵参数的运算，embedding可以理解成给每个词语分配一个参数向量，这些向量作为文本信息输入给神经网络的第一层参数，它们可以在神经网络中进行学习。

淘宝的评论归纳是怎么实现的？

电商评论的观点信息抽取，是一个非常典型的NLP应用，如“性价比高”、“配送快”之类，并将相同观点的评论归类在一起。不同公司的实现方式不也一样，应用的NLP技术也不一定相同。

百度也有这方面的技术，可以直接在百度的AI开放平台调用，其具体实现方式也在不断更新。我之前做过一个针对该问题的技术选型分析，可以给你参考。

百度AI开放平台调用地址：

https://ai.baidu.com/tech/nlp_apply/comment_tag

技术选型分析参考视频：

https://v.qq.com/x/page/s3002r9gfqh.html

技术选型分析参考PPT：

https://pan.baidu.com/s/1uAGj_fJ2KmZWdCJFqOnPKg

请问数据可以是甲骨文或是古文吗？

如果不用预训练模型直接自习训练的话，只要有标注数据，哪怕是外星人的文字都可以。如果要用ERNIE相关的预训练模型，需要转换为对应的简体字，如果找不到或者简体字不在ERNIE的预训练词表中，则是一个OOV的问题，效果会不太好。

NLP未来还会遵循预训练-微调范式吗？

目前看预训练-微调范式是其主流的形态，并且该趋势还在蓬勃发展，没有比较理想的挑战者出现。当然我们可以类比CV领域，目前图像领域某些任务是可以摆脱预训练的范式的，因此也难说NLP领域是否也会有类似的进展。当然，即便也有这样的进展，文心团队也有信心在该领域保持优势。

ERNIE平台目前可以支持哪些类型的任务，是否支持机器翻译？

a）分类、匹配、序列标注均可，文本生成在BML也可以支持。

b）目前文心平台提供了针对机器翻译任务的预制算法，在BML中有提供，感兴趣的用户可以申请。

针对长文本训练，有什么处理方法吗？

最简单的方法是通过滑动窗口将长文本切断为短文本，并将其通过ERNIE之后的输出汇总在一起统一处理。文心也在研发专门针对长文本的预训练模型，敬请期待。

做视频推荐冷加载的时候，处理tag embedding 除了叠加几个tag的embedding还有其他的处理方式么？

理论上拼接、池化、attention、加权求和等方式都可以尝试。推荐任务特别看场景，还是要在具体的场景中试验得到结果。

数据增强有哪些策略呢？

文心在BML中预制了数据增强的工具包，可以直接使用。包括随机遮盖、删除、同词性词替换、词向量近义词替换、ERNIE语言模型替换等。当然还有一些更高阶的策略，比如随机替换可能把影响分类效果关键词给替换了，反倒带来更多噪音。因此可以加上一些能够弱化这种噪音的策略。

毕业论文要用情感分析模型，媒体话语分析可以怎样训练积极、消极、中性的三类情感？

传统的思路是分词、embedding、魔改网络、评估效果。有预训练模型的话可以直接尝试预训练模型以提升效果。但需要针对你自己的数据场景有一些创新，否则难以出彩。比如媒体话语的标注数据是否很少，文本是否比较长，对预测的性能要求有多高，标注数据是否存在噪声，类别是否偏斜……这些都可以逐一考察并找出创新点。

怎么快速得知各种任务模型的基线水平？

最简单的方法就是用EasyDL直接将训练数据放进去，并选择合适的任务类型，直接看出来的结果。不用考虑任务底层实现，不必调参，不必配置环境。

医疗领域的ernie怎么用？

直接将这个预训练模型热启即可，进行定制化训练，其网络结构与ERNIE相同。

文心与Gpt3的参数相比，哪个多一些？

GPT3更多一些。

以上为文心两场公开课直播中大家较关注的问题，如果大家有其他关于百度语义理解技术与平台文心(ERNIE)的问题，欢迎加入交流群，与更多志同道合的NLP开发者共同沟通交流，也可访问文心(ERNIE)的GitHub地址，了解相关开发文档详情。

文心(ERNIE)QQ交流群： 958422639

GitHub地址：

https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md

点击“ 阅读原文 ”即可访问文心(ERNIE）官网，进行详细了解。

百度自然语言处理（Natural Language Processing，NLP）以『理解语言，拥有智能，改变世界』为使命，研发自然语言处理核心技术，打造领先的技术平台和创新产品，服务全球用户，让复杂的世界更简单。

UJBBBnN.jpg!mobile

公开课回顾 | 百度文心(ERNIE)定制化训练实践

NLP定制化训练任务

如何抽象拆分及技术选型

常见的网络及预训练模型介绍

Q&A环节

Recommend

如何产出规范、安全、高质量的代码？

Smokeping 多机配置

初探 TypeScript 类型编程

超长干货！为你详解ConstraintLayout 源码分析与京东 App 中的实践

云栖大会第一天，我们生了头“驴”和“无影”！

Assembler Hacking: Inline Data And Constants (16-Bit VM in JavaScript 014) - You...

Understanding the Event Loop, Callbacks, Promises, and Async/Await in JavaScript...

Most Common Security Vulnerabilities Using JavaScript | SecureCoding

GitHub - Hydrophobefireman/catom: A 0 runtime CSS in JS library

Farming Sim

About Joyk