15

公开课回顾 | 百度文心(ERNIE)定制化训练实践

 3 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzUxNzk5MTU3OQ%3D%3D&%3Bmid=2247488199&%3Bidx=2&%3Bsn=38a7ab15cce2a5d67b91fcba2ba69968
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

百度语言与知识技术峰会第二节系列公开课《百度文心(ERNIE)定制化训练实践》回顾来了!

本课程中,百度NLP资深研发工程师龙心尘向大家详细解读基于百度文心(ERNIE)的NLP任务定制化训练实践案例,并分享定制化训练的实践经验。

NLP定制化训练任务

如何抽象拆分及技术选型

常见的网络及预训练模型介绍

如何提升训练和迭代效率并进行模型优化

在《百度文心(ERNIE)语义理解技术详解》和《百度文心(ERNIE)定制化训练实践》两节公开课中,大家就百度文心(ERNIE)提出了较多 关注的问题,接下来,我们将以系列专题的形式进行解答,欢迎大家持续关注!

Q&A环节

1

建模的实体在整体训练语料中的比例是怎样的?

大约占20%左右。

2

各个预训练任务带来的具体收益是怎样的?

有进行对比过,不同的预训练任务的加入都能够提升ERNIE的预训练效果。举例来说,ERNIE中的句子排序任务对于不同中文任务平均提升0.8%,句子距离任务平均提升0.4%。

3

在预训练中怎样判定是模型还是海量数据起作用?

预训练的模型和海量数据是整体的,缺少一个都难以发挥作用。预训练技术的目标就是利用更好的模型去学习海量数据,应用到不同的下游任务。

4

task embedding 是怎么做的?

使用task embedding建模不同的预训练任务,例如预训练任务0,task_id用0,预训练任务1,task_id 用1, 依次类推。Fine-tuning使用任意task_id即可。

5

寻求词向量的可解释性可以从哪些方面入手?

建议看一下Word2Vec论文里,作者从可解释性上展示了很多实验。也可以找一些引用Word2Vec的论文研究。

6

文心(ERNIE)相对于BERT的优势有哪些?

ERNIE 1.0通过建模海量数据中的词、实体及实体关系,学习了真实世界的语义知识。相较于BERT学习局部语言共现的语义表示,ERNIE直接对语义知识进行建模,增强了模型语义表示能力。

7

在V100卡上pretrain 500万的数据大概需要多久?

对于最大文本长度为512的数据,使用base大小的模型做pre-training,预训练500万行数据,8卡V100环境,大约需要8小时。如果数据长度更短,需要的时间也更短。

8

寻求词向量的可解释性可以从哪些方面入手?

这个问题无法给出统一的标准,根据任务难易和目标效果不同,需要的数据量不同。目前有些任务上几百条数据就可以得到不错的效果。

9

在文本因果推理上文心是怎么处理的,例如一段话中涉及到一个结果和多个事件,但只有一个事件是该结果的原因,这种情形能判断吗?

可以,建议使用分类任务来做。使用ERNIE模型分别对每一个“事件结果对”建模,然后对事件结果对的CLS的表示做Softmax分类。(事件结果对以 [CLS] 文本1 [SEP] 文本2 [SEP]的形式输入)

10

百度的ERNIE在世界上处于什么水平?

可以说是能够达到在中文领域TOP级别的水平,英文也是世界领先的水平。并且这个领域竞争也非常激烈,大家你追我赶,不断会有新的技术出现。文心也在这个过程中不断进化与发展。

11

百度的ERNIE针对非中文数据的效果怎么样,能否快速用于小语言场景,如阿拉伯语?

文心正在研发跨语言预训练模型,能够对小语种进行比较好的支持,最新的进展都会在官网发布。

欢迎关注文心官网:

https://wenxin.baidu.com

12

BOW的embedding指什么?

神经网络本质是一堆矩阵参数的运算,embedding可以理解成给每个词语分配一个参数向量,这些向量作为文本信息输入给神经网络的第一层参数,它们可以在神经网络中进行学习。

13

淘宝的评论归纳是怎么实现的?

电商评论的观点信息抽取,是一个非常典型的NLP应用,如“性价比高”、“配送快”之类,并将相同观点的评论归类在一起。不同公司的实现方式不也一样,应用的NLP技术也不一定相同。

度也有这方面的技术,可以直接在百度的AI开放平台调用, 其具体实现方式也在不断更新。我之前做过一个针对该问题的技术选型分析,可以给你参考。

百度AI开放平台调用地址:

https://ai.baidu.com/tech/nlp_apply/comment_tag

技术选型分析参考视频:

https://v.qq.com/x/page/s3002r9gfqh.html

技术选型分析参考PPT:

https://pan.baidu.com/s/1uAGj_fJ2KmZWdCJFqOnPKg

14

请问数据可以是甲骨文或是古文吗?

如果不用预训练模型直接自习训练的话,只要有标注数据,哪怕是外星人的文字都可以。如果要用ERNIE相关的预训练模型,需要转换为对应的简体字,如果找不到或者简体字不在ERNIE的预训练词表中,则是一个OOV的问题,效果会不太好。

15

NLP未来还会遵循预训练-微调范式吗?

目前看预训练-微调范式是其主流的形态,并且该趋势还在蓬勃发展,没有比较理想的挑战者出现。当然我们可以类比CV领域,目前图像领域某些任务是可以摆脱预训练的范式的,因此也难说NLP领域是否也会有类似的进展。当然,即便也有这样的进展,文心团队也有信心在该领域保持优势。

16

ERNIE平台目前可以支持哪些类型的任务,是否支持机器翻译?

a)分类、匹配、序列标注均可,文本生成在BML也可以支持。

b)目前文心平台提供了针对机器翻译任务的预制算法,在BML中有提供,感兴趣的用户可以申请。

17

针对长文本训练,有什么处理方法吗?

最简单的方法是通过滑动窗口将长文本切断为短文本,并将其通过ERNIE之后的输出汇总在一起统一处理。文心也在研发专门针对长文本的预训练模型,敬请期待。

18

做视频推荐冷加载的时候,处理tag embedding 除了叠加几个tag的embedding还有其他的处理方式么?

理论上拼接、池化、attention、加权求和等方式都可以尝试。推荐任务特别看场景,还是要在具体的场景中试验得到结果。

19

数据增强有哪些策略呢?

文心在BML中预制了数据增强的工具包,可以直接使用。包括随机遮盖、删除、同词性词替换、词向量近义词替换、ERNIE语言模型替换等。当然还有一些更高阶的策略,比如随机替换可能把影响分类效果关键词给替换了,反倒带来更多噪音。因此可以加上一些能够弱化这种噪音的策略。

20

毕业论文要用情感分析模型,媒体话语分析可以怎样训练积极、消极、中性的三类情感?

传统的思路是分词、embedding、魔改网络、评估效果。有预训练模型的话可以直接尝试预训练模型以提升效果。但需要针对你自己的数据场景有一些创新,否则难以出彩。比如媒体话语的标注数据是否很少,文本是否比较长,对预测的性能要求有多高,标注数据是否存在噪声,类别是否偏斜……这些都可以逐一考察并找出创新点。

21

怎么快速得知各种任务模型的基线水平?

最简单的方法就是用EasyDL直接将训练数据放进去,并选择合适的任务类型,直接看出来的结果。不用考虑任务底层实现,不必调参,不必配置环境。

22

医疗领域的ernie怎么用?

直接将这个预训练模型热启即可,进行定制化训练,其网络结构与ERNIE相同。

23

文心与Gpt3的参数相比,哪个多一些?

GPT3更多一些。

以上为文心两场公开课直播中大家较关注的问题,如果大家有其他关于百度语义理解技术与平台文心(ERNIE)的问题,欢迎加入交流群,与更多志同道合的NLP开发者共同沟通交流,也可访问文心(ERNIE)的GitHub地址,了解相关开发文档详情。

文心(ERNIE)QQ交流群: 958422639

GitHub地址:

https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md

点击“ 阅读原文 ”即可访问文心(ERNIE)官网,进行详细了解。

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

UJBBBnN.jpg!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK