1

#yyds干货盘点# CoCon: A Self-Supervised Approach for Controlled Text Generation...

 2 years ago
source link: https://blog.51cto.com/Lolitann/5018718
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

读这个文章主要是我的写作提升素材,我觉得既不属于论文精读也不属于粗读,可能对一些想要精读或者粗读文章的并没有什么参考价值。更适合于学习怎么写文章的人。

本篇文章为: [2006.03535] CoCon: A Self-Supervised Approach for Controlled Text Generation (arxiv.org)

基于transformer的预训练语言模型显示出了卓越的自然语言生成能力。

虽然目前有尝试控制文本高级属性(情感、主题等)的文本生成任务,但是在单词和短语级别仍然缺乏对内容的精确控制。

文章提出CoCon,对于输入内容,在细粒度级别上控制预训练语言模型的输出。

本文的自监督方法中,CoCon通过约束内容输入帮助语言模型完成文本序列。通过实验,我们发现CoCon可以自然地将目标内容合并到生成的文本中,并以zero-shot的方式控制高级文本属性。

introduction

基于transformer的预训练语言模型作引领了自然语言处理任务的新潮流,其可以作为一种提取语境化word embedding的方法或者作为文本生成器。

因为大型预训练模型在大量文本语料库上训练过,可以非常流畅地进行文本生成,因此开始有文章开始探究如何对其输出的文本进行控制。

  • arXiv:1909.05858, 2019.
  • arXiv:1912.02164, 2019.

从头重新训练预训练模型的代价太大。(arXiv:1909.05858, 2019)

针对某一特定属性进行微调又会影响其泛化性。(arXiv:1909.08593, 2019)

在不改变预训练语言模型的情况下,可以尝试通过属性模块来控制生成的文本。(针对某一特定属性进行微调又会影响其泛化性。(arXiv:1909.08593, 2019)

虽然在控制高级文本属性(情感、主题)方面已经略有成效,但相同的目标属性会在单词级和短语级生成内容大不相同的文本。预训练语言模型文本生成的细粒度控制方面依旧存在空白。

提出CoCon

  • 预训练语言模型
  • CoCon层

CoCon层将输入内容的表征合并到编码文本中。再将其传递到预训练语言模型中。

使用自监督学习。训练数据是预训练模型本身生成的文本样本。

CoCon优势:

  • 保持细粒度控制输出的一致性的同时还可以影响到高级文本属性,比如情感、主题
  • 可以综合处理多个影响因素并控制不同因素的影响大小
  • 模块化,可以与不同的基于transformer的预训练语言模型进行随意组合

本文使用的预训练语言模型是GPT2。

通过神经网络生成所需属性的文本的工作有很多。

使用条件生成模型。使用标记目标属性的文本数据对神经网络进行训练。网络可以借助强化学习或者对抗生成网络进行训练。

  • Controlling output length in neural encoder-decoders.
  • Controlling linguistic style aspects in neural language generation.
  • Fine-tuning language models from human preferences.
  • Sequence generative adversarial nets with policy gradient.

这些方法中对预定属性的要求限制了生成文本的可能类型。

通过使用控制代码生成受控文本。因为结构类似于GPT-2,因此能生成高质量的文本,但它的控制代码在训练期间就确定了。

  • A conditional transformer language model for controllable generation.

与本文工作最接近的是即插即用语言模型(PPLM),通过相对较小的“可插入”属性模型,在已经预训练的语言模型上控制文本,而无需进行微调。但是其仅关注高级文本的属性,并且训练过程需要标记数据。

  • Plug and play language models: a simple approach to controlled text generation.

剩下的都是凑数嫌疑的对比文章,但是相比INSERT也好很多。

对加权,在decoder中增加目标词的权重来控制输出文本,但是会产生不连贯的文本。

用于问题生产的 条件语言生产方法,是关注上下文本,如主谓宾类型。

用于翻译的小型适配器要依赖于不同语言的标注句子资源。

还提了一嘴相关的文本风格转换

将一种文本风格转换为另一种。

使用自动编码器分离文本风格特征和非风格潜在表征,通过分离可以使文本风格发生变化的同时还保留大部分原文内容。

确定文本语料库中特定风格的相关属性标记,通过替换来修改文本风格。这种更偏向于文本转换,并且需要对风格进行预定义。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK