47

【ACL 2019】Matching the Blanks 预训练关系表示模型

 4 years ago
source link: https://www.tuicool.com/articles/IjINJv2
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

本论文关注于通用目的关系抽取,使用Bert进行关系表示,并且提出了Matching the blanks 预训练任务。论文模型在多个数据集上达到了SOTA的结果,并且在小样本的情况下提升明显。

论文题目:Matching the Blanks: Distributional Similarity for Relation Learning

论文原文: https://arxiv.org/pdf/1906.03158.pdf

论文背景

通用目的(General Purpose)的关系抽取器,即能够对任意关系建模的关系抽取器,是信息抽取研究中的愿景。之前提出的构建通用关系抽取器的方法,如用表面形式(Surface Form)来表示关系,或者联合嵌入关系的表面形式和知识库中的关系的方法,都不能够很好地泛化。

论文使用Bert [1]来对文本关系进行表示,并且提出了Matching the blanks的方法来预训练任务不可知(task agnostic)的关系抽取模型。论文的模型在Few-shot关系抽取的数据集FewRel上达到了SOTA的结果,并超过了数据集给定的人类水平,并且在有监督的关系抽取数据集SemEval 2010 Task8、KBP37、TACRED上也达到了SOTA的效果。

论文的贡献主要有两个:

  • 测试了Bert的不同的输入方式和输出方式对关系抽取结果的影响;

  • 提出了关系抽取预训练任务Matching the blanks,在少样本关系抽取任务上效果提升明显。

论文模型

Bert 作关系表示encoder的不同变体

首先考虑Bert的输入方式,即如何在输入中指定两个实体的位置,论文中提出了三种方法:

  • STANDARD:标准输入,不指定实体位置;

  • POSITIONAL EMB:位置嵌入,Bert的输入本来就有segment embedding,这里把实体1和实体2所在token的segment type置为1和2,如下图 (c) 的输入部分;

  • ENTITY MARKER:实体标记,在实体1和实体2的两侧用特殊标记标记实体位置,如下图 (d) 的输入部分。

对于输出方式,即如何从Bert最后一层的输出得到关系表示,论文中也提出了三种方法:

  • [CLS]:用 [CLS] token的表示作为关系表示;

  • MENTION POOL:分别对两个实体对应token的表示作max pooling,然后拼接得到关系表示;

  • ENTITY START:两个实体开始位置特殊标记token的表示,拼接起来作为关系表示。

au2YBnR.png!web

Bert 不同变体

Bert不同输入输出方式组合得到的模型结构如上图所示,论文测试了不同结构在SemEval 2010 Task8、KBP37、TACRED以及FewRel 数据集上的表现,发现ENEITY MARKER输入方式、ENTITY START输出方式(上图 f)在所有测试数据集上的表现都是最好的。之后的实验在这个模型的基础上进行。

Matching the blanks 预训练任务

基于上述假设,如果两个句子中包含相同的实体对,那么它们的关系表示应该尽可能相似,反之相似度应尽可能低。假设两个句子的关系表示分别为 r 和 s,用内积 r^T s 来计算两个关系表示的相似度。

如果给模型输入两个句子,得到关系表示,按照上面的假设,模型只需要句子中实体的信息(比较实体对是否相同)就可以最小化误差。因此,论文按照一定概率(a = 0.7)来把句子中的实体替换为特殊标记 [BLANK],使模型对句子中除实体外的 context 信息进行建模。

预训练任务的loss为Bert Masked Language Model loss以及关系表示相似度的loss,作者表示Bert Masked Language Model loss对模型的训练还是比较重要的。预训练的数据集从 Wikipedia 构建。

论文模型使用Bert Large的参数进行初始化,在Matching the blanks任务上预训练后,再在具体的关系抽取任务上进行fine-tune。

实验结果

VBvMfi7.png!web

不同数据集的测试集F1值

在Matching the blanks任务上预训练的Bert模型要优于原来的Bert模型,并且在三个有监督的关系抽取数据集上达到了SOTA的结果。

jimEvuV.png!web

改变训练集每个关系类别样本数量得到的结果

如上表所示,在FewRel数据集上,未在训练集上fine-tune的Bert_em+MTB模型要优于之前SOTA模型。虽然在样本数量较多的情况下Bert_em与Bert_em+MTB表现接近,但Bert_em+MTB只需要很少量的样本便能够达到Bert_em的最好效果。

Matching the blanks预训练使得模型需要更少的标注样例进行fine-tune,更适用于少样本或少资源的场景。

参考文献

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprintarXiv:1810.04805.](https://www.aminer.cn/archive/5bdc31b417c44a1f58a0b8c2)

[2] Mintz, Mike et al. “Distant supervision for relation extraction without labeled data.” ACL/IJCNLP (2009).](https://aclweb.org/anthology/P09-1113)

学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢!

QJBzumU.jpg!web

分享干货

AMiner迄今为止已发布18期AI系列研究报告,您可在后台回复 对应数字 获取报告。

推荐阅读 (点击查看↓)

✦   ACL 2019论文| 将文本建模为关系图用于关系提取

✦  ACL 2019论文| 为知识图谱添加注意力机制

✦ 博世(Bosch)和戴姆勒(Daimler)获得全球首个L4级别自动泊车许可

✦ AI Time 4 | 论道数据共享开放与隐私保护

✦ AI Time 5 | 论道无人驾驶: 近在咫尺还是遥遥无期

微信公众号菜单栏为大家设置了 “论文推荐” “优质分享” 专栏,欢迎大家关注。

Zzi2yiN.png!web

jYbQBbN.jpg!web

您的转发就是我们最大的动力

点击阅读原文 查看更多AMiner学术文章


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK