【ACL 2019】Matching the Blanks 预训练关系表示模型

本论文关注于通用目的关系抽取，使用Bert进行关系表示，并且提出了Matching the blanks 预训练任务。论文模型在多个数据集上达到了SOTA的结果，并且在小样本的情况下提升明显。

论文题目：Matching the Blanks: Distributional Similarity for Relation Learning

论文原文： https://arxiv.org/pdf/1906.03158.pdf

论文背景

通用目的（General Purpose）的关系抽取器，即能够对任意关系建模的关系抽取器，是信息抽取研究中的愿景。之前提出的构建通用关系抽取器的方法，如用表面形式（Surface Form）来表示关系，或者联合嵌入关系的表面形式和知识库中的关系的方法，都不能够很好地泛化。

论文使用Bert [1]来对文本关系进行表示，并且提出了Matching the blanks的方法来预训练任务不可知（task agnostic）的关系抽取模型。论文的模型在Few-shot关系抽取的数据集FewRel上达到了SOTA的结果，并超过了数据集给定的人类水平，并且在有监督的关系抽取数据集SemEval 2010 Task8、KBP37、TACRED上也达到了SOTA的效果。

论文的贡献主要有两个：

测试了Bert的不同的输入方式和输出方式对关系抽取结果的影响；
提出了关系抽取预训练任务Matching the blanks，在少样本关系抽取任务上效果提升明显。

论文模型

Bert 作关系表示encoder的不同变体

首先考虑Bert的输入方式，即如何在输入中指定两个实体的位置，论文中提出了三种方法：

STANDARD：标准输入，不指定实体位置；
POSITIONAL EMB：位置嵌入，Bert的输入本来就有segment embedding，这里把实体1和实体2所在token的segment type置为1和2，如下图 (c) 的输入部分；
ENTITY MARKER：实体标记，在实体1和实体2的两侧用特殊标记标记实体位置，如下图 (d) 的输入部分。

对于输出方式，即如何从Bert最后一层的输出得到关系表示，论文中也提出了三种方法：

[CLS]：用 [CLS] token的表示作为关系表示；
MENTION POOL：分别对两个实体对应token的表示作max pooling，然后拼接得到关系表示；
ENTITY START：两个实体开始位置特殊标记token的表示，拼接起来作为关系表示。

au2YBnR.png!web

Bert 不同变体

Bert不同输入输出方式组合得到的模型结构如上图所示，论文测试了不同结构在SemEval 2010 Task8、KBP37、TACRED以及FewRel 数据集上的表现，发现ENEITY MARKER输入方式、ENTITY START输出方式（上图 f）在所有测试数据集上的表现都是最好的。之后的实验在这个模型的基础上进行。

Matching the blanks 预训练任务

基于上述假设，如果两个句子中包含相同的实体对，那么它们的关系表示应该尽可能相似，反之相似度应尽可能低。假设两个句子的关系表示分别为 r 和 s，用内积 r^T s 来计算两个关系表示的相似度。

如果给模型输入两个句子，得到关系表示，按照上面的假设，模型只需要句子中实体的信息（比较实体对是否相同）就可以最小化误差。因此，论文按照一定概率（a = 0.7）来把句子中的实体替换为特殊标记 [BLANK]，使模型对句子中除实体外的 context 信息进行建模。

预训练任务的loss为Bert Masked Language Model loss以及关系表示相似度的loss，作者表示Bert Masked Language Model loss对模型的训练还是比较重要的。预训练的数据集从 Wikipedia 构建。

论文模型使用Bert Large的参数进行初始化，在Matching the blanks任务上预训练后，再在具体的关系抽取任务上进行fine-tune。

实验结果

VBvMfi7.png!web

不同数据集的测试集F1值

在Matching the blanks任务上预训练的Bert模型要优于原来的Bert模型，并且在三个有监督的关系抽取数据集上达到了SOTA的结果。

jimEvuV.png!web

改变训练集每个关系类别样本数量得到的结果

如上表所示，在FewRel数据集上，未在训练集上fine-tune的Bert_em+MTB模型要优于之前SOTA模型。虽然在样本数量较多的情况下Bert_em与Bert_em+MTB表现接近，但Bert_em+MTB只需要很少量的样本便能够达到Bert_em的最好效果。

Matching the blanks预训练使得模型需要更少的标注样例进行fine-tune，更适用于少样本或少资源的场景。

参考文献

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprintarXiv:1810.04805.](https://www.aminer.cn/archive/5bdc31b417c44a1f58a0b8c2)

[2] Mintz, Mike et al. “Distant supervision for relation extraction without labeled data.” ACL/IJCNLP (2009).](https://aclweb.org/anthology/P09-1113)

学术头条已建立微信交流群，想进群的同学请加学术君微信：AMiner308，记得备注：名字+单位/学校噢！

QJBzumU.jpg!web

分享干货

AMiner迄今为止已发布18期AI系列研究报告，您可在后台回复 对应数字 获取报告。

推荐阅读 （点击查看↓）

微信公众号菜单栏为大家设置了 “论文推荐” 和 “优质分享” 专栏，欢迎大家关注。

Zzi2yiN.png!web

jYbQBbN.jpg!web

您的转发就是我们最大的动力

点击阅读原文查看更多AMiner学术文章

论文背景

论文的贡献主要有两个：

论文模型

Matching the blanks 预训练任务

实验结果

参考文献

✦ ACL 2019论文| 将文本建模为关系图用于关系提取

✦ ACL 2019论文| 为知识图谱添加注意力机制

✦ 博世(Bosch)和戴姆勒(Daimler)获得全球首个L4级别自动泊车许可

✦ AI Time 4 | 论道数据共享开放与隐私保护

✦ AI Time 5 | 论道无人驾驶：近在咫尺还是遥遥无期

微信公众号菜单栏为大家设置了 “论文推荐” 和 “优质分享” 专栏，欢迎大家关注。

Recommend

Nacos集群搭建过程详解

Let’s Give Grunt Tasks the Marie Kondo Organization Treatment

Open sourcing the Kubernetes security audit

亿级流量高并发下，缓存与数据库不一致，咋办?

Getting Started With Python Requests - GET Requests

怎样编写更好的 JavaScript 代码[每日前端夜话0xA4]

文化 | 亿起15扬威贝享青春19

给Python加Markdown式排版，在线运行可做Jupyter替身丨谷歌大脑出品

从0到1了解CI/CD：初学者入门必备

Volex TTX2000 S: Teletext Adapter for the ZX Spectrum

About Joyk