最佳论文：南京大学提出DSKG，将多层RNN用于知识图谱补全

2018/08/24 11:16

Panda 刘晓坤编译

2018 年 8 月 14-17 日，主题为「知识计算与语言理解」的 2018 全国知识图谱与语义计算大会（CCKS 2018）在天津成功举办。该会议是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议，并致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议。本届会议的最佳英文论文来自南京大学计算机软件新技术国家重点实验室和信息系统工程重点实验室，提出了一种用于知识图谱补全的深度序列模型 DSKG。机器之心对该论文进行了摘要介绍，感谢最佳论文作者胡伟教授对本文的确认。

论文：DSKG：一种用于知识图谱补全的深度序列模型（DSKG: A Deep Sequential Model for Knowledge Graph Completion）

rQ3mAvi.png!web

论文下载：https://pan.baidu.com/s/1dItQ-H6bbVq5yhQ7RGJgpQ
项目地址：https://github.com/nju-websoft/DSKG

摘要：知识图谱（KG）补全的目标是填补知识图谱中缺失的事实，其中每个事实都可表示成一个形式为 (主体, 关系, 客体) 的三元组。当前的知识图谱补全模型都只能通过三元组中的两个元素（比如主体和关系）来预测剩余第三个元素。我们在这篇论文中提出了一种新模型，其中使用了专门针对知识图谱的多层循环神经网络（RNN）来将知识图谱中的三元组建模成序列。我们在两个基准数据集和一个更为困难的数据集上进行了传统的实体预测任务实验，结果表明我们的方法在许多评测指标上都优于多个之前最佳的知识图谱补全模型。此外，因为我们的模型具有序列特性，所以只需给定单个实体，就能预测整个三元组。我们的实验表明我们的模型在这种三元组预测新任务上表现也较好。

1 引言

Freebase [2] 和 WordNet [12] 等知识图谱（KG）通常会使用三元组来记录数以十亿计的真实世界事实，这些三元组可写成 (主体, 关系, 客体) 的形式（可简写为 (s,r,o)），其中 s 和 o 表示实体，r 表示 s 和 o 之间的关系。因为当前的知识图谱还远没有包含所有知识，所以还需要知识图谱补全任务。之前的模型关注的重点是被称为实体预测（也即链接预测）[3] 的一般任务，其要求基于给定的 (s,r,?) 或 (?,r,o) 来预测对应的 o 或 s，从而补全知识图谱中的三元组。图 1a 展示了一个实体预测的抽象模型。输入 s 和 r 首先被投射到某些向量或矩阵上，然后再组合这些向量或矩阵，得到一个连续表征 v_o，进而预测得到 o。

qYnAVzB.png!web

图 1：用于实体预测的不同模型。白圈和黑圈分别表示输入向量和输出向量。c 表示一个 RNN 单元，h 表示一个隐藏状态。DSKG 使用 c1、c2 来处理实体 s，使用 c3、c4 来处理关系 r。它们是不同的 RNN 单元。

尽管之前的模型已在实体预测上有良好的表现，但它们仍然可能不足以补全知识图谱。让我们假设一个模型可以基于给定的关系 r 而有效地补全一个实体 s。如果我们不提供任何关系，那么这个模型就无法填补 s，因为它无法选择用于完善这个实体的关系。实际上，知识图谱的底层数据模型并不允许任何不完整的元组 (s,r) 存在。

循环神经网络（RNN）是一种神经序列模型，已经在语言建模和机器翻译[7,16] 等许多自然语言处理（NLP）任务上取得了优良的表现。知识图谱中的三元组可被近似地看作是一个长度为 3 的简单句子。比如，三元组 (USA, contains, NewYorkCity) 可被变换成句子「USA contains New York City」。这启发了我们使用 RNN 来建模知识图谱。但是，我们依然面临着以下难题：（1）三元组不是自然语言。它们是用一种固定的表达方式 (s,r,o) 建模的复杂结构。这样短的序列可能不足以为预测提供足够的上下文信息。与此同时，由于路径数量巨大，构建有价值的长序列又具有很高的成本且难度很大。（2）在三元组中，关系和实体是以固定顺序出现的两种不同类型的元素。将它们视为同类型元素很可能是不合适的。

为了解决上述问题，我们提出了 DSKG（用于知识图谱的深度序列模型），其使用了一种新结构的 RNN，并且使用了一种专门针对知识图谱的采样方法来进行训练。为了阐释我们的想法，我们设计了一个基本的 RNN 模型作为初始版本（如图 1b 所示）。这个基本模型将输入 s 和 r 视为同类型元素并循环式地处理它们。c 表示一个 RNN 单元，其以之前的隐藏状态和当前元素为输入，预测下一个隐藏状态。实体层中的单元处理像是 s 的实体，而关系层中的单元处理像是 r 的关系。在这个模型中，仅有一个单元按顺序处理所有输入元素，所以 s 和 r 是被输入同一个单元 c 来获得它们各自的输出。然后我们使用 h_s 来预测 s 和 h_r 的关系，进而预测 s→r 的客体。

由于这个基本 RNN 模型仅使用了一个 RNN 单元来处理所有输入序列，所以可能无法很好地建模复杂结构。在 NLP 领域，研究者通常会堆叠多个 RNN 单元来改善结果。我们借用这一思想构建了一个多层 RNN 模型（参见图 1c）。但因为实体和关系的特性非常不同，这个模型仍然不能准确建模知识图谱中的三元组。

如图 1d 所示，我们提出的 DSKG 分别使用了多层 RNN 来处理实体和关系。具体而言，DSKG 为实体层和关系层使用了不同的 RNN 单元，即图中的 c1、c2、c3、c4 全都是各不相同的 RNN 单元。我们相信这种专门针对知识图谱的架构可以在关系形式多样且复杂的情况下表现得更好。因为 DSKG 将预测实体（或关系）看作是一个分类任务，所以我们还提出了一种定制的采样方法，可根据当前训练标签的类型采样负例标签。此外，DSKG 还有能力预测一个实体的关系，这启发了我们使用一种方法来通过关系预测改善实体预测的结果。举个例子，在预测 (USA, contains, ?) 时，模型可以自动滤除人或电影这样的实体，因为这些实体与关系 contains 无关。

我们在两个基准数据集上执行了实体预测实验，结果表明 DSKG 在许多评测指标上都优于多种之前最佳的模型。更进一步，我们在 FB15K-237 [14] 上对 DSKG 进行了评估，结果表明 DSKG 优于其它模型。此外，我们还设计了一种用于三元组预测的知识图谱补全新实验，可作为实体预测的补充。我们的研究表明：相比于通用的多层 RNN 模型，DSKG 能得到更优的结果。我们已在线公开我们的源代码、数据集和实验结果。

3 方法

在这一节，我们首先将描述 RNN 及多层 RNN。然后，我们会提出 DSKG，这是一种专为知识图谱设计的多层 RNN 变体。为了有效地训练 DSKG，我们还提出了一种基于类型的采样方法。最后，我们会介绍一种使用关系预测增强实体预测的方法。

3.1 RNN 及多层 RNN

我们先来看仅有一个 RNN 单元的基本 RNN 模型。给定一个序列 (x_1,...,x_T) 作为输入，基本 RNN 模型的处理方式如下：

zaAbyie.png!web

其中 f(·) 是一个激活函数，W_h、W_x、b 是参数。h_t 是在时间步骤 t 输出的隐藏状态。

多层 RNN 已经在 NLP 领域的复杂分层架构建模上得到了出色的表现 [5]。通过堆叠多个 RNN 单元，每个元素的复杂特征都可以被分层地处理（见图 1c）。我可以将其写成如下形式：

neieyaM.png!web

其中 R73meeR.png!web 是第 i 个 RNN 单元的参数。 Ebu2Yzb.png!web 是第 i 个 RNN 单元在时间步骤 t 的隐藏状态。因此，每个输入元素都会被每个单元按顺序处理，这可以看作是将深度神经网络（DNN）和 RNN 的概念结合到一起。最后，我们可以使用最后一个单元的隐藏状态作为时间步骤 t 的输出 h_t。

3.2 我们提出的深度序列模型

将知识图谱中的三元组看作是序列让我们可以使用 RNN 建模这个知识图谱。但是，这些长度为 3 的序列（即三元组）非常特别：每个三元组中的实体和关系都有非常不同特性而且总是互相交错在一起。因此，我们认为分别为实体和关系 RNN 构建各自的多层 RNN 能帮助模型学习到更为复杂的结构。根据这一直觉想法，我们提出了一种针对知识图谱的多层 RNN，其使用了不同的 RNN 单元来分别处理实体和关系。如图 1d 所示，使用这一架构，整个网络实际上是非循环式的，但仍然还是序列式的。我们可以将该结构写成如下形式：

JVFr6bv.png!web

其中 E 和 R 分别表示实体集和关系集。我们可根据 x_t 的类型选择当前的多层 RNN，然后应用公式 (2) 进行计算。

// 受限于篇幅，有关基于类型的采样方法和使用关系预测增强实体预测的方法在此略过。

4 实验

4.2 实体预测

遵照 [3,14,4] 以及其它许多研究，我们使用了 4 个评测指标：（1）排名第一的结果是正确实体的百分比（Hits@1）；（2）正确实体在排名前十的结果的百分比（Hits@10）；（3）平均倒数排名（MRR）；（4）平均排名（MR）。另外要说明，我们使用的是过滤后的排名 [3]，也就是说我们仅在排名阶段保留当前测试的实体。由于 DSKG 仅需单个实体就能预测关系，所以我们报告了所谓的「级联」结果。即，给定一个测试元组 (s,r,o)，DSKG 首先预测关系 (s,?) 来得到 r 的排名，然后再预测 (s,r,?) 中的实体，得到 o 的排名。最后，将这两个排名相乘，得到用于比较的结果（即最差排名）。

表 1 给出了在 FB15K 和 WN18 上的实验结果。因为这两个数据集都包含很多逆向三元组，所以仅能学习逆向关系的 InverseModel 也得到了很好的结果。此外，我们可以看到 DSKG 在多数指标上都优于其它模型。尤其是 DSKG 在 Hits@1 指标上是最佳的，这表明 DSKG 能够相当好地准确学习预测实体。即使我们以级联方式评估 DSKG，也仍然得到了相当的结果。

iyYvyyR.png!web

表 1：在两个基准数据集上的实体预测结果。† 表示我们自己使用原研究提供的源代码执行的模型，因为原文献没有使用其中某些指标；- 表示结果未知，因为原文献未报告且我们不能获得/运行源代码

表 2 给出了在 FB15K-237 上的实体预测结果。可以看到：（1）所有模型的表现都下降了。具体来看，InverseModel 完全无力处理这个数据集，这表明所有模型都再也不能通过使用逆向关系直接提升它们的表现了。（2）DSKG 在所有指标上都显著优于其它模型。DSKG（级联）还在某些指标上达到了之前最佳的表现，比如 Hits@10。

bANB3uz.png!web

表 2：在 FB15K-237 上的实体预测结果

3qeaMr7.png!web

表 3：数据集的统计信息

4.3 三元组预测

DSKG 不仅能预测实体，而且还能预测整个三元组。为了评估 DSKG 在直接预测三元组上的表现，我们构建了一个具有较大窗口的波束搜索器。另外也还有一些能够提升序列预测结果的复杂方法 [8]。具体而言，我们首先要求模型以所有实体为输入来预测关系，然后选出前 10 万个 (实体, 关系) 对来构建出 (s,r,?) 这样的不完整三元组。然后，该模型以这些不完整三元组为输入，预测它们的最后一个实体。最后，我们选择前 100 万个三元组作为输出，并按降序方式对它们进行排序以便评估。

我们使用了精度来评测这些输出的三元组。设 f2uue2Q.png!web 为输出的最佳 n 个三元组的集合， NJR3ieI.png!web 表示一个知识图谱的所有正确三元组的集合（包括测试集、验证集和训练集）， NjMVzyj.png!web 表示预测得到三元组的集合（包括测试集和验证集）。则与最佳 n 个输出三元组相关的精度 p_n 的计算方式为：

ZzUJVjz.png!web

其中， aeeERji.png!web 分别表示 qiU3aaY.png!web 中正确的、预测的和错误的三元组数量。由此，我们可绘制 p_n 随 n 变化的曲线。

我们在三个数据集上执行了实验，并将 DSKG 与两个通用模型 G2 和 G4 进行了比较。G2 是一个通用的 2 层 RNN 模型（见图 1c）。G4 是一个通用的 4 层 RNN 模型，因为 DSKG 也使用了 4 个不同的 RNN 单元。它们也都应用了 DSKG 中所用的所有功能（采样器、dropout 等）。

3Q7ZfqA.png!web

图 2：在三个数据集上的三元组预测结果

从图 2 上面一行可以看到，DSKG 在所有数据集上都显著优于 G2 和 G4，尤其是在 FB15K-237 上。另外，G4 的表现也比 G2 差。这可能是因为更深度的网络和更多参数会让实体和关系嵌入不适合训练。图 2 下面一行给出了 DSKG 的三元组预测的详细比例。在 FB15K-237 上，DSKG 以 0.47 的精度（前 10 万）正确预测了超过 2000 个三元组。在另外两个更简单的数据集上，DSKG 表现更好。在 FB15K 上以 0.87 的精度（前 40 万）正确预测了 34155 个三元组，在 WN18 上以 0.91 的精度（前 17 万）正确预测了 5037 个三元组。注意，DSKG 在 WN18 上的精度最后出现了陡然下降，这是因为 WN18 仅有 10000 个三元组供预测，而 DSKG 已经输出了所有其所能预测的三元组。

5 分析

5.1 与其它模型的比较

为了分析 DSKG 各个部分的贡献，我们开发了一系列仅包含部分功能的子模型：

NR：在训练中没有使用关系损失的 DSKG。构建这个模型的目的是评估最小化关系损失对实体预测的影响。
NS（非序列）：我们使用了 4 个全连接层（ReLU 作为激活函数）来替换 DSKG 中的 RNN，并减少了关系层和实体层之间的连接。最后，我们添加了一个密集层来组合这两个层的输出。这个模型与 DSKG 仍有一些其它共有特性（比如 dropout 和采样器）。构建该模型的目的是了解序列特性的影响。
NRE：没有使用基于关系预测增强实体预测的 DSKG（3.4 节）。

qUV3UrB.png!web

图 3：DSKG 以及其它模型在 FB15K-237 上的表现

图 3 给出了这些模型以及 G2 和 G4 模型在 FB15K-237 的验证集上的表现。我们可从结果中观察到：

序列特性是 DSKG 的关键点。对比 DSKG 和 NR 与 NS，我们可以发现：（1）尽管 NR 保有序列结构，但它的表现仍不及 DSKG，因为 NR 没有学习预测关系；（2）NS 没有使用序列结构，也没有学习预测关系。因此，它是图 3 中结果最差的。
针对知识图谱的多层 RNN 架构能显著提升表现。在 FB15K-237 上，DSKG 在所有指标上都优于 G2 和 G4，即使 DSKG 没有使用关系预测增强也一样。注意，在第 4.3 节，我们已经表明 DSKG 在三元组预测上优于 G2 和 G4。因此，DSKG 中使用的架构建模知识图谱的能力比通用型多层 RNN 模型更好。
关系预测增强方法能进一步优化实体预测结果。DSKG 的表现总是优于 NRE，即使在 MR 指标上也是如此，因为 DSKG 能直接去除很多不正确的实体。

5.2 层数的影响

ji2EJnf.png!web

表 4：在 FB15K-237 上，不同层数的 DSKG 的实体预测结果；‡ 一行是第 4 节所使用的主要结果

5.3 嵌入大小的影响

77JnuiI.png!web

表 5：在 FB15K-237 上，不同嵌入大小的 DSKG 的实体预测结果

相关数据

激活函数技术

Activation function

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

神经网络技术

Neural Network

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

深度神经网络技术

Deep neural network

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

知识图谱技术

Knowledge graph

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

自然语言处理技术

Natural language processing

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

机器翻译技术

Machine translation

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

参数技术

parameter

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

堆叠技术

Stacking

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源： Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259

验证集技术

Validation set

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源： Wikipedia

机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

最佳论文：南京大学提出DSKG，将多层RNN用于知识图谱补全