ICLR 2019 | 基于复杂空间关系旋转的知识表示方法 - JOYK Joy of Geek, Geek News, Link all geek

动机

mERRnu2.jpg!web

FFVFzy2.png!web

知识图谱通常是不完全的，因此预测缺失的链路是一项基本问题，在链路预测任务上，已有大量的研究学习实体和关系的低维表示，这些方法的普遍目的是根据观测到的事实建模推断知识图谱中的连通模式。

将知识图谱中存在的关系模式划分为三类：1）对称/反对称；2）逆；3）组合。

1. 对称关系： (h,r,t)→(t,r,h)，例如“配偶”关系；反对称关系：(h,r,t)→ (t,r,h)，例如“整除”关系；

2. 逆关系： (h,r 1 ,t)→(t,r 2 ,h), r 1 = ，例如“父亲”“儿子”关系；

3. 组合关系： (h 1 ,r 1 ,t 1 ), (t 1 ,r 2 ,t 2 )→(h 1 ,r 3 ,t 2 )，例如“配偶”“父亲”“母亲”；

已有的方法其得分函数如下所示：

JBrmiuy.jpg!web

分析每种模型的得分函数：

1. TransE 将关系表示为头实体和尾实体之间的双射函数，只能建模“逆”关系和“组合”关系，但是不能构建“对称”模式，因为对于对称关系它会产生 r=0；

2. TransX 模型是 TransE 模型的变形，当 g r,1 =g r,2 时它可以构建对称/反对称模式，但是不能推断逆和组合模式，因为 g r,1 、g r,2 是可逆矩阵乘法；

3. DisMult 无法建模反对称和逆模式，因为模型本身的对称性质；

4. ComplEx 解决了 DisMult 的问题并且能够在复数空间推断对称和反对称模式，另外它还可以推导逆规则，因为共轭复数的存在，可是它不能推导组合关系，因为它通过关系 r 无法建模 h 到 t 的双射函数。

5. HolE 和 ComplEx 模型类似，ConvE 模型是一个黑箱子，包含两层神经网络和卷积操作，很难去分析，因此这几种模型可以推导的模式关系如下所示：

6BziaeY.jpg!web

已存在的这些模型都只能构建和推断其中一种或几种模式，不存在一种模型可以完全构建所有关系模式，因此本文的动机就是寻找一种可以建模推断所有关系模式的方法。

上一篇论文中的 TorusE 模型的思想是在紧的李群中进行平移嵌入，TorusE 模型可以看做本文提出的模型 RotatE 的一种特殊情况，即嵌入的模数确定，RotatE 模型在整个复数空间上定义，具有更强的表达能力。TorusE 模型关注 TransE 模型的正则化问题，而本文关注多种类型的关系模式的建模问题。

另外，也有一些模型建模知识图谱的关系路径，可是这些方法只显式建模关系路径，而本文提出的模型还隐式的学习关系模式。

本文同样也研究了如何有效地进行负采样的问题，之前已有一些模型提出了生成对抗学习框架进行负采样（KBGAN），可是这种框架要求同时训练嵌入模型和一个离散的负样例生成器，导致了难以优化和昂贵的计算代价。

模型

本文提出 RotatE 模型用于知识图谱嵌入，灵感来源于欧拉恒等式，表明了可以将虚数单位 i 视作在复数空间中的旋转。

分析：该恒等式中 e 代表连续，i 代表旋转，就代表连续旋转， +1=0 就表示自然数 1 绕原点旋转 180°，再平移 1 就回到了坐标原点。

原理：具体来讲，模型 RotatE 将实体和关系映射到复数向量空间，并且将每个关系定义为头实体到尾实体的旋转：给定三元组 (h,r,t) ，期望 t=h°r ， ,, ° 是哈达玛积，则对于复数空间中的每一维都有：

通过约束，可以将视作的形式，即对应于在复平面内关于原点逆时针旋转弧度，并且只影响在复数向量空间内实体嵌入的相位。

距离函数可以定义为：

优化：损失函数类比词嵌入中的负采样损失，优化基于距离的模型：

FBfUfu3.png!web

这种负采样损失使用统一的方式对待所有三元组，这种模式会出现问题，因为在训练的过程中，许多样例明显是假的，不能提供任何有意义的信息，因此对负采样方法进行改进，提出“自我对抗负采样”，根据当前的嵌入模型采样负例。具体来说，遵循以下分布采样负三元组：

jIbUnm2.jpg!web

将该分布概率视作负例的权重，因此最终具有自我对抗训练的负采样损失函数如下：

NvEb2eE.png!web

对于这三种关系的形式化定义如下：

1. 关系 r 是对称/反对称的：if∀x,y : r(x,y) ⇒ r(y,x) (r(x,y) ⇒¬r(y,x)) ;

2. 关系 r 1 是关系 r 2 的逆：if∀x,y : r2(x,y) ⇒ r1(y,x)；

3. 关系 r 1 是关系 r 2 和 r 3 的组合：if∀x,y,z : r2(x,y)ʌr3(y,z) ⇒r1(x,z) 。

可以证明通过这种简单的旋转操作可以有效地建模所有关系模式：例如关系 r 是对称的当且仅当嵌入后的每个元素满足；两个关系 r 1 和 r 2 是互逆的当且仅当它们的嵌入是共轭关系（对称相反，互相牵制）：；关系是另外两个关系和的组合当且仅当，也就是。

具体的证明过程如下：

1. 引理 1：RotatE 可以推导对称/反对称模式：

证明：如果有 r(x,y) 和 r(y,x)，则：

否则：如果有 r(x,y) 和 r(y,x)，则：

2. 引理 2：RotatE 可以推导逆模式：

证明：如果有 r1(x,y) 和 r2(y,x)，则：

3. 引理 3：RotatE 可以推导组合模式：

证明：如果有 r1(x,z)，r2(x,y) 和 r3(y,z)，则：

与 TransE 模型的联系： TransE 模型除了对称模式可以建模其它所有的关系模式，因为在 TransE 模型中对称关系会被表示为 0，这将导致具有对称关系的实体在嵌入空间中彼此靠近。

RotatE 模型解决了这个问题：一个任意的向量 r，只要满足都可以用于对称关系，因此具有对称关系的实体可以被区分，不同的对称关系也可以被表示为不同的嵌入向量。例如，在一维嵌入下 TransE 和 RotatE 的示意图如下：

MNvIRbF.jpg!web

与 ComplEx 模型的联系： ComplEx 属于语义匹配模型，RotatE 属于基于距离的模型。现有的知识图嵌入模型大致可分为平移 (转换) 距离模型和语义匹配模型。前者度量事实作为两个实体之间的翻译 (转换) 的可信性，而后者通过匹配实体和关系的潜在语义来度量事实的可信性。旋转和复形属于不同的类。

实际上，可以发现 ComplEx 与 RotatE 之间的关系类似于 TransF 与 TransE 之间的关系，前者可以看作后者的一个松弛版本。另外 ComplEx 和 RotatE 之间最大的区别在于，RotatE 模型可以推断关系的组成模式，而 ComplEx 模型不能。

与 TorusE 模型的联系： TorusE 模型约束对象在环面上的嵌入，并将关系建模为平移，而 RotatE 模型将对象嵌入整个复杂向量空间，并将关系建模为旋转；TorusE 模型要求在紧凑的 Lie group 上嵌入对象，而 RotatE 模型允许在非紧凑的 Lie group 上嵌入对象，后者具有更大的表示能力。

TorusE 模型实际上非常接近该模型的一个特殊情况，即约束头部的模和实体嵌入固定。另外：TorusE 论文和本文的动机是完全不同的。TorusE 论文的目的是解决 TransE 的正则化问题，而本文的重点是推断和建模三个重要的关系模式

实验

数据集

使用四个广泛使用的知识图谱：

1. FB15k：Freebase 的子集，几乎 81% 的测试三元组 (x,r,y) 可以通过直接链接的三元组 (x,r’,y) 或 (y,r’,x) 推导出来，因此在该数据集上链路预测的关键在于建模和推导“对称”/“反对称”和“逆”模式。

2. WN18：WordNet 的子集，这个数据集中有很多“逆”关系，所以在该数据集上的主要关系模式也是“对称”/“反对称”和“逆”。

3. FB15k-237：FB15k 的子集，将其中的逆关系删除，因此该数据集上主要建模的模式是“对称”/“反对称”和“组合”关系。

4. WN18RR：WN18 的子集，删除了“逆”关系，因此该数据集上主要的模式也是“对称”/“反对称”和“组合”关系。

超参数

使用网格搜索设置超参数的范围：嵌入维度 k∈{125,250,500,1000}，批量大小 b∈{512,1024,2048}，自我对抗负采样 α∈{0.5,1.0}，固定间隔 γ∈{3,6,9,12,18,24,30}，不需要进行正则化，因为固定间隔 γ 可以防止模型过拟合。

评估

通过以下过滤设置评估链路预测的性能：将测试三元组与其它所有未出现在训练集、验证集、测试集中的候选三元组进行排名，候选三元组通过替换头尾实体生成 (h’,r,t) 或 (h,r,t’)，使用平均排名（MR）、平均倒数排名（MRR）和 H@N 作为评估标准。

基准

除了 RotatE，提出该模型的一种变形作为基准方法：即对实体嵌入添加约束，因此距离函数变为，使用变形模型 pRotatE 的目的是为了探索 RotatE 模型没有模数的信息只有相位信息时是如何工作的

距离函数的推导：

限制，可以重写 h,r,t:

Mb6jIn2.jpg!web

因此距离函数变为：

MRvYBfi.jpg!web

此时，如果在 TransE 模型中的嵌入是 h’, r’, t’，令θ h =ch’，θr=ch’，θt=ct’，C=1/c，则，这就表明了 RotatE 可以弱化成 TransE。

除了该变形方法外，还与 TransE、DistMult、ComplEx、HolE 以及 ConvE 对比。

结果 1

任务：链路预测

FFVnEb7.jpg!web

jYnu6jQ.jpg!web

分析：

1. 在 FB15k 数据集上，主要的关系模式是对称/反对称和逆，ComplEx 比 TransE 表现更好，因为 ComplEx 可以推导这几种关系，而 TransE 不能推导对称模式；另外 DistMult 在该数据集上 H@10 结果最好，尽管它不能建模反对称和逆模式。可能是由于在 FB15k 上的大多数关系，其头实体和尾实体是不同的，尽管 DistMult 会给 (h,r,t) 和 (t,r,h) 相同的得分，(t,r,h) 不可能是有效的，因为 t 的实体类型不匹配 h 的头实体类型。例如：(Obama, nationality, USA) 和 (USA, nationality, Obama) 会有相同的得分，但是 (USA, nationality, Obama) 可以很简单地被预测出是假的，因为 USA 不会是 nationality 的头实体。

2. 在 WN18 数据集上，其他结果与 FB15k 相同，但是 DistMult 结果并没有很好，因为它本身不能建模反对称和逆模式，并且在该数据集上几乎所有实体的单词都属于同一种实体类型，与 FB15k 的情况不同。

3, 在 FB15k-237 数据集上，主要的关系模式是组合，可以看到 TransE 比 ComplEx 的结果要好，因为 TransE 是可以推导组合模式的，而 ComplEx 不能推导组合模式；

4. 在 WN18RR 上，主要的关系模式是对称，因此 TransE 的结果不是很好。

另外：在 FB15k-237 和 WN18RR 上 pRotatE 比 RotatE 的结果差距更明显，这也表明了模数对建模和推导“组合”关系更加重要。

结果 2

任务：在 Countries 数据集上推导关系模式

Countries 数据集被设计用来显示地测试用于“组合”模式建模和推理的链路预测的能力，它包含 2 种关系 (neighborOf、locatedIn)，272 个实体（244 个国家，5 个地区和 23 个子地区）。

和一般的知识图谱中的链路预测不同，在该数据集上的查询通常是这种形式：locatedIn(c,?)，答案通常是 5 个地区之一。在该数据集上执行 3 个任务，每个任务都需要推导长度和困难逐步增加的组合模式，例如：S2 任务要求推导以下组合模式：

S3 任务要求最复杂的关系模式推导：

使用 AUC-PR 度量评估，结果如下：

Uruie2A.jpg!web

结果 3

任务：隐式关系模式推导，忽略关系嵌入的具体位置，只通过绘制关系嵌入中每一个元素的相位直方图表示结果。

对称：该模式下要求关系具有性质：r°r=1，则结果为 r i =±1，在 WN18 上训练 500 维的 RotatE，下图给出了关系 similar_to 的嵌入相位直方图，可以发现嵌入相位是 π，0，2π，这也表明了 RotatE 模型可以很好的推导对称模式；可以用 hypernym（上位词-反对称）作为一个补充反例。

UjYraqy.png!web

逆：这种模式要求一对逆关系是共轭的，在WN18上训练模型，下图是逆关系对 r 1 =hypernym 和 r 2 =hyponym 的嵌入相位图，两者相位相加是 0 或 2π 就可以表示。

组合：这种模式要求组合关系的相位是另外两个关系相位的加，在 FB15k-237 上训练 1000 维的 RotatE 模型，如下图所示：

zeIzIvQ.jpg!web

结果 4

任务：比较不同的负采样技术，包括“均匀取样”、“KBGAN 采样（使用 ComplEx 作为负样例生成器）”、“自我对抗采样”。

使用基于间隔的排序准则（margin-based ranking criterion）重新实现了 50 维的 TransE 模型，在 FB15k-237、WN18RR、WN18 上使用自我对抗负采样技术评估性能：

AneM7zA.jpg!web

为了进一步证明 RotatE 的有效性，进一步设置实验：使用具有自我对抗负采样技术的 TransE 和 ComplEx 与 RotatE 模型在相同的设置下进行对比：

bABZvuM.jpg!web

结果 5

进一步研究 RotatE 模型在不同关系类型上的性能：1-N、N-1 和 N-N。在 FB15k 的结果如下表：

3i6biuu.jpg!web

其中除了 TransEh 和 ComplEx 方法，还添加了 KG2E_KL 方法进行对比，它是一种知识图嵌入方法的概率框架，旨在用 TransE 模型对知识图中实体和关系的不确定性进行建模，并且发现这种方法始终具有较好的性能，这也展示了在知识图谱中建模不确定性的重要性。

总结

这篇论文方法很新颖，主要做出了以下几点贡献：

1. 关注知识图谱中的“关系”模式，不是关系路径，将图中的关系总结为了“对称”“反对称”、“逆”、“组合”三种关系模式；

2. 利用复数空间，将实体表示为负向量，关系表示为复向量空间中的“旋转”，并且证明了“旋转”可以完全匹配三种关系模式；

3. 另外将自我对抗负采样技术与提出的模型相结合，得到了很好的实验结果。

4. 论文里给出的实验很全面，最后还验证了 RotatE 模型在多种关系类型上的有效性。

我觉得还有一些不足之处：

1. 论文最后只给出了使用自我对抗负采样技术的 RotatE 模型的实验结果，虽然也使用了具备自我对抗负采样技术的其它方法进行对比，但是没有给出不具备这种负采样技术的 RotatE 模型的实验结果，无法明确的比较使用“旋转”的有效性。

2. 论文在分析几种模型对三种关系模式的表达能力时，对 ComplEx 模型无法表达“组合”模式的解释十分欠缺，因为 RotatE 模型和 ComplEx 模型都是在复空间中，所以希望对此有更充分的解释。

3. 文中提到了“TorusE”模型，虽然解释了两篇论文的动机不同，但是实验中没有进行对比。

作者丨王金梦

学校丨东南大学硕士生

研究方向丨知识图谱、表示学习

ICLR 2019 | 基于复杂空间关系旋转的知识表示方法

动机