知识图谱论文大合集，这份干货满满的笔记解读值得收藏

ACL 2018

iYrauaM.png!web

■ 链接 | https://www.paperweekly.site/papers/2108

■ 解读 | 刘兵，东南大学计算机学院博士，研究方向为机器学习、自然语言处理

动机

远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据，但是其中噪声太多，影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响，但是仍然无法克服 bag 全部是错误标注的情形。

为了换机噪声标注，本文提出基于对抗神经网络的方法，尝试从自动标注数据中清除噪声。实验结果表明，本文提出的方法能够有效去除噪声，提升远程监督方法的抽取性能。

方法框架

3Aramu2.png!web

本文提出的方法包括一个生成器和一个判别器，他们的功能是：

1. 生成器：生成器用于将关于关系 r 的有噪声的数据 P 划分成两组：表示正确标注数据的 TP 和表示错误标注数据的 FP。模型会输出每个句子是正确标注的概率，然后依据该概率抽样，得到 TP，剩余的作为 FP。

2. 判别器：评价生成器生成的数据划分的好坏。评价的方法是：首先使用标注为关系 r 的数据 P 和非 r 的数据 N 对判别器做预训练。在评价生成器的划分 TP FP 时，有意颠倒 TP FP 的标签，即 TP 标记为负例，FP 标记为正例，从而形成错误的训练数据，使用该数据继续训练判别器，看看该判别器性能下降情况。判别器性能下降越多，说明颠倒标签的 TP FP 越错误，也就是 TP FP 越正确。

对抗过程是：生成器生成数据划分之后，判别器通过训练过程来评价该划分的好坏，并将结果反馈给生成器。生成器根据反馈生成更好的数据，从而更大程度地降低判别器的判别能力。

实验

实验部分分析了训练过程中生成器和判别器的收敛情况、以及去噪效果。在去噪效果方面，从下面的 P-R 图可以看出，在去噪后的数据上训练得到的模型比在去噪前的数据上训练的模型效果更好。

26fUrym.png!web

AAAI 2018

jqANFbZ.png!web

■ 链接 | https://www.paperweekly.site/papers/2109

■ 解读 | 徐康，南京邮电大学讲师，研究方向为情感分析、知识图谱

任务简介

特定目标的基于侧面的情感分析，在原来基于侧面的情感分析的基础上，进一步挖掘细粒度的信息，分析特定对象的侧面级别的情感极性。具体任务的示例如图 1 所示，给定句子识别该句子描述了哪个目标的哪个侧面，并且识别出关于该侧面的情感极性。

IRZV7bz.png!web ▲ 图1. 特定目标的侧面级别的情感分析示例

umM7Fr7.png!web

▲ 图2. 文本描述多个目标的多个侧面的示例

从图 2 的示例中，我们可以看出真实的文本描述中，我们可能同时描述多个目标和关于这些目标的多个侧面，原来基于侧面的情感分析，一般用于评论分析，假定目标实体已经给定，因此该任务只能识别出侧面以及分类该侧面的情感，更一般的情况，该任务并不能解决，因此，需要构建新的任务，特定目标的基于侧面的情感分析，同时抽取文本的描述的目标、它们对应的侧面以及描述这些侧面的情感极性。

例如，给定句子“I live in [West London] for years. I like it and itis safe to live in much of [west London]. Except [Brent] maybe.”包含两个目标 [west London] 和 [Brent]。

我们的目标就是识别目标的侧面并且分类这些侧面的情感。我们想到的输出就是关于目标 [WestLondon] 的结果 [‘general’:positive;‘safety’:positive] 和关于目标 [Brent] 的结果 [‘general’: negative; ‘safety’:negative]。

现有方法的不足：

1. 在一个句子中，同一个目标可能包含多个实例（同一个目标的不同表述方式，例如，同义词、简写等）或者一个目标对应一个句子中的多个词语。但是，现有的方法都假设所有的实例对于情感分类的重要性是一样的，简单地计算所有实例的向量的均值。事实上，同一个目标中的个别实例对于情感分类的重要性明显高于其他的实例。

2. 现有的层次注意力机制模型将关于给定目标、侧面和情感的建模过度简化成一种黑盒的神经网络模型。现有的研究方法都没有引入外部知识（情感知识或者常识知识）到深度神经网络，这些知识可以有助于侧面和情感极性的识别。

模型简述和常识知识：

本文提出的神经结构如图 2 所示，包含两个模块：序列编码器和层次注意力模块。给定一个句子 3iYjQvv.png!web ，首先查阅词向量表将句子中输入的词语全部变成词向量 I7R3quE.png!web 。

其中序列编码器基于双向 LSTM，将词向量转换成中间隐含层序列输出，注意力模块置于隐含层输出的顶部，其中比较特殊的是，本结构中加入目标级别的注意力模块该模块的输入不是序列全部的中间隐含层输出，而是序列中描述目标对象对应的位置的词语的隐含层输出（如图 2 中的紫色模块），计算这些词语的自注意向量 Vt。

这里目标级别的注意力模块的输出表示目标，目标的表示结合侧面的词向量用于计算句子级别的注意力表示，将整个句子表示一个向量，这个句子级别的注意力模块返回一个关于特定目标和侧面的句子向量，然后用这个向量预测这个目标对应的侧面的情感极性。

miA3qiY.png!web

▲ 图3. 注意力神经结构

为了提升情感分类的精确度，本文使用常识知识作为知识源嵌入到序列编码器中。这里使用 SenticNet 作为常识知识库，该知识库包含了 5000 个概念关联了丰富的情感属性（如表 1 所示），这些情感属性不但提供了概念级别的表示，同时提供了侧面和它们的情感之间对应的语义关联。

例如，概念“rottenfish”包含属性“KindOf-food”可以直接关联到侧面“restaurant”或者“food quality”，同时情感概念“joy”可以支撑情感极性的分类（如图 4 所示）。

YBfy2qI.png!web

▲ 表1. SenticNet 的示例

因为 SenticNet 的高维度阻碍了将这些常识知识融合到深度神经网络结构中。AffectiveSpace 提出了方法将 SenticNet 中的概念转化成连续低维度的向量，而且没有损失原始空间中的语义和情感关联。基于这个新的概念空间，本文将概念级别的信息嵌入到深度神经网络模型中可以更好地分类自然语言文本中的侧面和情感分类。

QN7RNrV.png!web

▲ 图4. SenticNet语义网络的部分

实验结果

本文主要评估了两个子任务：一是侧面分类，二是基于侧面的情感分类；主要评估两个测度，精确度、Macro-F1 和 Micro-F1；实验室的数据集包括 SentiHood 和 Semeval-2015；常识知识库使用 SenticNet 和使用 AffectiveSpace 作为概念 embedding，如果没有抽取到概念，那么使用零向量作为输入。实验结果如图 5 和图 6 所示。

aIRJrmr.png!web

▲ 图5. 在 SentiHood 数据集上的性能

Y3UzYna.png!web

▲ 图6. Semeval-2015 数据集的性能

WWW' 2018

vqmAv2Z.png!web

■ 链接 | https://www.paperweekly.site/papers/2097

■ 解读 | 邓淑敏，浙江大学博士生，研究方向为知识图谱与文本联合表示学习，动态知识图谱，时序预测

动机

推荐系统最初是为了解决互联网信息过载的问题，帮助用户针推荐其感兴趣的内容并给出个性化的建议。新闻具有高度时效性和话题敏感性的特点，一般而言新闻的热度不会持续太久，而且用户关注的话题也多是有针对性的。其次，新闻的语言高度浓缩，往往包含很多常识知识，而目前基于词汇共现的模型，很难发现这些潜在的知识。因此这篇文章提出了 DKN，将知识表示融合到新闻推荐系统中。

模型

首先看一下 DKN 模型的框架，如下图所示：

NBr6BbV.png!web

DKN 模型主要分成三部分：知识抽取（Knowledge Distillation）、知识感知卷积神经网络（KCNN: Knowledge-aware CNN）、用于抽取用户兴趣的注意力网络（Attention Network: Attention-based UserInterest Extraction）。下面对这三部分进行详细的介绍。

1. 知识抽取

知识抽取模块的输入是一些用户点击的新闻标题以及候选新闻的标题。整个过程可以参见下图。

JJzANfB.png!web

首先将标题拆成一组词，然后将标题中的词与知识库的实体进行链接。如果可以找到词所对应的实体，那么再接着找出距离链接实体一跳之内的所有邻接实体，并将这些邻接实体称之为上下文实体。寻找上下文实体的过程如下图所示。

uYfyemq.png!web

这样，根据新闻标题可以得到三部分的信息，分别是词，链接实体，以及上下文实体。利用word2vec模型可以得到词的向量表示，利用知识图谱嵌入模型（这里用的 TransD）可以得到知识库实体的向量表示。其中，链接实体的表示就是 TransD 的训练结果，如果链接不上就 padding。上下文实体的表示就是对多个实体的表示进行平均，如果前一步没有链接实体这里也同样 padding。由此分别得到了词、链接实体、上下文实体的向量表示。

2. 知识感知卷积神经网络

KCNN 在得到新闻标题三方面信息的向量表示之后，下一步是要将它们放到同一个模型中进行训练。但是这里存在的问题是，三者不是通过同一个模型学出来的，直接放到同一个向量空间不合理。这篇文章使用的方法是，先把链接实体、上下文实体的向量表示通过一个非线性变换映射到同一个向量空间：

JVjEveR.png!web

qQvUNr2.png!web

然后类似于图像中 RGB 的三通道，将词、链接实体、上下文实体的向量表示作为 CNN 多通道的输入。这样 KCNN 的输入就可以表示为：

jMrQZzb.png!web

然后通过卷积操作得到新闻标题的向量表示：

ziyqauU.png!web

aMrueen.png!web

IFjQf27.png!web

KCNN 的架构可以参考下图。这里还用了不同大小的卷积核进行卷积。

MJ3YBzm.png!web

3. 注意力网络

给定用户 i 的点击历史新闻：

emErmqY.png!web

通过 KCNN 得到它们的向量表示：

ANv6vi6.png!web

采用一个 DNN 作为注意力网络和一个 softmax 函数计算归一化影响力权重：

EJja6b2.png!web

这样可以得到用户 i 关于候选新闻 t_i 的向量表示：

MbABb2r.png!web

用户 i 点击新闻 t_j 的概率由另一个 DNN 预测：

q2UBr2v.png!web

实验

数据集

这篇文章的数据来自 bing 新闻的用户点击日志，包含用户 id，新闻 url，新闻标题，点击与否（0未点击，1点击）。搜集了 2016 年 10 月 16 日到 2017 年 7 月 11 号的数据作为训练集。2017年7月12号到8月11日的数据作为测试集合。使用的知识图谱数据是 Microsoft Satori。以下是一些统计数据以及分布。

AZju6nq.png!web

63EzUj2.png!web

实验用的评价指标是 AUC 和 F1，对比实验结果如下表所示。

eyQBZjR.png!web

下面这张表展示了 DKN 本身的一些变量对实验结果的影响：

IzI7Jfq.png!web

笔者认为，DKN 的特点是融合了知识图谱与深度学习，从语义层面和知识两个层面对新闻进行表示，而且实体和单词的对齐机制融合了异构的信息源，能更好地捕捉新闻之间的隐含关系。利用知识提升深度神经网络的效果将会是一个不错的方向。

AAAI 2018

NJZRVva.png!web

■ 链接 | https://www.paperweekly.site/papers/1988

■ 源码 | https://github.com/adityaSomak/PSLQA

■ 解读 | 杨海宏，浙江大学博士，研究方向为知识问答与推理

论文概述

视觉问答（VisualQuestion Answering）现有两大类主流的问题, 一是基于图片的视觉问答（ImageQuestion Answering），二是基于视频的视觉问答（VideoQuestion Answering）。而后者在实际处理过程中，常常按固定时间间隔取帧,将视频离散化成图片（frame）的序列，剔除大量冗余的信息，以节省内存。

当前视觉问答的研究主要关注以下三个部分：

1. 延续自然语言处理中，对注意力机制（Attention Mechanism）和记忆网络（Memory Network）的研究，旨在通过改进二者提高模型对文本和图像信息的表达能力，通过更丰富的分布式表示来提升模型的精度。另一方面，也可以视作是对神经计算机（Neural Machine）其中键值模块（Key-value，对应注意力）和缓存模块（Cache，对应记忆网络）的改进。

2. 密集地研究可解释性（Interpretability）和视觉推理（Visual Reasoning）。对同领域多源异构数据，这类研究方向将问答视为一种检索或人机交互方式，希望模型能提供对交互结果（即答案）的来由解释。

3. 将文本或图像，以及在图像中抽取的一系列信息，如场景图谱（SceneGraph），图片标题（Image Caption）等视为是”知识来源”，在给定一个问题时，如何综合考虑所有的知识，并推断出最后的答案。

文章开头提到的论文，便是朝着第三个方向再迈进一步。

模型

本文提出的主要模型，是一个基于一阶谓词概率软逻辑（Probabilistic SoftLogic）的显式推理机。如果你已经训练好了一个用于视觉问答的神经网络模型，那么这个显式推理机可以根据模型的输出结果，综合考虑信息后，更正原本模型的输出结果。这样的后处理能提升模型的精度。下图就是一个这样的例子。

fQNFfej.png!web

▲ 图1. 一个正面例子

图 1 中红色六边形标示的 “PSL Engine”，是显式推理的核心部分。通过这一个部分，将 “VQA” 的预测结果与” Visual Relation（视觉关系）”，“Question Relation（问题关键词关系）”和”Phrasal Knowledge（语言常识）”三部分信息综合起来进行推理，更新答案。此处是一个正向例子。

推理过程具体如下：

1. 生成 VQA 答案：存在一个视觉问答的神经网络模型，对于这幅图片和相应问题，预测出最有可能的答案是：教堂（church）和谷仓（barn）。

2. 生成Visual Relation：通过利用 Dense Captioning system (Johnson, Karpathy, and Fei-Fei 2016) 生成图片的文本描述，再用 Stanford Dependency Parsing (De Marneffe et al. 2006) 抽取生成描述中的关键词，再启发式的方法为关键词对添加上关系，构成三元组。这代表了从图片中抽取出有效的结构化信息.。

3. 生成 Question Relation：再次使用 StanfordDependency Parsing 及启发式方法抽取问题中包含的三元组信息。

4. 生成 Phrasal Knowledge：将所有相关关键词在 ConceptNet 和词向量中索引，并计算相似度。

5. 由概率软逻辑推理引擎综合前面四步生成的所有信息，更新 VQA 答案对应的得分并重新排序，得到新的结果。

在推理过程中，使用了概率软逻辑来综合考量各种生成的事实。其核心思想是：由谓词和变元组成的命题，真值不在局限于 1 或 0（真或假），而是可以在闭区间 [0, 1] 上取值。一个简单的例子是：

RZZJfiB.png!web

“X 和 Y 是朋友关系且 Y 为 Z 投票，蕴含 X 为 Z 投票”的权重是 0.3。而“X 和 Y 是伴侣关系且 Y 为 Z 投票，蕴含 X 为 Z 投票”的权重是 0.8。回到本文的例子，综合所有生成的命题并进行推理的过程如下：

rq6VnaF.png!web

vIr2aiY.png!web

qyIbArE.png!web

在此，命题的权重w_i 是需要学习的部分。而优化的目标是使得满足最多条件的正确答案的权重最高。

实验

在数据集 MSCOCO-VQA (Antol et al. 2015) 测试，让我们看看效果：

zI7nMzZ.png!web

▲ 图2. 实验结果中的 8 个例子

WSDM 2018

UreaeiF.png!web

■ 链接 | https://www.paperweekly.site/papers/2110

■ 解读 | 李林，东南大学硕士，研究方向为知识图谱构建及更新

动机

词语的演化伴随着意思和相关词汇的改变，是语言演化的副产品。通过学习词语的演化，能够推测社会趋势和人类历史中不同时期的语言结构，传统的词语表示技术并不能够捕获语言结构和词汇信息。本文提出了动态统计模型，能够学习到具有时间感知的词向量，同时解决了相邻时间片段中词向量的“对齐”，实现了用来进行语义发现的动态词向量模型。

论文贡献

1. 本文的动态词向量模型可以看作传统“静态”词向量方法（如：word2vec）的提升。

2. 本文通过在所有时间片段上并行的学习临时词向量，实现词向量的联合学习，然后通过正则化项平滑词向量的变化，解决了对准问题。实验结果表明，本文通过正则化项实现对准的方法优于传统动态词向量中分步进行训练和对准的方法。

3. 本文利用块坐标下降方法来解决所有时间序列上词向量联合学习造成的计算问题。

4. 本文的方法在不同的时间片段中，共享了大多数词的信息。这使得本文的方法针对数据稀疏问题，具有健壮性，使得能够处理一些时间片段中的罕见词汇。

模型

本文为不同的时间范围学习到了不同的向量表示，并通过距离的定义，选出和一个词相似的“邻居”。为不同的时间周期训练不同的词向量，一个关键问题，就是不同时间中的词向量如何对准；通常来说训练词向量的 cost function 具有旋转不变性，这样在不同时间对同一个词学习到的向量可能不在相同的潜在空间中，这使得为不同时间片段训练词向量时，词的位置可能变的杂乱无章，无法和上一个时间段的词向量进行对准。

本文通过对所有时间序列上的词向量进行联合学习，避免单独解决对准问题。具体的，通过在所有时间片段上并行的学习临时词向量，然后通过正则化项平滑词向量的变化，最后利用块坐标下降方法来解决时间序列上进行词向量联合学习的计算问题。

对于静态词向量的训练，本文计算了所有词汇之间的点互信息 PMI，把训练词向量中求内积的操作看作是点互信息值，那么类似于负采样这种词向量训练技巧可以看作点互信息 PMI 的低秩分解，真实数据往往非常稀疏，存在高效的低秩分解方法。通过在每一个时间片段上进行低秩分解，来为词向量引入时间参数：

eamQRjr.png!web

词向量 U(t) 可以通过分解 PPMI(t,L) 得到，通过最小化连续时间片段中词向量的 L2范数来进行对准；整合以上内容，时态词向量的计算方法通过以下目标函数的最小化来得到：

jyqEJvr.png!web

实验

本文使用的数据是从 New York Times 上抓取的 99872 篇文章。在定性分析中，apple，amazon，obama，trump 的词义变化轨迹如下所示：

jmQ32ee.png!web

实验结果中，词义的变化轨迹通过“邻居”词汇的变化给出，能够清晰的看到语义的演化过程。表明了本文的动态词向量方法能够有效的捕获词义的演化。

入门

相关数据

注意力机制技术

Attention mechanism

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

神经网络技术

Neural Network

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

深度神经网络技术

Deep neural network

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

收敛技术

Convergence

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源： Wikipedia Google ML glossary

卷积神经网络技术

Convolutional neural network

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press. 维基百科

范数技术

Frobenius Norm

范数(norm)，是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域，是一个函数，其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

来源： CSDN Blog

知识图谱技术

Knowledge graph

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

知识库技术

Knowledge base

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

逻辑技术

Logic

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

人机交互技术

Human-computer interaction

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科

逻辑推理技术

logical reasoning

逻辑推理中有三种方式：演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

来源： Wikipedia

机器学习技术

Machine Learning

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

映射技术

Mapping

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源： Wikipedia

自然语言处理技术

Natural language processing

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

正则化技术

Normalization

规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到1.0 或0.0 到1.0。通过将属性数据按比例缩放，使之落入一个小的特定区间，如0.0到1.0，对属性规范化。对于距离度量分类算法，如涉及神经网络或诸如最临近分类和聚类的分类算法，规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘，对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法，规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比，权重过大。有许多数据规范化的方法，包括最小-最大规范化、z-score规范化和按小数定标规范化。

来源：Jiawei Han;Micheline Kamber著数据挖掘概念与技术机械工业出版社

噪声技术

Noise

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

问答系统技术

Question Answering

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科

推荐系统技术

Recommender system

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

目标函数技术

Objective function

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

参数技术

parameter

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

感知技术

perception

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

语义网技术

Semantic web

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念，它的核心是：通过给万维网上的文档蒂姆加能够被计算机所理解的语义，从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

来源：维基百科

语义网络技术

Semantic networks

语义网络常常用作知识表示的一种形式。它其实是一种有向图；其中，顶点代表的是概念，而边则表示的是这些概念之间的语义关系。

来源：维基百科

word2vec 技术

word2vec

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

来源：维基百科

权重技术

Weight

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

深度学习技术

Deep learning

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。近年来监督式深度学习方法（以反馈算法训练CNN、LSTM等）获得了空前的成功，而基于半监督或非监督式的方法（如DBM、DBN、stacked autoencoder）虽然在深度学习兴起阶段起到了重要的启蒙作用，但仍处在研究阶段并已获得不错的进展。在未来，非监督式学习将是深度学习的重要研究方向，因为人和动物的学习大多是非监督式的，我们通过观察来发现世界的构造，而不是被提前告知所有物体的名字。至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源： LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

PaperWeekly

PaperWeekly 是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

ACL 2018

动机

方法框架

实验

AAAI 2018

任务简介

现有方法的不足：

模型简述和常识知识：

实验结果

WWW' 2018

动机

模型

首先看一下 DKN 模型的框架，如下图所示：

1. 知识抽取

2. 知识感知卷积神经网络

3. 注意力网络

实验

数据集

AAAI 2018

论文概述

当前视觉问答的研究主要关注以下三个部分：

模型

推理过程具体如下：

实验

WSDM 2018

动机

论文贡献

模型

实验

Recommend

About Joyk