98

Short Text Similarity with Word Embeddings

 5 years ago
source link: http://midday.me/article/544a80c37c6e4b8eaf4f7906199476d8?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

#[论文]Short Text Similarity with Word Embeddings

这篇论文发表自AIKM2015,AIKM全称是The ACM Conference on Information and Knowledge Management,由ACM主办是是信息检索、知识管理和数据库领域中顶级的ACM会议。

判断两个句子意思是否相同,在对话系统,搜索等很多地方都会有用,本文的方法只使用Word Embedding 然后构造了两种类型的特征来监督的学习解决这个问题。简单说作者是利用Word Embedding 和特征工程构造了一些特征来计算句子的相似度。其中很受启发的是特征的构建方法。

Distributional semantics.

word embedding 的一个基础是相似词会在相似的上下文出现,常用两种(在2015年)Word2vec 和Glove 作者也使用的是开源的词向量。

通常句子的相似度是可以通过各种方法得到句子表示,然后计算句子向量之间相似度的,比较简单的如词向量的均值等。

基于Word embedding 的短文本的句子表示有很多方法,比如doc2vec, CNN文本分类的时候相当于在word embedding 上加了一个CNN来得到句子的表示然后用于句子分类。还有很多基于句法分析等方法等等。。。(这个问题可以分出来仔细研究下)。还有很多基于外部知识的短文本句子表示,比如使用WordNet

Saliency-weighted semantic network

受到BM25的启发,利用词向量提出了一个计算句子相似特征的方法,公式如下: qQnUFna.jpg!web

$$k_{1}$$和$$b$$是超参数,平滑作用 很直观的句子中的不同词是有不同权重的,公式用IDF来代表这个权重,IDF描述的是在越少句子中出现的词的越重要。 公式中一定是长句子$$ss_{l}$$在前的即求和符号下是长句子,因为这样可以保证算出来的相似度是对称的,对任意两个句子算出来的分值是固定的。对长句子中的词求和不会漏掉词和词间的相似。试想如果只对短句子求和,长句子中的词就有用不到的时候,因为$$sem$$用的是$$max$$ .作者举了个例子:有两个句子,一个句子的词是另一个句子的子集,如果使用短句子这就会导致在长句中出现的词没有发挥其作用。

这个公式还可以做很多变化,比如对$$sem$$采用不一样的方法 对于分类来说如果只需要构建特征,可以不用求和,可以对求和符号里面的所有项进行特征装箱(bin)可以保留更多的信息。

Unweighted semantic network

为了得到更多信息,通过计算两个句子中词和词的cos相似度,得到相似度矩阵,一种方法是对所有的相似度进行装箱(bin),如果把词看作点,两个句子词与词的相似度矩阵可以用一个全连接的二图来表示, 计算每个词的最大相似度,然后对这个相似度进行装箱操作。

文章利用了特征工程中装箱的操作,我的理解是装箱通常会把连续变量离散化,比 如人的年龄装到老,中,青三个箱子里,这可以减少特征,抓住一些主要信息,去掉箱子内的差异噪音。

Bins of dimensions

通常利用word embedding 的均值来表示句子,利用cos相似度来计算句子相似度。但作者认识到cos聚合了所有维度的区别。会导致,在很多维度上都有小区别的向量,和在很少维度有较大区别的向量都有很大的不相似。所以作者对词向量均值向量的维度数量做装箱(bin)处理。详细说是,利用词向量,均值得到句子向量,这样句子的表示和词向量的维度一样了,然后对句子向量的维度数量按照某种划分装箱。比如作者采用的现在是 −∞–.001, .001–.01, .01–.02, .02–∞.意思是计算每个区间的维度的数量。

分类

最后用SVC来训练分类器,对比了各种特征的重要性。 zyQRbyF.jpg!web 重要性如上表,看到很多重要特征是装箱后的结果。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK