亚马逊畅销书的NLP分析——推荐系统、评论分类和主题建模

fieYjqq.jpg!web

作者： Ellen Tang

编译：ronghuaiyang

导读

本文介绍了对亚马逊畅销书的NLP分析，并通过这些分析为客户产生了价值。

Enem63i.jpg!web

背景信息和目标

与所有其他零售公司一样，亚马逊努力解决客户评论中存在的欺诈和质量差的问题，并开发系统来识别公正和可靠的信息，以获得更好的客户体验。该分析试图将自然语言处理、情感分析和主题建模领域的现有工作应用到从 Amazon 检索的数据中。

随着数据分析和应用技术的发展，文本和自然语言分析越来越受到人们的关注，因为它为传统的定量方法带来了更有价值的见解。本文所要解决的问题包括三个方面： 1、建立用户兴趣档案，更好地向用户推荐产品。 2、设计一个系统，对新的评论进行“有用性”的“预评价”，以解决亚马逊客户评论的质量差的问题。 3、构建能够从这些评论中发现关键见解(主题)的智能系统，使客户能够快速提取评论所涵盖的关键主题。

数据源规范和数据采集细节

本项目使用的数据集是从 UCSD Julian McAuley 教授的研究门户网站导入的。目前的数据集包含从 2013 年到 2014 年的超过 80,000 篇书评，并被分割为只包含前 20 名畅销书的书评，从而具有比最常见的基线更高的预测能力和准确性。

数据采集过程中的主要任务之一是建立一个文本规范化器，将以下操作串联起来进行文本数据预处理：去除重音字符，对缩写进行复原，删除特殊字符，词干提取，词型还原，删除停止词以及去除重复词。

EbM3Urz.jpg!web

JnEvaaY.jpg!web

设计选择和实现方法的基本原理

主题建模和分类

BreMzaN.png!web

通过对两种不同的主题建模方法进行网格搜索和比较，结果表明 Mallet 的效果更好，25 个主题的一致性和稀疏性最好。基于这 25 个主题，我们可以简单地提取一个关于评论内容的简要想法。例如，第 14 个主题可能与《五十度灰》相关，第 25 个主题可能与《饥饿游戏》相关。

Vzqeu2Y.jpg!web

yI3auiF.jpg!web

2Yz6jmf.jpg!web

分类法中包含的类别和节点代表有价值的评论者对畅销书的反馈，图书销售商可以使用评论类别中的更改来监视和更改销售策略。下面三种评论可能针对特定的读者，因为这些评论的内容多年来都是一致的。

命名实体识别+购物篮分析。

bqiY7vu.jpg!web

情感分析

为了进行情感分析，我为情感建模添加了一个积极与消极的列，并将 1-3 的得分转化为消极的评价，将 4-5 的得分转化为积极的评价。这里的情感分析包括三种传统的机器学习算法，包括朴素贝叶斯分析、多项式贝叶斯和使用 Tfidf 方法的逻辑推理。我使用准确性评分和 F-1 评分来比较这三种模型的性能和预测能力。分析表明，与多项式贝叶斯相比，使用 TF 的 Logistic 算法具有更高的准确率，但是朴素贝叶斯分类器计算出了三种模型中准确率最好的数和 F-1 的得分。

AzENzeV.jpg!web

meAju2u.png!web

评论质量分类模型

分类模型的目的是帮助亚马逊判断每条新评论的质量。在原始数据集中，有用的评论被标记为“helpful_rate”，范围从 0 到 1。 helpful_rate 分数越高，评论越有帮助。因此，我使用 0.5 作为阈值，将数据分为“有用的”和“无用的”两个级别，作为因变量。在特征工程过程中，使用 unigram TfidfVectorizer 将所有的评论转化为向量是第一步。这个过程产生了 1500 个 n-gram 特征，包含了 bigram 和 trigram。计算每个文档中的单词、字符、标点符号、大写单词、标题单词和 pos 标签的数量。主题建模、分类、情绪分析和命名实体识别的结果也包括在内。在测试这些特征之后，n-gram 特征被删除，因为它们没有帮助。

iaq2Qzr.jpg!web

FvQVJrM.jpg!web

分类器方面，在 hugging face transformer 中，教程中实现了预先训练好的 RoBERTa 模型。然而，它的表现并不好。在这种情况下， RoBERTa 适合这个问题。如果 Amazon 想要使用这种预先训练好的模型，那么事先对 RoBERTa 的评论数据集进行调优会更有帮助。对所选择的特征进行了 GaussianNB、Logistic 回归、Random Forest、XGBoost 的测试，XGBoost 的性能最好。最后的模型是在对 max_depth、min_child_weight 和 gamma 等参数进行网格搜索后构建的。

MJraUz3.jpg!web

N3iI7nU.png!web

部分网格搜索后的最终模型结果：

nI7NZni.png!web

分类模型

分类模型采用 Matthews 相关系数、准确率评分、F1 分和 roc_auc 分来评价模型的准确性和精确度。分数越高，模型越好。基于这些分数，将 XGBoost 作为最终模型。在最后的模型中，我们使用 5000 棵树来训练模型，学习率设置为 0.01，最大深度设置为 4，最小子权重设置为 6。最终模型的 MCC、准确率、F1、roc_auc 分别为 0.488、0.7561、0.8013、0.8297。

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。

qIR3Abr.jpg!web

主题建模和分类

命名实体识别+购物篮分析。

评论质量分类模型

推荐系统

分类模型

推荐模型

关于AINLP

Recommend

第5期 · 前端周刊

Windows身份认证及利用思路 - FreeBuf互联网安全新媒体平台

智能合约事件应该这么用！ | 登链社区 | 深入浅出区块链技术

iPhone线上渠道大降价！大受欢迎的却是这类国产手机

六问百度：李彦宏还有机会吗

关于Network Discovery的一些思考

News Extract API – Pull structured data from online news articles

视频 | 冰箱学习法：教你 30 分钟掌握 K8s 核心概念

混沌鸿蒙，新基建下的分布式消息 Chaos 框架

Java 正青春：现状与技术趋势报告

About Joyk