20

如何对微博推文进行情绪分析(细粒度情感分析)

 4 years ago
source link: https://flashgene.com/archives/89304.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

常见的文本分析,如情感分析,主要计算文本的积极情绪和消极情绪得分。

RjI3ayI.png!web

但是当文本中富含情绪,如喜怒哀乐等不同的情绪的时候,可以进行更细粒度的情绪分析。之前分享过 NRC词语情绪词典和词语色彩词典 ,但是没有教大家怎幺使用。

ZFrqquj.jpg!web

今天使用两个数据

数据集 simplifyweibo 4 moods.csv

词典NRC词典, 包括喜怒哀乐等8种情绪

读取微博数据

simplifyweibo 4 moods.csv数据太大,

咱们使用小样本small simplifyweibo 4_moods.csv

EBnimuJ.png!web

查看四种情绪的分布情况

3Iryui6.png!web

NRC情绪词典

其中NRC词典为加拿大国家研究委员会信息技术研究所(Institute for Information Technology, National Research Council Canada. )组织制作的基于众包方式标注出的词典。

https://www.saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm

参考文献

Mohammad, Saif M., and Peter D. Turney. “Crowdsourcing a word–emotion association lexicon.” Computational Intelligence 29, no. 3 (2013): 436-465.

下面我们读取 NRC-Emotion-Lexicon-v0.92-InManyLanguages-web.xlsx

Mvq6vim.png!web

支持的语言

支持41种语言,包括

英语

法语

阿拉伯语

德语

俄罗斯语

中文(简体、繁体)

英文是标注的,其他语言是根据google tranlate将对应的英文翻译为其他语言。

中文情绪词列表构建

之前的研究认为,尽管投资者一次对包含重大变化的财务报

ANbYZvY.png!web

构建情感词列表

设计文本情绪计算函数

uAR7nyF.png!web

series数据变为dataframe,详情可了解下apply

理解pandas中的apply和map的作用和异同

输出分析结果

将原始数据与分析结果合并, 输出到新的csv中。

U3iQjmn.png!web

检查

我们查看一下随机抽查一下,看看

最fear

最positive

最negative 的分别是什幺内容

myyAzmz.png!web

Run

Run

Run

最正面的不太对啊,再看看第二最positive的

Run

分析结束

Tips

使用这个NRC,最好是英文数据,毕竟是用英文数据英文场景英语母语者标注的情绪词典。其他语言虽然能进行情绪分析,但因为是从英文中翻译过来的,存在一定的问题


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK