44

使用 RNN 进行情感分析的初学者指南

 5 years ago
source link: http://tech.ifeng.com/a/20180621/45033730_0.shtml?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

原标题:使用 RNN 进行情感分析的初学者指南

雷锋网按:本文为雷锋网字幕组编译的技术博客,原标题 Advances in Semantic Textual Similarity,作者为 Google AI 的软件工程师与技术主管 Yinfei Yang。

翻译 | 陈涛     整理  |  孔令双

原文链接:

https://towardsdatascience.com/a-beginners-guide-on-sentiment-analysis-with-rnn-9e100627c02e

ZvAfAze.jpg!web

图片来源:Unsplash

情感分析可能是最常见的 自然语言处理 的应用之一。我无需去额外强调在客服工具中情感分析的重要性。本文将利用循环神经网络,训练出一个基于 IMDB 数据集 的电影评论分类器。如果你想了解更多关于深度学习在情感分析中的应用,这里推荐一篇很棒的 论文

数据

我们将采用循环神经网络,具体地说应该是 LSTM,去实现基于 Keras 的情感分析。Keras 已经将 IMBD 电影评论数据内置其中,我们可以很方便地调用。

from keras.datasets import imdb

设置词汇量的总数,并加载训练数据和测试数据。

vocabulary_size = 5000
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words = vocabulary_size)
print('Loaded dataset with {} training samples, {} test samples'.format(len(X_train), len(X_test)))

加载完的数据拥有 25000 个训练样本和 25000 个测试样本。

查看一条评论样本及其标签。

print('---review---')
print(X_train[6])
print('---label---')
print(y_train[6])

图 1

请注意,评论是以一串整数的形式进行存储的,它们表示预先分配给每个词语的 ID。标签则用一个整数表示,0 代表消极的评价,1 代表积极的评价。

我们可以利用imdb.get_word_index()函数返回的字典,从而将评论映射回原有的文字。

word2id = imdb.get_word_index()
id2word = {i: word for word, i in word2id.items()}
print('---review with words---')
print([id2word.get(i, ' ') for i in X_train[6]])
print('---label---')
print(y_train[6])

图 2

查看最长的评论长度和最短的评论长度。

print('Maximum review length: {}'.format(
len(max((X_train + X_test), key=len))))

最长的评论长度为 2697 个词

print('Minimum review length: {}'.format(
len(min((X_test + X_test), key=len))))

最短的评论长度为 14 个词

填充序列

为了让数据能够输入 RNN 模型,所有的输入文档必须有相同的长度。我们需要设置max_words变量来限制评论的最大长度,超过该长度的评论将被截断,不足该长度的评论将被填充空值(0)。在 Keras 中,我们可以使用pad_sequences()函数来达到此目标。现在设置max_words变量的值为 500。

from keras.preprocessing import sequence
max_words = 500
X_train = sequence.pad_sequences(X_train, maxlen=max_words)
X_test = sequence.pad_sequences(X_test, maxlen=max_words)

设计情感分析的 RNN 模型

我们开始在下面的代码单元中创建模型架构。我们已经从 Keras 中导入了一些你可能会用到的网络层,当然你也可以使用任何你喜欢的网络层或者转换器。

记住,我们的输入是一串词语,从学术上讲,是整数形式的词语 ID,其最大长度等于max_words变量值。而我们的输出是二进制形式的情感标签(0 或 1)。

from keras import Sequential
from keras.layers import Embedding, LSTM, Dense, Dropout
embedding_size=32
model=Sequential()
model.add(Embedding(vocabulary_size, embedding_size, input_length=max_words))
model.add(LSTM(100))
model.add(Dense(1, activation='sigmoid'))
print(model.summary())

mINZZv2.jpg!web

图 3

总结一下,我们创建了一个简单的 RNN 模型,其拥有一个嵌入层,一个 LSTM 层和一个全连接层。这其中一共有 233301 个待训练的参数。

训练及评估模型

我们需要先对模型进行编译,包括指定损失函数,训练中想采用的优化器和用于测量的评价指标。设置好合适的参数,其中包含至少一个度量指标:准确率。

model.compile(loss='binary_crossentropy', 
 optimizer='adam', 
 metrics=['accuracy'])

编译完成后,就可以开启训练过程了。我们需要指定两个很重要的训练参数:每一批量中的样本数和训练迭代次数,它们和我们的模型架构一起决定了总体的训练时间。

训练可能需要一段时间,所以可以去喝杯咖啡,或者更好地去跑会步吧。

batch_size = 64
num_epochs = 3
X_valid, y_valid = X_train[:batch_size], y_train[:batch_size]
X_train2, y_train2 = X_train[batch_size:], y_train[batch_size:]
model.fit(X_train2, y_train2, validation_data=(X_valid, y_valid), batch_size=batch_size, epochs=num_epochs)

图 4

训练完成后,接下来就可以看下模型在未处理过的测试数据上的表现了。

我们设置了metrics=['accuracy'],scores[1]就代表此次评估的准确率。

scores = model.evaluate(X_test, y_test, verbose=0)
print('Test accuracy:', scores[1])

测试准确率为 0.86964

总结

创建模型的方法有很多种。我们可以尝试不同的架构,网络层及参数,从而不断提高模型的准确率。在这一过程中,我们可以思考,在避免消耗长时间训练的前提下,我们还能做怎样的提升?我们应该如何避免过拟合?

本文的代码可以从 Github 上下载。非常期待能听到大家的反馈和问题。

雷锋网字幕组编译。

Yjyi6re.jpg!web

eIbyqaj.png!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK