3

一文了解循环神经网络_华为云开发者社区的技术博客_51CTO博客

 1 year ago
source link: https://blog.51cto.com/u_15214399/5692541
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

一文了解循环神经网络

精选 原创

摘要:循环神经网络(RNN)可是在语音识别、自然语言处理等其他领域中引起了变革!

本文分享自华为云社区《​ ​【MindSpore易点通】深度学习系列-循环神经网络上篇​​》,作者:Skytier

循环神经网络(RNN)可是在语音识别、自然语言处理等其他领域中引起了变革!

1 应用场景

循环神经网络(RNN)其实就是序列模型,我们先来看看其应用场景。

一文了解循环神经网络_神经网络

在语音识别时,给定了一个输入音频片段X ,并要求输出对应的文字记录Y 。这里的输入和输出数据都是序列模型,输入X是一个按时播放的音频片段,输出Y是一系列文字。

音乐生成问题也是一样,输出数据Y是序列,而输入数据X可以是空集,也可以是个单一的整数(代表音符)。

而系列模型在DNA序列分析中也十分有用,DNA可以用A、C、G、T四个字母来表示。所以给定一段DNA序列,你能够标记出哪部分是匹配某种蛋白质的吗?

以上所有类似问题都可以被称作使用标签数据(X,Y)作为训练集的监督学习,输入数据X或者输出数据Y是序列,即使两者都是序列也有数据长度不同的问题。

2 模型构建

比如建立一个序列模型,它的输入语句是这样的:“Sam Li and Tom date on Tuesday.”。然后模型是可以自动识别句中人名位置的命名实体识别模型,可以用来查找不同类型的文本中的人名、公司名、时间、地点、国家名和货币名等等。

假定输入数据x,序列模型的输出y,使得输入的每个单词都对应一个输出值,同时y还需要表明输入的单词是否是人名的一部分。

首先输入语句是7个单词组成的时序序列,所以最终会有7个特征集x:x<1>,x<2>,...,x<7>,同时可以索引其序列中的位置。Tx表示输出序列的长度,这里Tx=7。

同理,输出数据也是一样,分别对应y<1>,y<2>,...,y<7>,Ty表示输出序列的长度。

一文了解循环神经网络_数据_02

那么问题来了,首先我们需要准备一个比较大的词典库,可能该库里的第一个单词是a,and出现在第367个位置上,Sam是在7459这个位置,Tom则在8674。

一文了解循环神经网络_数据_03

那么我们就可以在这个词典库的基础上遍历训练集。

一文了解循环神经网络_循环神经网络_04

那么也就是说,Sam由x<1>表示,其是一个第7459行是1,其余值都是0的向量;Li由x<2>表示,其是一个第2420行是1,其余值都是0的向量。

通常我们称这种x指代句子里的任意词为one-hot向量,只有一个值是1,其余值都是0,所以整句话中我们会有7个one-hot向量,用序列模型在X和Y目标输出之间学习建立一个映射关系。

PS:如果遇到了一个在你词表中的单词,可以创建一个Unknow Word的伪造单词,用<UNK>作为标记。

3 模型解释

通常情况下,我们会首先选取标准的神经网络,输入7个one-hot向量,经过一些隐藏层,最终会输出7个值为0或1的项,表明每个输入单词是否是人名的一部分。

一文了解循环神经网络_数据_05

但最后我们总会遇到这样的问题:

1.输入和输出数据的长度并不完全一致,即使采用填充(pad)或零填充(zero pad)使每个输入语句都达到最大长度,但最后的表达式会很奇怪。

2.简单的神经网络并不会共享从文本的不同位置上学到的特征。因为我们希望,如果首次学习的时候我们已经知道了Tom是人名,那么当Tom出现在其他位置时,其并不能够自动识别,因此也不能够减少模型中参数的数量。

那么循环神经网络为啥会比普通的神经网络更加出众呢?

一文了解循环神经网络_循环神经网络_06
一文了解循环神经网络_数据_07

另外循环神经网络是从左向右扫描数据,同时每个时间步的参数也是共享的,用Wax来表示从x<1>到隐藏层的连接的一系列参数,每个时间步使用的都是相同的Wax参数,而激活值是由参数Waa决定的,输出结果由Way决定。

一文了解循环神经网络_神经网络_08

一文了解循环神经网络_神经网络_09

先输入零向量a<0>,接着进行前向传播过程,计算激活值a<1>,然后再计算y<1>。

更普遍来说,在t时刻:

一文了解循环神经网络_自然语言处理_10

为了更加简化一点,定义Wa:

一文了解循环神经网络_MindSpore_11

,假设a是100维的,x是10,000维的,那么Waa是(100,100)维的矩阵,Wax是(100,10000)维,Wa为(100,10100)。

同样,假定

一文了解循环神经网络_循环神经网络_12

,Wy表明它是计算y类型的量的权重矩阵,而Wa和ba则表示这些参数是用来计算激活值的。

RNN前向传播示意图:

一文了解循环神经网络_自然语言处理_13

 ​点击关注,第一时间了解华为云新鲜技术~

  • 打赏
  • 1
  • 收藏
  • 评论
  • 分享
  • 举报

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK