斯坦福NLP课程 | 第11讲 - NLP中的卷积神经网络

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/36
本文地址：http://www.showmeai.tech/article-detail/248
声明：版权所有，转载请联系平台与作者并注明出处

收藏ShowMeAI查看更多精彩内容

ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！

本讲内容的深度总结教程可以在这里查看。视频和课件等资料的获取方式见文末。

Announcements
Intro to CNNs / 卷积神经网络介绍
Simple CNN for Sentence Classification: Yoon (2014) / 应用CNN做文本分类
CNN potpourri / CNN 细节
Deep CNN for Sentence Classification: Conneauet al. (2017) / 深度CNN用于文本分类
Quasi-recurrent Neural Networks / Q-RNN模型

欢迎来到课程的下半部分！

现在，我们正在为你准备成为 DL+NLP 研究人员/实践者
课程不会总是有所有的细节
- 这取决于你在网上搜索/阅读来了解更多
- 这是一个活跃的研究领域，有时候没有明确的答案
- Staff 很乐意与你讨论，但你需要自己思考
作业的设计是为了应付项目的真正困难
- 每个任务都故意比上一个任务有更少的帮助材料
- 在项目中，没有提供 autograder 或合理性检查
- DL 调试很困难，但是你需要学习如何进行调试！

《Natural Language Processing with PyTorch: Build Intelligent Language Applications Using Deep Learning》

Delip Rao & Goku Mohandas

1.卷积神经网络介绍

(卷积神经网络相关内容也可以参考ShowMeAI的对吴恩达老师课程的总结文章深度学习教程 | 卷积神经网络解读

1.1 从RNN到CNN

循环神经网络不能捕获没有前缀上下文的短语
经常在最终向量中捕获的信息太多来自于最后的一些词汇内容

例如：softmax通常只在最后一步计算

CNN / Convnet 的主要思路：
- 如果我们为每一个特定长度的词子序列计算向量呢？

例如：tentative deal reached to keep government open
计算的向量为
- tentative deal reached, deal reached to, reached to keep, to keep government, keep government open

不管短语是否合乎语法
在语言学上或认知上不太可信
然后将它们分组 (很快)

1.2 CNN 卷积神经网络

1.3 什么是卷积

一维离散卷积一般为：(f∗g)[n]=∑Mm=−Mf[n−m]g[m]
卷积通常地用于从图像中提取特征
- 模型位置不变的识别
- 可以参考斯坦福深度学习与计算机视觉课程cs231n (也可以在ShowMeAI查阅 cs231n 系列笔记学习)

二维示例：
- 黄色和红色数字显示过滤器 (=内核) 权重
- 绿色显示输入
- 粉色显示输出

1.4 文本的一维卷积

用于文本应用的 1 维卷积

1.5 带填充的文本的一维卷积

输入长度为 L 的词序列
- 假设单词维度为 4，即有 4 channels
- 卷积后将会得到 1 channel

多个channel，则最终得到多个 channel 的输出，关注的文本潜在特征也不同

1.6 conv1d，随时间推移填充最大池化

平均池化对 feature map 求平均

1.7 PyTorch实现

Pytorch中的实现：参数很好地对应前面讲到的细节

batch_size= 16word_embed_size= 4seq_len= 7input = torch.randn(batch_size, word_embed_size, seq_len)conv1 = Conv1d(in_channels=word_embed_size, out_channels=3, kernel_size=3) # can add: padding=1 hidden1 = conv1(input)hidden2 = torch.max(hidden1, dim=2) # max pool

1.8 步长 (这里为2)

stride 步长，减少计算量

1.9 局部最大池化

每两行做 max pooling，被称为步长为 2 的局部最大池化

1.10 1维卷积的k-max pooling

记录每一个 channel 的所有时间的 top k 的激活值，并且按原有顺序保留(上例中的-0.2 0.3)

1.11 空洞卷积：dilation为2

扩张卷积 / 空洞卷积

上例中，对1 3 5行进行卷积，通过两个 filter 得到两个 channel 的激活值
可以在第一步的卷积中将卷积核从 3 改为 5，即可实现这样的效果，既保证了矩阵很小，又保证了一次卷积中看到更大范围的句子

补充讲解 / Summary

CNN中，一次能看一个句子的多少内容是很重要的概念
可以使用更大的 filter、扩张卷积或者增大卷积深度 (层数)

2.应用CNN做文本分类

2.1 用于句子分类的单层CNN

目标：句子分类
- 主要是识别判断句子的积极或消极情绪
- 其他任务
  - 判断句子主观或客观
  - 问题分类：问题是关于什么实体的？关于人、地点、数字、……

一个卷积层和池化层的简单使用
词向量：xi∈Rk
句子：x1:n=x1⊕x2⊕⋯⊕xn (向量连接)
连接 Xi:i+j 范围内的句子 (对称更常见)
卷积核 w∈Rhk (作用范围为 h 个单词的窗口)
注意，filter是向量，size 可以是2、3或4

2.2 单层CNN

过滤器 w 应用于所有可能的窗口(连接向量)
为CNN层计算特征(一个通道)

ci=f(wTxi:i+h−1+b)

句子 x1:n=x1⊕x2⊕…⊕xn
所有可能的长度为 h 的窗口 {x1:h,x2:h+1,…,xn−h+1:n}
结果是一个 feature map c=[c1,c2,…,cn−h+1]∈Rn−h+1

2.3 池化与通道数

池化：max-over-time pooling layer
想法：捕获最重要的激活(maximum over time)
从feature map中 c=[c1,c2,…,cn−h+1]∈Rn−h+1
池化得到单个数字 ˆc=max{c}

使用多个过滤器权重 w
不同窗口大小 h 是有用的
由于最大池化 ˆc=max{c}，和 c 的长度无关

c=[c1,c2,…,cn−h+1]∈Rn−h+1

所以我们可以有一些 filters 来观察 unigrams、bigrams、tri-grams、4-grams等等

2.4 多通道输入数据

使用预先训练的单词向量初始化 (word2vec 或 Glove)
从两个副本开始
只对1个副本进行了反向传播，其他保持静态
两个通道集都在最大池化前添加到 ci

2.5 Classification after one CNN layer

首先是一个卷积，然后是一个最大池化

为了获得最终的特征向量 z=[ˆc1,…,ˆcm]
- 假设我们有 m 个卷积核 (滤波器filter) w
- 使用100个大小分别为3、4、5的特征图

最终是简单的 softmax layer y=softmax(W(S)z+b)

补充讲解

https://arxiv.org/pdf/1510.03820.pdf
输入长度为 7 的一句话，每个词的维度是 5 ，即输入矩阵是 7×5
使用不同的 filter_size : (2,3,4)，并且每个 size 都是用两个 filter，获得两个 channel 的 feature，即共计 6 个 filter
对每个 filter 的 feature 进行 1-max pooling 后，拼接得到 6 维的向量，并使用 softmax 后再获得二分类结果