BP反向传播矩阵推导图示详解

EnAnQz.gif!mobile

©PaperWeekly 原创 · 作者｜孙裕道

学校｜北京邮电大学博士生

研究方向｜GAN图像生成、情绪对抗样本生成

jiuMzu2.png!mobile

背景介绍

BP（反向传播）是有 Geffrey Hinton 在 1988 年发表的论文《Learning representations by back-propagating errors》中首次被提出来。

该论文从题目到内容到参考文献一共 2 页半，Hinton 也借此工作荣获 2018 年的图领奖。在深度学习领域，BP 的重要程度在怎么强调也不为过，本文会从矩阵的视角对 BP 进行详细推导，为了更好地理解 BP 的工作原理，本文也画了大量的示意图帮助理解。

本文的公式经过自己很多次的推导打磨，尽力做到准确无误，每一张图也是反复的捉摸力求精准表达。本文的阅读难度确实很大，但是因为其重要，我觉得反复抄写下面的推导，也会有很多收获。

IbQFVj6.png!mobile

引言

在吴恩达的斯坦福机器学习的讲义中关于 BP 原理的介绍只给出了最后的 BP 矩阵的推导结果，略去了中间的推导过程。本文会对略去的推导过程进行补全。为了减少阅读阻碍，BP 矩阵证明过程会从预备知识开始慢慢铺展开来，其中最难啃的部分就是矩阵形式的链式法则。本文文章结构和的各个章节的内容如下：

section 3 是一些预备知识介绍了矩阵求导的细节，如果想要看懂之后的 BP 矩阵推导这部分的两个小节一定要看明白
section 4 是关于 4 层无激活函数的 BP 推导细节
section 5 是关于 L 层无激活函数的 BP 推导细节
section 6 是关于 4 层含激活函数的 BP 推导细节
section 7 是关于 L 层含激活函数的 BP 推导细节
section 8 是对吴恩达机器学习讲义中关于 BP 章节结果的验证

ZJfe2i7.png!mobile

预备知识

3.1 推导形式1

已知，是标量即，，，，，表示向量的 2 范数，将矩阵中各个维度带入到公式（1）有如下形式：

令，。则对矩阵的链式法则的求导公式如下所示：

A3mq2yJ.png!mobile

其中，，直观可以发现等式（3）左右两边的雅可比矩阵维度一致。对矩阵的链式法则的求导公式如下所示：其中，，等式（4）左右两边的雅可比矩阵维度一致。

3.2 推导形式2

是激活函数，是标量即，，，，，表示向量的2范数，将矩阵的各个维度带入到公式（5）中有如下形式：

令，，，，则有：

其中，，即是一个对角矩阵，对角线的元素为激活函数的导数。和矩阵的维度一致。

uUJZFnN.png!mobile

其中，和矩阵的维度一致。

JFbIRjv.png!mobile

4 层无激活函数的神经网络

2iUNnae.png!mobile

▲ 图1：4层无激活函数的前向传播过程

图 1 表示的是 4 层无激活函数神经网络的前向传播过程，其中损失函数如下所示：

令，根据 section 3 预备知识的推导形式 1 的公式（3）,（4）可求得：

2AbQBzu.png!mobile

令，，。又因为，，，将公式（10）,（11）,（12）整理为如下所示：

RzeMbqE.png!mobile

根据公式（13）,（14）,（15）将 4 层无激活函数的 BP 原理可以形象地表示为图 2，其中图中虚线框表示为各个层权重参数的梯度，可以发现各层的权重参数梯度由前一层网络的前馈计算值与后一层网络传播的误差信息整合而来。

7fYVza6.png!mobile

▲ 图2：4层无激活函数的BP原理图

ZJVFFrb.png!mobile

L层无激活函数的神经网络

jQf67j.png!mobile

▲ 图3：L层无激活函数的前向传播过程

图 3 表示的是 L 层无激活函数神经网络的前向传播过程，其中损失函数如下所示：

令，根据 section 3 预备知识的推导形式 1 的公式（3）,（4）可求得：

fYRrIv2.png!mobile

令，，，。

又因为，，，，，则梯度的通项公式为：

NrmiYne.png!mobile

根据公式（20）将 L 层无激活函数的 BP 原理可以形象地表示为图 4 所示：

zeqYNbF.png!mobile

▲ 图4：L层无激活函数的BP原理图

rmYZZrJ.png!mobile

4层含激活函数的神经网络

aQJzqqv.png!mobile

▲ 图5：4层含激活函数的前向传播过程

图 5 表示的是 4 层含激活函数神经网络的前向传播过程，其中损失函数如下所示：

令，根据 section 3 预备知识的推导形式 2 的公式（7）,（8）可求得：

vMfUBzm.png!mobile

其中和为对角矩阵，令，则有，；令，，。综上所述有：

673ueay.png!mobile

根据公式（25）,（26）,（27）将 4 层含激活函数的 BP 原理可以形象地表示为图 6，跟 section 4 中的 4 层无激活函数 BP 原理示意图的差异在于后向传播的误差信息需要多乘一个对角矩阵。

YbqMBzF.png!mobile

▲ 图6：4层含激活函数的BP原理图

IJ77jeB.png!mobile

L 层含激活函数的神经网络

eeIBNrY.png!mobile

▲ 图7：L层含激活函数的前向传播过程

图 7 表示的是 L 层含激活函数神经网络的前向传播过程，其中损失函数如下所示：

令，根据 section 3 预备知识的推导形式 2 的公式（7）,（8）可求得：

Jjy2mem.png!mobile

yYRBNfb.png!mobile

其中，为对称矩阵。，则，，；，，，。综上所述可知梯度的通项公式为：

6b2uYvV.png!mobile

根据公式（32）将 L 层含激活函数的 BP 原理可以形象地表示为图8所示：

RfIJfaq.png!mobile

▲ 图8：L层含激活函数的BP原理图

uI3y6fQ.png!mobile

验证BP矩阵推导

本节主要是对吴恩达机器学习讲义中（ML-AndrewNg-Notes: Coursera）关于 BP 原理结论部分的验证，所以本文的主要目的是验证吴中的关于 BP 结论与本文的 section 4 之间的结论是否一致。由于符号和表示形式的差异，将吴中关于 BP 原理部分的描述用蓝色字体表示（该部分在），将验证过程用红色字体表示。

一个 4 层的神经网络，具体示意图如下所示：

YzqYRrQ.png!mobile

▲ 图9：吴恩达机器学习讲义中的网络结构

从最后一层的误差开始计算，误差是激活单元的预测与实际值之间的误差。用来表示误差，则：

7JVnumz.png!mobile

利用误差值来计算前一层的误差：

其中是导数，是经权重而导致的误差。第二层的误差为：

eaAjyyM.png!mobile

因为第一层是输入变量，不存在误差，有了所有的误差表达式之后，便可以计算各个层权重的偏导数为：

EBvAFv.png!mobile

代表目前所计算的第几层，代表目前计算层中的激活单元的下标，也是下一层的第个输入变量的下标。代表下一层中误差单元的下标，是受到权重矩阵中的第行影响的下一层中的误差单元的下标。

验证：

吴恩达的这个讲义中关于 BP 推导中只展示出矩阵推导出的结果，略出了中间证明的部分，其中的证明过程可以类比本文中的 section 6 中证明过程，为了能够让验证 BP 推导过程更清楚，我将吴恩达机器学习讲义中的推导符号与本文 section 6 中 4 层含激活函数的神经网络的符号进行类比如下表所示：

Vn6jeyN.png!mobile