普林斯顿大学教授：用理论的力量横扫深度学习（77PPT）

新智元编译

来源：ICML'18 Tutorial

编译：金磊

【新智元导读】目前深度学习的应用较为广泛，尤其是各种开源库的使用，导致很多从业人员只注重应用的开发，却往往忽略了对理论的深究与理解。普林斯顿大学教授Sanjeev Arora近期公开的77页PPT，言简意赅、深入浅出的介绍了深度学习的理论——用理论的力量横扫深度学习！（文末附PPT下载地址）

深度学习历史

学习任何一门知识都应该先从其历史开始，把握了历史，也就抓住了现在与未来。——BryanLJ

由图可以简单看出深度学习的发展历史，在经历了单调、不足与完善后，发展到了如今“动辄DL”的态势。

定义与基本概念

神经网络基本结构图：

定义：

θ：深度网络的参数

训练集：(x1, y1) ，(x2, y2) ，…，(xn, yn)

损失函数 ζ(θ,x,y)：表示网络的输出与点x对应的y的匹配度

目标： argminθEi[ζ(θ,x1, y1)]

梯度下降：

结合GPUs、大型数据集，优化概念已经塑造了深度学习：

反向传播：用线性时间算法来计算梯度；

随机梯度下降：通过训练集的小样本评估；

梯度、解空间推动形成了残差网络（resnet）、WaveNet及Batch-Normalization等；

理论的目标：通过整理定理，得出新的见解和概念。

深度学习中的优化

困难：深度学习中大多数优化问题是非凸（non-convex）的，最坏的情况是NP难问题（NP-hard）。

维数灾难：指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象

深度学习“黑盒”分析：

原因：

1、无法确定解空间；

2、没有明确的(xi, yi) 数学描述；

所以，求全局最优解是不可行的。

未知解空间中的控制梯度下降：

≠0→∃下降方向，但如果二阶导数比较高，允许波动很大。为了确保下降，采用由平滑程度（可由高斯平滑 f来定义）决定的小步骤。

平滑：

要求：→满足且与成正比。

非“黑盒”分析：

很多机器学习问题是深度为2的子案例，例如，输入层和输出层之间的一个隐含层。通常假设网络的结构、数据分布，等等。比起GD/SGD，可以使用不同算法，例如张量分解、最小化交替以及凸优化等等。

过度参数化(over-parametrization)和泛化(generalization)理论

教科书中说：大型模型会导致过拟合

很多人认为：SGD +正则化消除了网络的“过剩容量”(excess capacity)，但是过剩容量依旧还是存在的，如下图所示：

事实上，在线性模型中也存在同样的问题。

泛化理论：

测试损失(Test Loss)-训练损失(Training Loss)≤

其中，N是“有效能力”。

“真实容量”（true capacity）的非空估计被证明是难以捉摸的：

“真实参数”(true parameters)的非空边界被证明是难以捉摸的：

深度网络噪声稳定性(可以视作深度网络的边缘概念):

噪声注入：为一个层的输出x添加高斯 η 。

测量更高层次的变化，若变化是小的，那么网络就是噪声稳定的。

VGG19的噪声稳定性：

当高斯粒子经过更高层时的衰减过程

与泛化相关定性实验：

垫层（layer cushion）在正常数据上的训练要比在损坏数据上的训练高得多

在正常数据训练过程中的进化

“深度”的作用

深度的作用是什么？

理想的结果是：当遇到自然学习问题时，不能用深度d来完成，但可以用深度d+1来完成。但是目前，由于理论依据不足，缺乏“自然”学习问题的数学形式化，还无法达到理想的结果。

深度的增加对深度学习是有益还是有害的？

支持：会出现更好的表现(正如上面实验结果所示)；

反对：使优化更加困难(梯度消失(vanishing gradient)、梯度爆炸(exploding gradient)，除非像残差网络这样的特殊架构)。

生成模型与生成对抗网络(GAN)理论

无监督学习：“流行假设”(Mainfold Assumption)：

学习概率密度p(X|Z)的典型模型

其中，X是图像，Z是流行上的编码。目的是使用大量未标签的数据集来学习图像→编码匹配(code mapping)。

深度生成模型（deep generative model）

隐含假设： Dreal是由合理大小的深度网络生成的。

生成对抗网络（GANs）

动机：

(1)标准对数似然函数值(log-likelihood)目标倾向于输出模糊图像。

(2)利用深度学习的力量(即鉴别器网络,discriminator net)来改进生成模型，而不是对数似然函数。

u：生成网络可训练参数

v：鉴别器网络可训练参数

鉴别器在训练后，真实输入为1，合成输入为0。

生成器训练来产生合成输出，使得鉴别器输出值较高。

GANs噩梦：模式崩溃(mode collapse)

因为鉴别器只能从少数样本中学习，所以它可能无法教会生成器产生足够大的多样性分布。

评估来自著名GANs的支持大小(support size)

CelaA：200k训练图像

DC-GAN：重复500个样本，500x500 =250K

BiGAN和所有支持大小,1000x1000 =1M

(结果与CIFAR10相似)

深度学习—自由文本嵌入

无监督学习文字嵌入经典流程

常用方法：复发性神经网络或LSTM等

手工业(cottage industry)的文本嵌入是线性的：

最简单的：构成词(constituent word)的词嵌入求和

加权求和：通过适应段落数据集来学习权重

性能（相似性、蕴涵任务）：

较先进的句子嵌入方法与下游分类(downstream classification)任务的比较：

附：普林斯顿大学教授：深度学习理论理解(77页PPT)下载地址：

https://www.dropbox.com/s/qonozmne0x4x2r3/deepsurveyICML18final.pptx

【加入社群】

新智元 AI 技术 + 产业社群招募中，欢迎对 AI 技术 + 产业落地感兴趣的同学，加小助手微信号: aiera2015_3 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名 - 公司 - 职位；专业群审核较严，敬请谅解）。

Recommend

颜宁为何从清华跳槽去普林斯顿大学她终于说出原因

只有历史本科的威腾是怎样进入普林斯顿读数学Phd的？ - 知乎

普林斯顿大学教授因学生反对使用种族诋毁词，取消《文化自由和仇恨言论》课程

ECCV 2018 | 国防科大&普林斯顿提出共面性检测网络：助力三维场景重建

普林斯顿开除美国两院院士曾被指控性骚扰

名校掠影：普林斯顿大学

Academic Integrity at Princeton | 普林斯顿大学学术道德

普林斯顿大学每年的基金收益已能覆盖所有运营开销，并盈余19亿美元

普林斯顿大学推出 Infinigen AI 模型，可生成真实自然环境 3D 场景

普林斯顿大学推出3D场景生成模型Infinigen

About Joyk