深度神经网络为什么不易过拟合？傅里叶分析发现固有频谱偏差

过参数化的深度神经网络是一类表达能力极强的函数，甚至能 100% 记住随机数据。这向我们提出了一个问题：为什么它们不会轻易地过拟合数据？为了回答这个问题，来自海德堡大学和 MILA 等机构的研究者使用傅立叶分析研究了深度神经网络，并通过实验尝试回答以下问题：深度神经网络表征数据的频谱偏差；网络的深度、宽度对建模高频数据的作用；深度网络为何不能完全记住狄拉克函数；深度网络如何逼近复杂函数；以及数据样本在网络参数空间的路径关系等。

众所周知，过参数化的深度神经网络（DNN）是一类表达能力极强的函数，它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题：为什么它们不会轻易地过度拟合真实数据？为了回答这个问题，我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重（或者经过有限步训练）的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言，深度 ReLU 网络函数的一个特定频率分量（k）的大小至少以 O（k^(-2)）的速率衰减，网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明，被网络分类为属于某个类的所有样本（包括对抗性样本）都可以通过一条路径连接起来，这样沿着该路径上的网络预测结果就不会改变。最后，我们发现对应于高频分量的深度神经网络（DNN）参数在参数空间中所占的体积较小。

如今，人们已经做出了许多关于深度神经网络表达能力的理论研究（Hornik et al., 1989; Cybenko, 1989; Montufar et al., 2014; Poole et al., 2016）。最近的研究表明，深度神经网络（DNN）实际上能够以 100% 的训练准确率记忆随机数据，这表明它们在过参数化的机制中确实有很强的表达能力（Zhang et al., 2017）。这大大激发了人们对深度学习的另一个领域（泛化理论）进行研究的兴趣，从而理解为什么实际上的表现如此优秀，因为能够记住随机数据的过参数化的神经网络会使传统的泛化边界（例如，VC 维、Rademacher 复杂度等）变得无意义。在这些研究中，一个路线将目光投向了研究深度神经网络（DNN）泛化问题的新方法（Neyshabur et al., 2015, 2017; Dziugaite and Roy, 2017）；另一个路线则研究基于随机梯度下降（SGD）的方法如何在寻找最小值的问题中作为隐式正则项提升泛化能力（Mandt et al., 2017; Chaudhari and Soatto, 2017; Jastrz˛ebski et al., 2017; Smith and Le, 2017）。

基于这些研究，研究者注意到过参数化的深度神经网络（DNN）在训练过程中优先学习简单（或光滑）的函数，从而捕获到数据中出现的全局性结构而不是过度拟合单个样本（Arpit et al., 2017; Advani and Saxe, 2017）。有趣的是，这种现象已经被证明无论是在真实数据或是随机生成的数据上都是成立的（Arpit et al., 2017）。因此，尽管这样的深度神经网络（DNN）是过参数化的并且具有很强的表达能力，它们似乎更偏向于拟合光滑函数。这也暗示着表征这些函数的参数空间的容量很大。在本文中，研究者使用傅立叶分析来展示深度神经网络（DNN）天然地就偏向于拟合光滑函数，而不是研究泛化问题或深度神经网络优化方法的行为。据作者所知，这是首次使用傅立叶分析研究深度神经网络的工作。本文的贡献如下：

本文展示了对于参数θ 的任意有限值来说，深度神经网络（DNN）的 ReLU 函数的一个特定的频率分量（k）的量级至少以 O(1/k^2 ) 的速率衰减，并且网络的宽度和深度分别以多项式和指数的级别帮助其捕获更高的频率；因此，高频分量的大小会更小（DNN 更容易趋向于光滑）。其结果是，对深度神经网络（DNN）进行有限步训练使其更趋向于表示如上面所描述的函数。
作为这一理论的附带结果，研究者揭示了（有限权重）深度神经网络在学习类似狄拉克 delta 函数（单位脉冲函数）峰函数的理论极限。这是因为它的傅立叶变换的量级是一个常值函数（因此所有的频率都有相同的振幅）。并且如上文中所讨论的，深度神经网络（DNN）无法学习对这样的函数建模，因为它们的傅立叶系数必须至少以 1/k^2 的速率衰减（尽管增加宽度和深度可以分别以多项式级和指数级别帮助其捕获更高的频率）。
研究者指出，如果在低维流形上定义数据-目标函数的映射，深度神经网络（DNN）可以利用流形的几何结构来对函数取近似，这些函数沿着流形（其函数的频率分量相对于其输入空间较低）具有高频分量。
通过分析实验表明，对于一个在 CIFAR-10 数据集上训练的深度神经网络（DNN）来说，存在几乎线性的路径能够连接所有的对抗性样本，它们被分类成一个特定的类（比如「猫」）。对于所有真正类别为「猫」的训练样本，所有的样本也沿着这条路径被分类成同一个类别——「猫」。研究者进一步展示了对于在 CIFAR-10 数据集上训练的深度神经网络（DNN）来说，所有同一个类别中的训练样本也通过同样的方式连接起来。
实验表明，与带有高频分量的函数相对应的深度神经网络（DNN）在参数空间中所占的体积更小。

YJ7FJ3z.png!web 图 2：展示训练期间（y 轴）频谱演变（x 轴）的热图。颜色代表测量出的在相应的频率上网络频谱的幅值，其值用相同的频率的目标幅值进行了归一化操作。此图说明，尽管更高频率的训练数据具有 g 的振幅，深度神经网络仍然优先训练低频数据。

ARZFNfy.png!web 图 3: 一个深度为 D、宽度为 W，权重修剪 K=0.1 的网络被训练去预测一个 delta 峰（所有频率的振幅都相同）。在图（a）和图（b）中，y 轴对应于不断增加的训练迭代次数（向上递增），x 轴则代表频域（右图）和输入域（左图）。更亮的颜色表示数值更大。此图说明，根据理论所阐述的，宽度和深度分别以多项式和指数级帮助网络捕获高频分量。这一点在输入域和频域上都可以看出来（注：64^4=8^8）。更多的图片请参见附录（图 11）。

ZBbiiqn.png!web 图 5: 在图 3 中所使用的 delta 峰数据集上，一个深度为 D 层、宽度为 W 个单元的网络的所有权重的谱范数（y 轴）与训练过程中迭代次数（x 轴）的关系图。

对于矩阵值权重，它们的谱范数是通过估计由 10 次幂迭代得到的特征向量的特征值计算而来。对于向量值权重，则仅使用了 L2范数。此图说明，随着神经网络通过学习去拟合更大的频率，神经网络权值的谱范数也增大，从而松弛频谱的边界 AZRJ3mu.png!web

I3Afqu2.png!web 图 6: 在图（a）和图（b）中，左图：L=0 瓣（虚线圆）；右图：L=20 瓣（由 20 瓣组成的虚线花）定义了数据的流形。

对于这两个流形，我们沿着流形定义了一个频率为 k Hz 的正弦信号，并将它二值化，得到一个 0/1 的目标（点的颜色）。对于每种情况，研究者训练了一个 6 层深的 ReLU 网络，将数据样本从流形映射到它相应的目标上。填充的颜色表示预测出的类，等高线表示该网络经过 sigmoid 函数处理的对数 logits 的绝对值。此图说明，对应较大的 L 的流形，即使在两种流形沿着流形的目标频率相同时，也能使深度神经网络在其域空间学习到更光滑的函数。可以看到，网络会学习利用 L 值较大的流形的几何结构去学习关于其输入空间的低频函数。这个结论在另一个实验中得到了证实。

2QnuQf6.png!web 图 8: 用于预测定义在一个 L 瓣的流形（y 轴）上的给定频率（x 轴）的二值化正弦波的训练分类准确率的热图。此图说明，如果目标信号的频率较低或数据定义在一个具有更大的 L 的流形上，固定大小的网络的准确率越高。后者的结果表明，随着流形中瓣数的增加，在一个流形上学习一个高频目标就变得更容易。

FFVNryE.png!web 图 9: 每一行都展示了图像空间中的一条路径，从右至左显示了从对抗性样本变为一个真实训练图像的过程。

所有的图像都被一个 ResNet-20 以不少于 95% 的 softmax 概率分类为右侧所示的训练样本的类别。本实验表明，我们可以找到一条路径，分类为某一个特定类别（「飞机」）的对抗性样本（右侧，例如「猫」）与真实的训练样本类别（左侧，「飞机」）相连，这样以来沿着这条路径的左右样本都会被网络预测为同一个类别（「猫」）。

论文：On the Spectral Bias of DeepNeural Networks

UfAvy2e.png!web

论文链接：https://arxiv.org/pdf/1806.08734.pdf

摘要：众所周知，过参数化的深度神经网络（DNN）是一类表达能力极强的函数，它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题：为什么它们不会轻易地过度拟合真实数据？为了回答这个问题，我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重（或者经过有限步训练）的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言，深度 ReLU 网络函数的一个特定频率分量（k）的大小至少以 O（k^(-2)）的速率衰减，网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明，被网络分类为属于某个类的所有样本（包括对抗性样本）都可以通过一条路径连接起来，这样沿着该路径上的网络预测结果就不会改变。最后，我们发现对应于高频分量的深度神经网络（DNN）参数在参数空间中所占的体积较小。

相关数据

神经网络技术

Neural Network

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

深度神经网络技术

Deep neural network

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

范数技术

Frobenius Norm

范数(norm)，是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域，是一个函数，其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

来源： CSDN Blog

映射技术

Mapping

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源： Wikipedia

目标函数技术

Objective function

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

参数技术

parameter

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

随机梯度下降技术

Stochastic gradient descent

梯度下降（Gradient Descent）是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知，使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。在机器学习中，我们可以利用随机梯度下降的方法来最小化训练模型中的误差，即每次迭代时完成一次评估和更新。这种优化算法的工作原理是模型每看到一个训练实例，就对其作出预测，并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

来源：机器之心

权重技术

Weight

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

深度学习技术

Deep learning

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。近年来监督式深度学习方法（以反馈算法训练CNN、LSTM等）获得了空前的成功，而基于半监督或非监督式的方法（如DBM、DBN、stacked autoencoder）虽然在深度学习兴起阶段起到了重要的启蒙作用，但仍处在研究阶段并已获得不错的进展。在未来，非监督式学习将是深度学习的重要研究方向，因为人和动物的学习大多是非监督式的，我们通过观察来发现世界的构造，而不是被提前告知所有物体的名字。至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源： LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

准确率技术

Accuracy

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源： Google ML Glossary