大大提升分类精度 | 残差新特征学习方式——残差持续学习（文末附下载链接） - JOYK Joy of Geek, Geek News, Link all geek

3Mzeuqz.gif!mobile

计算机视觉研究院专栏

作者：Edison_G

计算机视觉研究院

长按扫描二维码

本次介绍一种新的持续学习方法，称为 残差持续学习 (ResCL)。

该新方法可以防止多个任务的顺序学习中的灾难性遗忘现象，除了原始网络之外，没有任何源任务信息。通过将原始网络的每一层和一个微调网络线性地结合起来，ResCL重新测量网络参数；因此，网络的大小根本不会增加。为了将该方法应用于一般卷积神经网络，还考虑了批归一化层的影响。通过利用类残差学习参数化和特殊的权重衰减，有效地控制了源性能与目标性能之间的权衡。该方法在各种持续学习场景中表现出最先进的性能。

qeqeaqY.png!mobile

一、背景及介绍

bYJBjaj.jpg!mobile

利用人工神经网络进行深度学习是目前最强大的人工智能技术之一。它在计算机视觉等各种机器学习领域表现出最先进的性能。然而，需要大量的训练数据和时间来训练网络结构变得复杂的深层网络。为了缓解这一困难，如 Transfer learning微调，用于利用源任务知识和促进目标任务的训练。

n6zqUrM.png!mobile

由于 T ransfer learning 方法只考虑训练过程中的目标任务性能，因此大部分源任务性能被称为灾难性遗忘现象的副作用而丢失。如果源任务和目标任务都需要高性能，这是一个严重的问题。应采用连续学习的方法来解决这一问题。

本次分享的技术，作者就是在保持源任务性能的同时，实现良好的目标任务性能。具体来说，专注于卷积神经网络(CNNs)的图像分类任务。此外，为这个问题强加了两个实际条件。

首先，作者假设在目标任务训练期间没有源任务信息可用。在许多实际应用程序中，源数据往往太攀大，很难消化学习，无法处理或没有public license。如果有，联合训练源数据和目标数据将是一个更好的解决方案。

6r6F3a.png!mobile

此外，作者还假设不仅没有源数据，而且也没有包含源任务信息的任何其他形式。最近关于持续学习的研究没有直接使用源数据，但它们经常引用有关源数据的部分信息，例如以生成对抗性网络的形式或Fisher信息矩阵，这在某种程度上稀释了持续学习的最初目的。

第二，网络的规模不应增加。如果没有这种条件，网络可以扩展，同时保持整个原始网络。这种网络扩展方法在源任务和目标任务中都表现出良好的性能，但在实践中很难将它们与深度神经网络一起使用，因为随着任务数量的增加，网络的规模变得更大。

主要特点如下：

Residual-learning-like reparameterization allows continual learning, and a simple decay loss controls the trade-off between source and target performance;
No information about source tasks is needed, except the original source network;
The size of a network does not increase at all for inference (except last task-specific linear classifiers);
The proposed method can be applied to general CNNs including Batch Normalization (BN) (Ioffe and Szegedy 2015) layers in a natural way;

作者提出了两种公平的措施来比较不同的连续学习方法，最大可达平均精度的理想测量和源精度在所需的目标精度的实际测量。

二、新方法

持续学习本质上是在两个任务之间达到一个很好的中点。一个简单的想法是将每一层源网络和目标网络线性地结合起来，以获得它们之间的中间网络，其中源网络是对源任务进行训练的原始网络，目标网络是从原始网络中为目标任务进行微调的网络。通过将它们结合起来，我们可以获得位于源和目标任务解决方案之间的网络。这个基本思想类似于IMM。

然而，线性组合网络的性能没有得到保证，因为神经网络不是线性的或凸的。因此，在两个网络组合后，对组合网络有一个额外的训练阶段，以确保它能够正常工作。由于额外的训练会损失源知识，所以在组合网络中应该冻结原始权重。在下文中，经常把源网络称为原始网络。

Linear Combination of Two Layers

zeiuiq.png!mobile

在ResCL框架中，Ws是源网络的权重，Wt是从源网络对目标任务进行微调的目标网络的权重。此外，Wt还被训练以细化其特征，以便与Ws很好地结合起来，而Ws是固定的，以防止灾难性遗忘。

bmaaqmv.png!mobile

此外，还通过反向传播来学习组合参数，以最优地混合两个特征。因此，组合网络中的可学习参数为Wt和α=(αs，αt)。人们可以很容易地发现，两个全连接层和组合层可以等价地表示为一个全连接层，其权重是：

因为它们的线性，这就是为什么我们可以称新方法为一种类型的重新参数化；因此，一旦训练完成，网络的大小就不会增加用于推理。任何非线性层，如sigmoid或ReLU，不应包括在组合中，如上图和下图所示，否则，这些层不能合并为一个层；然后，随着任务数量的增加，网络大小增加。

Qr6JrqB.png!mobile

Train

MvmuA3U.png!mobile

Convolution and Batch Normalization

新提出的方法可以自然地应用于BN层。我们不需要担心分布的变化，因为每个子网都有自己的BN层来完成自己的任务。具体地，上图中的原始BN层应在额外的训练和测试阶段使用其源任务的统计。否则，一些源知识就会丢失，因为联合网络在额外的训练中无法看到和利用原始统计数据。具有组合层的两个BN和两个卷积层在训练后也可以合并成一个等效卷积层，因为BN层在推理阶段是确定性的线性层，卷积也是线性运算。

三、实验

VjAv6vr.png!mobile

ae6Vvum.png!mobile

ziaMze.png!mobile

qIjM3qy.png!mobile

bqAf2ei.png!mobile

FFveYzi.png!mobile

ARVrMjb.png!mobile

YbuuamU.png!mobile

四、总结

提出了一种新的连续学习方法ResCL，它为图像分类任务的连续学习提供了最先进的性能。它可以防止灾难性的遗忘，即使源任务和目标任务有很大的不同。在实践中可以使用ResCL，因为除了原始网络之外，不需要关于源任务的信息，并且在推理阶段网络的大小不会增加。

此外，任何一般的CNN结构都可以采用，因为新提出的方法是用来处理卷积和BN层的。在本研究中，作者将任务的范围限制在用CNN进行图像分类的sequential learning。然而，ResCL方法可以自然地扩展到支持其他类型的神经网络，例如递归神经网络，因为它只是线性地结合了两层的输出。将ResCL方法应用于其他领域，以便今后的工作。

／End.

我们开创“ 计算机视觉协会 ”知识星球一年有余，也得到很多同学的认可，我们定时会推送实践型内容与大家分享，在星球里的同学可以随时提问，随时提需求，我们都会及时给予回复及给出对应的答复。

A7fEfy.png!mobile

y2YZBrj.png!mobile

如果想加入我们“ 计算机视觉研究院 ”，请扫二维码加入我们。我们会按照你的需求将你拉入对应的学习群！

计算机视觉研究院 主要涉及 深度学习 领域，主要致力于 人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等 研究方向。 研究院 接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重” 研究 “。之后我们会针对相应领域分享实践过程，让大家真正体会 摆脱理论 的真实场景，培养爱动手编程爱动脑思考的习惯！

计算机视觉研究院

长按扫描二维码

回复“ ResCL ”获取下载链接

大大提升分类精度 | 残差新特征学习方式——残差持续学习（文末附下载链接）

一、背景及介绍

主要特点如下：

二、新方法

Linear Combination of Two Layers

Train

Convolution and Batch Normalization

／End.

Recommend

TeachAI实验思考｜shadow的实验室

这几个 IDEA，调试的骚操作，用了都说爽！

Mysql数据安全备份

MFC的窗口句柄

使用命令行浏览器在 Linux 终端上网浏览 | Linux 中国

一加 9 Pro渲染图出炉：左上角打孔配后置四摄

如何理解单自由度系统振动

Intel 10nm游戏本i7-11370H首曝：跑分还不如苹果M1 - Intel Core 英特尔酷睿 - cnBeta...

微软发布Pluton处理器为Windows PC提供全新安全功能 - Microsoft 微软硬件 - cnBeta....

微信可发送大文件了高清视频也不会压缩、iOS已支持 - Tencent WeChat 腾讯微信 - cnB...

About Joyk