CVPR2022 | 重新审视池化：你的感受野不是最理想的

前言本文提出了一种简单而有效的动态优化池操作（ Dynamically Optimized Pooling operation），称为DynOPool，它通过学习每一层感受野的最佳大小和形状来优化特征映射的端到端比例因子。
深度神经网络中任何类型的调整大小模块都可以用DynOPool操作以最小的成本替换。此外，DynOPool通过引入一个限制计算成本的附加损失项来控制模型的复杂性。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

论文：https://arxiv.org/abs/2205.15254

代码：未发布

尽管深度神经网络在计算机视觉、自然语言处理、机器人、生物信息学等各种应用中取得了前所未有的成功，但最优网络结构的设计仍然是一个具有挑战性的问题。而感受野的大小和形状决定了网络如何聚集本地信息，并对模型的整体性能产生显著影响。神经网络中的许多组成部分，例如用于卷积和池化运算的内核大小和步长，都会影响感受野的配置。然而，它们仍然依赖于超参数，现有模型的感受野会导致形状和大小不理想。

本文通过介绍固定大小和形状的传统感受野是次优的问题，讨论了DynOPool如何通过CIFAR-100上的VGG-16玩具实验解决这个问题。

固定大小和形状的传统感受野存在的问题：

1.不对称分布的信息

最佳感受野形状会根据数据集中固有的空间信息不对称性而改变。而大多数情况下固有的不对称性是不可测量的。此外，通常用于预处理的输入大小调整有时也会导致信息不对称。在人工设计的网络中，图像的长宽比经常被调整以满足模型的输入规格。然而，这种网络中的感受野不是用来处理操作的。

为了验证所提出的方法，作者在CIFAR-stretch-V上进行实验，如图1（a）所示，相较于人工设计模型，形状通过DynOPool动态优化的特征映射通过在水平方向上提取更具有价值的信息提高性能。

图1 用来自CIFAR-100的三个不同的合成数据集进行玩具实验:

(a)随机裁剪垂直拉伸的图像 (b)在4×4网格中平铺缩小的图像 (c)放大缩小的图像。

2.密集分布或稀疏分布信息

局部性是设计最优模型的组成部分。CNN通过级联的方式聚合局部信息来学习图像的复杂表示。而局部信息的重要性很大程度上取决于每个图像的属性。例如，当一个图像被模糊化时，大多数有意义的微观模式，如物体的纹理，都会被抹去。在这种情况下，最好在早期层中扩展感受野，集中于全局信息。另一方面，如果一幅图像在局部细节中包含大量类特定的信息，例如纹理，则识别局部信息将会更加重要。

为了验证假设，作者构建了CIFAR-100数据集的两个变体，CIFAR-tile和CIFAR-large，如图1(b)和(c)所示。作者模型在很大程度上优于人工设计的模型。

为了缓解人工构建的体系结构和操作的次优性，作者提出了动态优化池操作（DynOPool），这是一个可学习的调整大小模块，可以替代标准的调整大小操作。该模块为在数据集上学习的操作找到感受野的最佳比例因子，从而将网络中的中间特征图调整为适当的大小和形状。

论文的主要贡献：

1、解决了深度神经网络中现有尺度算子依赖于预定超参数的局限性。指出了在中间特征图中寻找最佳空间分辨率和感受野的重要性。

2、提出了一个可学习的调整尺寸大小的模块DynOPool，它可以找到中间特征图的最佳比例因子和感受域。DynOPool使用学习到的比例因子识别某一层的最佳分辨率和感受野，并将信息传播到后续层，从而在整个网络中实现规模优化。

3、证明了在图像分类和语义分割任务中，使用DynOPool的模型在多个数据集和网络架构上优于基线算法。它还显示了精度和计算成本之间的理想权衡。