TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响 - JOYK Joy of Geek, Geek News, Link all geek

EnAnQz.gif!mobile

©PaperWeekly 原创 · 作者｜李凯

学校｜清华大学硕士生

研究方向｜多模态机器学习、计算机视觉

jiuMzu2.png!mobile

概要

qIBZZzR.png!mobile

论文标题：

Deep High-Resolution Representation Learningfor Visual Recognition

论文链接：

https://arxiv.org/abs/1908.07919

代码链接：

https://github.com/HRNet

这是一篇发表在 PAMI（2020）关于计算机视觉任务通用模型（HRNet [1] ）的文章。该文章指出在计算机视觉领域中不同分辨率对于结果起着至关重要的作用。而目前大部分的 backbone（ResNet [2] ，DenseNet [3] ，ResNest [4] 等）将图像的分辨率逐渐变小，这对于一些需要精细信息的视觉任务会产生一定的影响，例如语义分割，目标检测和人体姿态估计等。

本文的主要创新点是在整个模型计算的过程中始终保持着高分辨率，在并行连接高至低分辨率特征图，在交互模块中交换不同分辨率的特征信息。因此所得到的特征图在语义上更丰富，并且在空间上更精确。

HRNet 在很多的计算机视觉任务中表现出很好的结果，包括人体姿势估计，语义分割和目标检测。这说明 HRNet 可以作为解决计算机视觉任务的 backbone。作者在论文中放出的开源的代码目前已经获得 11.4k 的 star。

IbQFVj6.png!mobile

HRNet模型结构

在文章中指出有不同的从低分辨率恢复高分辨率的结构。(1) 一种从高分辨率学习低分辨率特征图的神经网络（例如 VGGNet [5] ，ResNet和ResNet变体等）。(2) 一种下采样后上采样恢复高分辨率特征图神经网络，例如 U-Net ，Hourglass 等。

Bz6vQj6.png!mobile

▲ 图1. HRNet的模型结构示意图

这个网路主要包含三个部分：多分辨率并行支路，多分辨率并行支路融合模块和特征图结果输出模块。

多分辨率并行支路。首先将高分辨率卷积支路作为第一步，逐步将高至低分辨率支路逐个添加，形成新的阶段，然后并行连接多分辨率支路。下一级并行支路的分辨率包括前一级的分辨率和一个较低的分辨率。

图 1 所示的网络结构包含 4 个并行流，逻辑上如下图 2 所示。其中，是第 s 阶段的支路，r 是分辨率大小的索引。最大分辨率的分辨率索引为 1，第 r 的分辨率索引为最大分辨率支路的倍。

MVbiiqR.png!mobile

▲ 图2. HRNet逻辑结构示意图

多分辨率融合模块的目标是在多分辨率表示形式之间交换信息，如图 3 所示。对于多分辨率融合包含上采样，平级，下采样。其中下采样包括跨一层下采样和多层下采样。上采样使用插值法，平级使用卷积，下采样（如果支路大于 2，使用多个 stride>1 的卷积进行下采样操作）。

qUnyIzu.png!mobile

▲ 图3. 多分辨率融合模块的上采样，下采样。蓝色模块为上采样过程，绿色模块为下采样过程。

Representation Head（特征图结果输出模块）。在文章中提出了三种 Representation Head，如图 4 所示，分别表示为 HRNetV1，HRNetV2 和 HRNetV2p。其中 HRNetV1 模型将应用于人体姿势估计，HRNetV2 模型将应用于语义分割，HRNetV2p 模型应用于目标检测的结果。

7zeEZbz.png!mobile

▲ 图4. 三种不同的Representation Head

HRNetV1。仅输出高分辨率支路中的特征图，而忽略其他三个支路特征图。如图 4 (a) 所示

HRNetV2。将不同分辨率支路的特征图通过 concat 方式进行拼接作为输出。如图 4 (b) 所示

HRNetV2p。在 HRNetV2 的高分辨率表示的基础上通过降采样到多个级别来构建多级特征图。如图 4 (c) 所示

ZJfe2i7.png!mobile

多分辨率并行卷积和多分辨率融合模块的探究

qm2iimq.png!mobile

▲ 图5. （a）多分辨率并行卷积，（b）多分辨率融合模块，（c）普通卷积（左）等同于完全连接的多分支卷积（右）

多分辨率并行卷积类似于组卷积（Group convolution [6] ），如图 5 (a) 所示。它将输入通道分为通道的几个子集，并分别对不同空间分辨率的每个子集进行卷积操作。但是在组卷积中，不同子集之间的分辨率是相同的。这种并行卷积和组卷积的联系意味着多分辨率并行卷积存在群卷积的某些好处。

多分辨率融合模块类似于普通卷积的多分支全连接形式，如图 5（c）所示。输入通道分为几个子集，输出通道也分为几个子集。输入和输出子集以完全连接的方式连接，并且每个连接都是普通卷积。

输出通道的每个子集都是输入通道的每个子集上的卷积输出的总和。区别在于，HRNet 的多分辨率融合需要处理分辨率的变化。因此，HRNet 融合了更多的空间信息在多分辨率融合模块。

JFbIRjv.png!mobile

实验分析

在文章中做了三个不同任务的实验分别为人体姿态估计，语义分割和目标检测。

4.1 人体姿态估计实验

对于人体姿态估计的实验，HRNetV1 和 HRNetV2 的结果差不多且 HRNetV1 的计算复杂度更低，因此在该实验中使用 HRNetV1 作为选用的模型。训练和测试数据集均使用 COCO 数据集 [7] 。

评价指标选用目标关键点相似度（Object Keypoint Similarity, OKS）。在 COCO val 数据集上的比较的结果如下表格，采用小模型 HRNetV1-W32（从零开始训练）的方法比以前的最新方法具有更好的性能。

zeuQZnU.png!mobile

在 COCO test-dev 数据集上，HRNetV1 和现有最先进方相比要好得多。另一方面，轻量网络 HRNetV1-W32 的 AP 达到 74.9，其性能优于其他所有自上而下的方法，并且在模型大小（Params）和计算复杂度（GFLOP）方面更加高效。而大型模型 HRNetV1-W48 则达到了最高 AP 得分 75.5。

qamuU3.png!mobile

4.2 语义分割实验

在语音分割的任务上，作者使用了 HRNetV2 作为该任务的模型。在文章中使用三个数据集作为评估的数据集：两个自然场景解析数据集，PASCAL-Context [8] 和 Cityscapes [9] ，一个人类场景数据集 LIP [10] 。采用均交并比（mIoU）作为评价指标。

Cityscapes val 数据集的结果如下表所示。我们可以发现 HRNetV2-W40（40 表示高分辨率卷积的宽度），模型尺寸与 DeepLabv3 + 类似，但是计算复杂度低得多，性能更佳。并且与其他模型相比结果更好。

eMnmq2Y.png!mobile

Cityscapes test 数据集的结果如下表所示，HRNetV2-W48 在 Cityscapes val 和 Cityscapes test 数据集上均具有出色的性能。

nY77Z37.png!mobile

HRNetV2 在 PASCAL-Context 数据集上的结果如下表所示。在该数据集下评估模型方法有两种：59 类和 60 类（59 类+背景）的 mIoU。在这两种情况下，HRNetV2-W48 都能获得最好的结果。

yQzyAju.png!mobile

对于人类场景数据集 LIP，HRNetV2-W48 的整体性能以较少的参数和较低的计算成本表现出最佳性能。在该数据集的结果如下表所示。

UzMz226.png!mobile

4.3 目标检测

目标检测任务，作者使用 MS COCO2017detection 数据集进行评估。首先使用了 HRNetV2p，ResNet，ResNext [11] 和 Hourglass [12] 作为 backbone 的参数量和 GFLOPs 进行对比，如下表所示。

Ary2y2J.png!mobile

然后在 Faster R-CNN [13] 和 Cascade R-CNN [14] 框架中对 COCOval 进行评估。HRNetV2p 比 ResNet 和 ResNeXt 表现更好。结果如下表所示。

INZjaim.png!mobile

在 FCOS 和 CenterNet 框架中的 COCOval 数据集目标检测结果如下表所示。结果使用作者提供的实现方式获得的。HRNetV2p 在相似的参数和计算复杂性方面优于 ResNet 和 Hourglass。但是 HRNetV2p-W64 的性能比 Hourglass-104 稍差，原因是 Hourglass-104 比 HRNetV2p-W64 参数量多。

f6fE3mM.png!mobile

Mask R-CNN 及其扩展框架上的 COCO val 上的目标检测结果，如下表所示。除了 HRNetV2p-W18 有时性能比 ResNet-50 差外，整体性能优于 ResNet。在 Mask 方面对小物体（APS）的改进也比中（APM）和大物体（APL）显着。

b26vaiY.png!mobile

ZJVFFrb.png!mobile

消融研究

对 HRNet 中的模块进行消融研究，涉及两个任务：人体姿势估计和语义分割。我们主要使用 HRNetV1-W32 进行人体姿势估计，使用 HRNetV2-W48 进行语义分割。

5.1 不同分辨率的特征图对结果的影响

从不同分辨率的特征图估计的热图的质量从高到低，研究不同分辨率的特征图如何影响人体姿态估计性能。作者训练了两个 HRNetV1 网络。网络输出从高到低分辨率的四个特征图，最低分辨率特征图上的热图预测质量太低，AP 分数低于 10 分。下图报告了其他三个特征图的 AP 分数。实验表明，分辨率确实会影响关键点预测质量。

fei2Afv.png!mobile

▲ 图6. 1×，2×，4×分别对应于高分辨率，中分辨率和低分辨率

5.2 重复多分辨率融合对结果的影响

作者分析了重复多分辨率融合的效果，研究了网络的三种变体。（a）无中间融合模块：多分辨率支路之间除了最终融合模块外没有融合。（b）跨阶段融合单元：每个阶段内的相同分辨率支路之间没有融合。（c）跨阶段阶段和内融合模块：这是 HRNet 的结构。

所有网络均从零开始进行培训。下表中给出的关于 COCO 人体姿态估计和 Cityscapes 语义分割的结果表明，多分辨率融合模块很有帮助，并且更多的融合会带来更好的性能。

2ayIZrI.png!mobile

5.3 分辨率保持对于结果的影响

作者针对最后将低分辨率特征图与高分辨率特征图融合做了对比试验。结果表明 HRNetV2 的低分辨率并行卷积中聚合表示对于提高准确度至关重要。对比结果如下图所示。

MV7nqq2.png!mobile

▲ 图7. （a）在Cityscapes和 PASCAL-Context上进行语义分割（b）在COCOval上进行目标检测

rmYZZrJ.png!mobile

总结

在本文中，作者提出了用于视觉识别问题的高分辨率网络（HRNet）。与现有的低分辨率分类网络和高分辨率特征学习网络存在三个根本区别：（i）并行连接高分辨率和低分辨率卷积，而不是串联连接；（ii）在整个过程中保持高分辨率，而不是从低分辨率中恢复高分辨率；（iii）重复融合多分辨率表示。

7Zvu2qN.png!mobile

参考文献

7Zvu2qN.png!mobile

[1]. Wang J, Sun K, Cheng T, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2020.

[2]. He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[3]. Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.

[4]. Zhang H, Wu C, Zhang Z, et al. Resnest: Split-attention networks[J]. arXiv preprint arXiv:2004.08955, 2020.

[5]. Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

[6]. Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.

[7]. Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, Cham, 2014: 740-755.

[8]. Mottaghi R, Chen X, Liu X, et al. The role of context for object detection and semantic segmentation in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 891-898.

[9]. Cordts M, Omran M, Ramos S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 3213-3223.

[10]. Gong K, Liang X, Zhang D, et al. Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 932-940.

[11]. Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.

[12]. Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation[C]//European conference on computer vision. Springer, Cham, 2016: 483-499.

[13]. Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.

[14]. Cai Z, Vasconcelos N. Cascade r-cnn: Delving into high quality object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6154-6162.

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学习心得 或 技术干货 。我们的目的只有一个，让知识真正流动起来。

:memo: 来稿标准：

• 稿件确系个人 原创作品 ，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

:mailbox_with_mail: 投稿邮箱：

• 投稿邮箱： [email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

:mag:

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击 「交流群」 ，小助手将把你带入 PaperWeekly 的交流群里。

R7nmyuB.gif!mobile

feMfiqY.jpg!mobile

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

参考文献

更多阅读

让你的论文被更多人看到

Recommend

基于 prometheus 的微服务指标监控

NeurIPS 2020放榜，接收率史上最低！AC：低接收率带不来有趣的论文

WSL 将支持 Linux GUI 应用

同事用Python炒股赚了10W，我...

思科前员工删库跑路，损失达 1600 多万

再见，可视化！你好，Pandas！

这样规范写代码，同事直呼“666”

RabbitMQ是如何确定消息是否投递到队列中的

异步化组件的场景选型及实现

使用IntelliJ IDEA查看类图，内容极度舒适

About Joyk