CVPR2020 论文解读集锦【计算机视觉】【CVPR】

10个月前 ⋅ 5174 ⋅ 1 ⋅ 0

21.百度 HAMBox 火腿框人脸检测真香

百度人脸检测论文HAMBox，该文章发现了一种有趣的现象，即负样本anchor相比正样本anchor而言，居然也有不错的回归能力，在inference时，负样本anchor回归得到的与gt的IoU大于0.5的框占到所有与gt的IoU大于0.5的框中的89%！

由于网络图片 (web image) 通常所包含的两种噪声，即标签噪声 (label noise) 和背景噪声 (background noise)给利用网络数据学习图像分类器带来了很多额外的困难，而现有的方法要么非常依赖于额外的监督信息，要么无法应对背景噪声。论文中提出了一种不需要额外监督信息的方法来同时处理这两种类型的噪声，并在四个基准数据集上的实验证明了方法的有效性。
论文地址：https://arxiv.org/abs/1906.12028

19.为尾部样本构造特征云，就像用电子云填充空旷的原子——长尾数据上的特征学习方法

长尾数据下的特征学习格外困难。解决尾部类别样本少、类内多样性不足的根本做法是增加样本。那么如何增加？该工作提出了为尾部类别构造云、用“特征云”来充实尾部类的方法。直截了当地聚焦到了特征空间，在学到的特征空间中，为尾部ID增加一些虚拟的样本。这些新增的虚拟样本就像电子云缠绕原子核一样，缠绕在实际样本四周，形象地称之为“feature cloud”。方法可以非常直观地描述为——用特征云填充尾部类别单薄的特征空间，就像电子云填充空荡荡的原子一样。
https://arxiv.org/abs/2002.10826

18.输入数据量减半！何恺明Mask R-CNN精度提升，阿里达摩院实习生立功

输入的数据量更小，深度神经网络在图像分类/分割任务上的精度反而提升了。这就是阿里达摩院提出的图像分析新方法：“频域学习”（Learning in the Frequency Domain）。核心要义，是省略图像压缩/解压缩中计算量最大的步骤，直接利用频域特征来进行图像推理，减少系统中模块之间的数据传输量，从而提升系统性能。
论文地址：https://arxiv.org/pdf/2002.12416.pdf

17.更高质量的点云补全：上海交通大学团队提出点云分形网络

论文提出点云分形网络（PF-Net：Point Fractal Network），采用了类似分形几何的思想，同样以不完整点云作为输入，但是仅输出缺失部分点云，并且较好地保留了某个物体的个体特征。PF-Net 的修补对比其他网络具有以下优势：（1）保留了输入点云独特的几何特性；（2）细节特征更加丰富且柔和；（3）生成点云整体的质量更高。
论文地址：https://arxiv.org/pdf/2003.00410.pdf
代码地址：https://github.com/zztianzz/PF-Net-Point-Fractal-Network.git

16.无需3D运动数据训练，最新人体姿势估计方法达到SOTA

人体的运动对于理解人的行为是非常重要的。尽管目前已经在单图像3D姿势和动作估计方面取得了进展，但由于缺少用于训练的真实的3D运动数据，因此现有的基于视频的SOTA方法无法产生准确且自然的运动序列。为了解决这个问题，本文提出了“用于人体姿势和形状估计的视频推理”（VIBE）方法，它利用了现有的大规模运动捕捉数据集（AMASS）以及未配对的2D关键点标注数据。

本文最关键的创新在于它是一种对抗性学习框架，该框架利用AMASS数据集来区分真实的人类动作与本文利用时序姿态和动作回归网络产生的动作。本文定义了一个时序网络体系结构，并展示了在没有真实3D标签的情况下，能够产生序列级别的合理的运动序列。本文进行了大量实验，分析了运动性的重要性，并演示了VIBE在非常有挑战性的3D姿态估计数据集上的有效性，达到了SOTA性能。

论文地址：https://arxiv.org/abs/1912.05656
论文链接：https://github.com/mkocabas/VIBE

15.ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类

论文提出了结合注意力卷积的二叉神经树进行弱监督的细粒度分类，在树结构的边上结合了注意力卷积操作，在每个节点使用路由函数来定义从根节点到叶子节点的计算路径，结合所有叶子节点的预测值进行最终的预测，同时具备创意性和效果性。
论文链接：https://arxiv.org/abs/1909.11378

14.CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架，集成目前最全metrics，已开源

选择2019年热门框架facebookresearch/maskrcnn-benchmark作为基础，在其基础上搭建了Scene-Graph-Benchmark.pytorch。该代码不仅兼容了maskrcnn-benchmark所支持的所有detector模型，且得益于facebookresearch优秀的代码功底，更大大增加了SGG部分的可读性和可操作性。
论文链接：https://arxiv.org/abs/2002.11949
论文代码：https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

13.CVPR2020 | 旷视研究院提出基于3D关键点投票网络的单目6DoF位姿估计算法(已开源)

论文链接：https://arxiv.org/abs/1911.04231
论文代码：https://github.com/ethnhe/PVN3D.git
旷视研究院提出一种基于霍夫投票（Hough voting)的 3D 关键点检测神经网络，称之为 PVN3D，以学习逐点到 3D 关键点的偏移并为 3D 关键点投票。把基于 2D 关键点的方法推进至 3D 关键点，以充分利用刚体的几何约束信息，极大提升了 6DoF 估计的精确性。在 YCB-Video 和 LineMOD 两大公开数据集上进行了评估实验，结果表明该方法以大幅优势取得了当前最佳性能。

12.跨模态行人重识别：共享与特异特征变换算法cm-SSFT

论文链接：https://arxiv.org/abs/2002.12489
关注红外线-RGB跨模态行人重识别。试图解决：以往大部分跨模态行人重识别算法一般都只关注shared feature learning，而很少关注Specific feature。因为Specific feature在对面模态中是不存在的。例如在红外线图片中是没有彩色颜色信息的。反之在彩图中也不会有热度信息。而实际上做过ReID的都知道，传统ReID之所以性能很高，很大程度上就是有些“过拟合”到了这些specific信息上。比如衣服颜色一直是传统ReID的一个重要的cue。从这个角度出发，尝试利用specific特征。主要思路是利用近邻信息：给定一红外线query。当搜索彩色target时，可以先找到一些简单的置信度高的彩色样本（这些样本大概率是红外线query的positive样本），把这些彩色样本的颜色特异特征给与红外线query。做了这件事后，红外线query样本可以利用这些彩色信息再去搜索更难的彩色样本。

11.RandLA-Net:大场景三维点云语义分割新框架（已开源）

论文链接：https://arxiv.org/abs/1911.11236
代码：https://github.com/QingyongHu/RandLA-Net
提出了一种基于简单高效的随机降采样和局部特征聚合的网络结构(RandLA-Net)。该方法不仅在诸如Semantic3D和SemanticKITTI等大场景点云分割数据集上取得了非常好的效果，并且具有非常高的效率(e.g. 比基于图的方法SPG快了接近200倍)。

10.腾讯推出超强少样本目标检测算法，公开千类少样本检测训练集FSOD

论文链接：https://arxiv.org/abs/1908.01998
提出了新的少样本目标检测算法，创新点包括Attention-RPN、多关系检测器以及对比训练策略，另外还构建了包含1000类的少样本检测数据集FSOD，在FSOD上训练得到的论文模型能够直接迁移到新类别的检测中，不需要fine-tune

9.CARS: 华为提出基于进化算法和权值共享的神经网络结构搜索，CIFAR-10上仅需单卡半天

论文链接：https://arxiv.org/abs/1909.04977
为了优化进化算法在神经网络结构搜索时候选网络训练过长的问题，参考ENAS和NSGA-III，论文提出连续进化结构搜索方法(continuous evolution architecture search, CARS)，最大化利用学习到的知识，如上一轮进化的结构和参数。首先构造用于参数共享的超网，从超网中产生子网，然后使用None-dominated排序策略来选择不同大小的优秀网络，整体耗时仅需要0.5 GPU day。

8.化繁为简，弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL)

论文链接：https://arxiv.org/abs/2002.11359
论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题，该方法将定位与分类分开成两个独立的网络，然后在训练集上使用Deep descriptor transformation(DDT)生成伪GT进行训练，整体效果达到SOTA。该论文主要有三点贡献：一、弱监督目标定位应该分为类不可知目标定位和目标分类两个独立的部分，提出PSOL算法；二、尽管生成的bbox有偏差，论文仍然认为应该直接优化他们而不需要类标签，最终达到SOTA；三、在不同的数据集上，PSOL算法不需要fine-tuning也能有很好的定位迁移能力

7.字节跳动：基于解剖学感知的视频3D人体姿态估计

论文链接：https://arxiv.org/pdf/2002.10322.pdf
在这项工作中，我们提出了一种新的视频中3D人体姿态估计的解决方案。我们不是直接回归3D关节位置，而是从人体骨骼解剖中汲取灵感，将任务分解为骨骼方向预测和骨骼长度预测，从这两个预测中完全可以得到三维关节位置。我们的研究动机是人类骨骼的长度随着时间的推移保持一致。这推动了我们开发有效的技术来利用视频中所有帧的全局信息来进行高精度的骨骼长度预测。此外，对于骨骼方向预测网络，我们提出了一种具有长跳跃连接的全卷积传播结构。本质上，它分层地预测不同骨骼的方向，而不使用任何耗时的存储单元(例如LSTM)。进一步引入了一种新的关节位移损失来连接骨骼长度和骨骼方向预测网络的训练。最后，我们采用一种隐含的注意机制将2D关键点可见性分数作为额外的指导反馈到模型中，这显著地缓解了许多具有挑战性的姿势中的深度歧义。我们的完整模型在Human3.6M和MPI-INF-3dHP数据集上的表现优于之前的最好结果，在这些数据集上的综合评估验证了我们模型的有效性。

6.微软亚洲研究院：给Deepfake 假脸做 X-Ray，新模型把换脸图打回原形

论文链接：论文地址：https://arxiv.org/pdf/1912.13458.pdf
微软亚洲研究院提出了一个方法，它既不需要了解换脸后的图像数据，也不需要知道换脸算法，就能对图像做『X-Ray』，鉴别出是否换脸，以及指出换脸的边界。
新模型 Face X-Ray 具有两大属性：能泛化到未知换脸算法、能提供可解释的换脸边界。要获得这样的优良属性，诀窍就藏在换脸算法的一般过程中。如下所示，大多数换脸算法可以分为检测、修改以及融合三部分。与之前的研究不同，Face X-Ray 希望检测第三阶段产生的误差。

5.UDP：人体姿态估计中的无偏数据处理方法

论文链接：https://arxiv.org/abs/1911.07524
UDP，解决了现有的SOTA人体姿态估计算法中标准编解码方法存在较大统计误差的问题。同时解决了由于翻转测试而导致的结果不对齐问题。且该算法即用即插，在基本不增加模型复杂度的情况下，有效提升了算法性能。

4.让合成图像更真实，上交大提出基于域验证的图像和谐化

论文链接：https://arxiv.org/abs/1911.13239
在合成图中，前景和背景是在不同的拍摄条件 (比如时刻、季节、光照、天气) 下拍摄的，所以在亮度色泽等方面存在明显的不匹配问题。图像和谐化 (image harmonization) 旨在调整合成图中的前景，使其与背景和谐。传统的图像和谐化方法一般是从背景或者其他图片转移颜色信息到前景上，但这样无法保证调整之后的前景看起来真实并且与背景和谐。近年来，已经有少量的工作尝试用深度学习做图像和谐化，但成对的合成图和真实图极难获得。如果没有成对的合成图和真实图，深度学习的训练过程缺乏足够强的监督信息，合成图和谐化之后的结果也没有 ground-truth 用于评测。截至目前还没有公开的大规模图像和谐化数据库，我们构建并公布了由四个子数据库组成的图像和谐化数据库。并且，我们提出了域验证 (domain verification) 的概念，尝试了基于域验证的图像和谐化算法。

3.PolarMask: 一阶段实例分割新思路

论文链接：https://arxiv.org/abs/1909.13226
PolarMask基于FCOS，把实例分割统一到了FCN的框架下。FCOS本质上是一种FCN的dense prediction的检测框架，可以在性能上不输anchor based的目标检测方法，让行业看到了anchor free方法的潜力。接下来要解决的问题是实例分割。本工作最大的贡献在于把更复杂的实例分割问题，转化成在网络设计和计算量复杂度上和物体检测一样复杂的任务，把对实例分割的建模变得简单和高效。

2.华为GhostNet，超越谷歌MobileNet，已开源

论文链接：https://arxiv.org/abs/1911.11907
该论文提供了一个全新的Ghost模块，旨在通过廉价操作生成更多的特征图。基于一组原始的特征图，作者应用一系列线性变换，以很小的代价生成许多能从原始特征发掘所需信息的“幻影”特征图（Ghost feature maps）。该Ghost模块即插即用，通过堆叠Ghost模块得出Ghost bottleneck，进而搭建轻量级神经网络——GhostNet。在ImageNet分类任务，GhostNet在相似计算量情况下Top-1正确率达75.7%，高于MobileNetV3的75.2%。

1.加州理工大学Devi Parikh：多任务视觉和语言表示学习

论文链接：https://arxiv.org/abs/1912.02315
许多视觉和语言的研究集中在一组小而多样的独立任务和支持的数据集上，这些数据集通常是单独研究的;然而，成功完成这些任务所需的视觉语言理解技能有很大的重叠。在这项工作中，我们通过开发一个大规模的、多任务的训练机制来研究视觉和语言任务之间的关系。

本文章首发在极市计算机视觉技术社区

微信公众号: 极市平台（ID: extrememart ）
每天推送最新CV干货

CVPR2020 论文解读集锦【计算机视觉】【CVPR】

CVPR2020 论文解读集锦【计算机视觉】【CVPR】

21.百度 HAMBox 火腿框人脸检测真香

20.弱监督怎样做图像分类？上交大提出自组织记忆网络

19.为尾部样本构造特征云，就像用电子云填充空旷的原子——长尾数据上的特征学习方法

18.输入数据量减半！何恺明Mask R-CNN精度提升，阿里达摩院实习生立功

17.更高质量的点云补全：上海交通大学团队提出点云分形网络

16.无需3D运动数据训练，最新人体姿势估计方法达到SOTA

15.ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类

14.CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架，集成目前最全metrics，已开源

13.CVPR2020 | 旷视研究院提出基于3D关键点投票网络的单目6DoF位姿估计算法(已开源)

12.跨模态行人重识别：共享与特异特征变换算法cm-SSFT

11.RandLA-Net:大场景三维点云语义分割新框架（已开源）

10.腾讯推出超强少样本目标检测算法，公开千类少样本检测训练集FSOD

9.CARS: 华为提出基于进化算法和权值共享的神经网络结构搜索，CIFAR-10上仅需单卡半天

8.化繁为简，弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL)

7.字节跳动：基于解剖学感知的视频3D人体姿态估计

6.微软亚洲研究院：给Deepfake 假脸做 X-Ray，新模型把换脸图打回原形

5.UDP：人体姿态估计中的无偏数据处理方法

4.让合成图像更真实，上交大提出基于域验证的图像和谐化

3.PolarMask: 一阶段实例分割新思路

2.华为GhostNet，超越谷歌MobileNet，已开源

1.加州理工大学Devi Parikh：多任务视觉和语言表示学习

Recommend

CVPR 2020 Oral 汇总：论文 / 代码 / 解读（更新中）

CVPR 2017 论文解读集锦

CVPR2020 论文解读汇总 + 技术直播汇总（0728 更新中）

不止是 CVPR2020 合集！这份硬核计算机视觉顶会资源请收好

CVPR2020 最全整理：论文汇总 / 代码 / 项目 / 论文解读（更新中）【计算机视觉】

CVPR 2018 论文解读集锦（190326 更新）

CVPR 2021|三维视觉相关论文汇总

CVPR2020 最全整理：论文汇总 / 代码 / 项目 / 论文解读（更新中）【计算机视觉】 -...

从 CVPR 2021 的论文看计算机视觉的现状

CVPR 2022 | 美团技术团队精选论文解读

About Joyk