5

论文推荐 | CVPR 2020 获奖论文;知识蒸馏综述

 3 years ago
source link: https://bbs.cvmart.net/articles/2774
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

论文推荐 | CVPR 2020 获奖论文;知识蒸馏综述

5个月前 ⋅ 1986 ⋅ 1 ⋅ 2

本周的重要论文是CVPR 2020 公布的各奖项获奖论文,包括最佳论文和最佳学生论文等。

目录:

1. Knowledge Distillation: A Survey

2. Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

3. BSP-Net: Generating Compact Meshes via Binary Space Partitioning

4. Generative Pretraining from Pixels

5. ActBERT: Learning Global-Local Video-Text Representations

6. A Survey on Dynamic Network Embedding

7. ArXiv Weekly Radiostation:CV 更多精选论文

论文 1:Knowledge Distillation: A Survey

摘要:近年来,深度神经网络在业界和学术界均取得了巨大成功,特别是在视觉识别和神经语言处理方面的应用。深度学习的巨大成功主要归功于自身强大的可扩展性,既有大规模的数据样本,也有数十亿的模型参数。但同时也应看到,在移动电话和嵌入式等资源有限的设备上部署这些笨重的深度模型也带来了巨大挑战,这不仅是因为计算量大,而且所需的存储空间也非常大。为了解决这些问题,研究人员开发了各种模型压缩和加速技术,如剪枝、量化和神经结构搜索。

知识蒸馏就是一种典型的模型压缩和加速方法,旨在从大教师模型中学习小学生模型,因而吸引了越来越多研究人员的关注。在本文中,来自悉尼大学和伦敦大学伯贝克学院的研究者从知识分类、训练方案、知识提取算法以及应用等方面对知识蒸馏进行了综述。此外,他们还简要回顾了知识蒸馏领域面临的挑战,并对未来的研究课题提供了一些见解。

file
file

推荐:本文通讯作者为悉尼大学计算机科学教授陶大程(Dacheng Tao)。

论文 2:Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

摘要:在这项研究中,来自牛津大学的研究者提出了一种基于原始单目图像学习 3D 可变形物体类别的新方法,且无需外部监督。该方法基于一个自编码器,它将每张输入图像分解为深度、反射率、视点和光照(将这四个组件结合起来即可重建输入图像)。该模型在训练过程中仅利用重建损失,未使用任何外部监督。为了在不使用监督信号的前提下将这些组件分解开,研究人员利用了很多物体类别所具备的属性——对称结构。

该研究表明,对光照进行推理可以帮助我们利用物体的底层对称性,即便由于阴影等因素造成物体外观看起来并不对称也没有关系。此外,该研究还使用模型其他组件以端到端的方式学得对称概率图,并借助对该概率图的预测对可能并不对称的物体进行建模。实验表明,该方法可以准确恢复单目图像中人脸、猫脸和车辆的 3D 形状,且无需任何监督或先验形状模型。相比于利用 2D 图像对应监督的另一种方法,该方法在基准数据集上的性能更加优越。

file
file
file

推荐:本文获得了 CVPR 2020 最佳论文奖。

<br>  

论文 3:BSP-Net: Generating Compact Meshes via Binary Space Partitioning

摘要:多边形网格在数字 3D 领域中无处不在,但它们在深度学习革命中仅扮演了次要角色。学习形状生成模型的领先方法依赖于隐函数,并且只能在经过昂贵的等值曲面处理过程后才能生成网格。为了克服这些挑战,来自西蒙弗雷泽大学和谷歌研究院的研究者受计算机图形学中经典空间数据结构 Binary Space Partitioning(BSP)的启发,来促进 3D 学习。BSP 的核心部分是对空间进行递归细分以获得凸集。

利用这一属性,研究者设计了 BSP-Net,该网络可以通过凸分解来学习表示 3D 形状。重要的是,BSPNet 以无监督方式学得,因为训练过程中不需要凸形分解。该网络的训练目的是,为使用基于一组平面构建的 BSPtree 获得的一组凸面重构形状。经过 BSPNet 推断的凸面可被轻松提取以形成多边形网格,而无需进行等值曲面处理。生成的网格是紧凑的(即低多边形),非常适合表示尖锐的几何形状。此外,它们一定是水密网格,并且可以轻松参数化。

该研究还表明,BSP-Net 的重构质量和 SOTA 方法相比具备竞争力,且它使用的原语要少得多。

file
file
file

推荐:本文获得了 CVPR 2020 最佳学生论文奖。

<br>  

论文 4:Generative Pretraining from Pixels

摘要:近日,OpenAI 发布了一项新研究,旨在探索在图像上训练 GPT-2 的性能以及无监督准确率表现。研究者表示,BERT 和 GPT-2 等 Transformer 模型是域不可知的,这意味着它们可以直接应用于任何形式的 1D 序列。OpenAI 研究者在图像上训练 GPT-2(这些图像被分解为长像素序列),他们称该模型称为 iGPT。结果发现这种模型似乎能够理解物体外观和类别等 2D 图像特征。iGPT 生成的各种一致性图像样本可以证明这一点,即使没有人为标签的指导。

iGPT 缘何能够成功呢?这是因为,在下一像素预测(next pixel prediction)上训练的足够大的 transformer 模型最终可能学会生成具有清晰可识别物体的样本。一旦学会了生成此类样本,那么通过「合成分析」,iGPT 将知道目标类别。实验表明,iGPT 模型的特征在大量的分类数据集上实现了当前 SOTA 性能,以及在 ImageNet 数据集上实现了接近 SOTA 的无监督准确率。

file
file
file
file

推荐:图像领域的 GPT 模型终于来了。

论文 5:ActBERT: Learning Global-Local Video-Text Representations

摘要:在本文中,来自百度研究院和悉尼科技大学的研究者提出 ActBERT 从配对视频序列中挖掘全局和局部视觉线索和文字描述,它利用丰富的上下文信息和细粒度的关系进行视频 - 文本联合建模,其贡献有以下三点:

  • 首先,ActBERT 整合了全局动作,局部区域与文本描述。诸如「剪切」、「切片」之类的动作对于各种视频相关的下游任务是有益处的。除了全局动作信息,结合本地区域信息以提供细粒度的视觉提示,区域提供有关整个场景的详细视觉线索,包括区域对象特征,对象的位置。语言模型可以从区域信息中受益以获得更好的语言和视觉一致性;

  • 其次,纠缠编码器模块对来自三个要素进行编码,即全局动作,局部区域和语言描述。新的纠缠编码模块从三个来源进行多模态特征学习,以增强两个视觉提示和语言之间的互动功能。在全局动作信息的指导下,对语言模型注入了视觉信息,并将语言信息整合到视觉模型中。纠缠编码器动态选择合适的上下文以促进目标预测;

  • 最后,提出四个训练任务来学习 ActBERT。预训练后的 ActBERT 被转移到五个与视频相关的下游任务,并定量地显示 ActBERT 达到了最先进的性能。
file
file
file
file

推荐:该框架刷新五项 SOTA,充分展示了其在视频文本表示方面的学习能力。

<br>  

论文 6:A Survey on Dynamic Network Embedding

摘要:在本文中,来自西安电子科技大学的研究者对动态网络嵌入问题进行了系统的研究,其中重点介绍了动态网络嵌入的基本概念,并首次对现有动态网络嵌入技术进行了分类,包括基于矩阵分解、基于跳字模型、基于自编码器以及基于神经网络等嵌入方法

此外,研究者详细汇总了一些常用的数据集以及动态网络嵌入可以发挥积极作用的后续任务。在此基础上,他们提出了现有算法面临的一些挑战,并列举了可能促进未来研究的发展方向,如动态嵌入模型、大规模动态网络、异构动态

file
file

推荐:本文的亮点在于,研究者提出了 6 个有趣且有前景的未来研究方向。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括CV10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 CV 精选论文是:

1. LSD-C: Linearly Separable Deep Clusters.  (from Sylvestre-Alvise Rebuffi, Sebastien Ehrhardt, Kai Han, Andrea Vedaldi, Andrew Zisserman)

2. Rethinking Sampling in 3D Point Cloud Generative Adversarial Networks.  (from He Wang, Zetian Jiang, Li Yi, Kaichun Mo, Hao Su, Leonidas J. Guibas)

3. Diverse Image Generation via Self-Conditioned GANs.  (from Steven Liu, Tongzhou Wang, David Bau, Jun-Yan Zhu, Antonio Torralba)

4. AVLnet: Learning Audio-Visual Language Representations from Instructional Videos.  (from Andrew Rouditchenko, Angie Boggust, David Harwath, Dhiraj Joshi, Samuel Thomas, Kartik Audhkhasi, Rogerio Feris, Brian Kingsbury, Michael Picheny, Antonio Torralba, James Glass)

5. Self-supervised Knowledge Distillation for Few-shot Learning.  (from Jathushan Rajasegaran, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Mubarak Shah)

6. Learning Visual Commonsense for Robust Scene Graph Generation.  (from Alireza Zareian, Haoxuan You, Zhecan Wang, Shih-Fu Chang)

7. Branch-Cooperative OSNet for Person Re-Identification.  (from Lei Zhang, Xiaofu Wu, Suofei Zhang, Zirui Yin)

8. Rethinking Pre-training and Self-training.  (from Barret Zoph, Golnaz Ghiasi, Tsung-Yi Lin, Yin Cui, Hanxiao Liu, Ekin D. Cubuk, Quoc V. Le)

9. Progressive Skeletonization: Trimming more fat from a network at initialization.  (from Pau de Jorge, Amartya Sanyal, Harkirat S. Behl, Philip H.S. Torr, Gregory Rogez, Puneet K. Dokania)

10. Neural Graphics Pipeline for Controllable Image Generation.  (from Xuelin Chen, Daniel Cohen-Or, Baoquan Chen, Niloy J. Mitra)

文章来源:机器之心@微信公众号

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK