论文推荐 | SIGGRAPH 2020 最佳博士论文；南开等提出新型自校准卷积

8个月前 ⋅ 1625 ⋅ 0 ⋅ 0

文章来源：机器之心@微信公众号

本周的重要论文包括 SIGGRAPH 2020 最佳博士论文，以及南开大学等提出的自校准卷积和相应网络。

目录：

1* LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation

2* Deformable Siamese Attention Networks for Visual Object Tracking

3* Boosting Few-Shot Learning With Adaptive Margin Loss

4* Improving Convolutional Networks with Self-Calibrated Convolutions

5* Meta-Graph: Few Shot Link Prediction Via Meta Learning

6* Differentiable Visual Computing

7* Semantic Image Manipulation Using Scene Graphs

8* ArXiv Weekly Radiostation：CV更多精选论文

论文 1：LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation

作者：Xiangnan He、Kuan Deng、Xiang Wang、Yan Li、Yongdong Zhang、Meng Wang
论文链接：http://staff.ustc.edu.cn/~hexn/papers/sigir20-LightGCN.pdf

摘要：在本文中，来自中国科学技术大学和新加坡国立大学等机构的研究者简化了 GCN 设计，使它更加简洁且更适合推荐任务。他们提出了一个新模型 LightGCN，其中仅使用 GCN 中的最基本组件邻域聚合（neighborhood aggregation）来进行协同过滤。具体来说，LightGCN 通过在用户 - 物品（user-item）交互图上线性地传播用户和物品嵌入，进而学习它们，并将所有层上学得的嵌入加权和用作最终嵌入（final embedding）。

这种简单、线性和整洁的模型实现和训练起来更加容易，并在相同的实验设置下较当前基于 GCN 的 SOTA 推荐模型神经图协同过滤（Neural Graph Collaborative Filtering, NGCF）有了 j 较大的性能提升，平均提升约 16.0%。

file

推荐：研究者在 TensorFlow 和 PyTorch 中均提供了 LightGCN 模型实现。

论文 2：Deformable Siamese Attention Networks for Visual Object Tracking

作者：Yuechen Yu、Yilei Xiong、Weilin Huang、Matthew R. Scott
论文链接：https://arxiv.org/pdf/2004.06711.pdf

摘要：在本篇论文中，码隆科技提出了可变形孪生注意力网络（Deformable Siamese Attention Networks, SiamAttn），以此来提升孪生网络跟踪器的特征学习能力。这种注意力机制为跟踪器提供了一种自适应地隐式更新模板特征的方法。

file

![file](https://bbs.cvmart.net/uploads/images/202006/08/11/LSWqNSN9ge.png?imageView2/2/w/1240/h/0)

推荐：研究者在 6 个基准上进行实验，结果表明该网络取得了新的 SOTA 结果，超越了强大的基线方法 SiamRPN++。

论文 3：Boosting Few-Shot Learning With Adaptive Margin Loss

作者：Aoxue Li、Weiran Huang、Xu Lan、Jiashi Feng、Zhenguo Li、Liwei Wang
论文链接：https://www.weiranhuang.com/publications/pdf/traml2020.pdf

摘要：在本文中，来自北京大学信息科学技术学院和华为诺亚方舟实验室等机构的研究者提出了一种自适应边际损失方法，对于少样本学习（few-shot learning）问题的度量元学习方法来说，这种自适应边际损失方法可以提升它们的泛化能力。具体来说，研究者首先开发了一个类相关额外边际损失（additive margin loss），其中每对类之间的语义相似性用来将特征嵌入空间中的样本与相似类分离开来。

此外，他们将所有类的语义语境整合进一个样例训练任务，并创建任务相关额外边际损失以更好地区分不同类的样本。这种自适应边际方法可以轻松地扩展至更真实的泛化 FSL 设置。

file

自适应边际损失方法的原理图。研究者利用不同类之间的语义相似性来生成类间自适应边际，然后将生成的边际集成至分类损失中，使得相似类在嵌入空间中的可分离性更强，由此有益于少样本学习。

file

各模型在 ImageNet2012 数据集上的泛化少样本学习结果对比，其中本研究采用的是任务相关额外边际损失（task-relevant additive margin loss, TRAML ）。

推荐：实验表明，在标准和泛化少样本学习两种设置下，本研究提出的自适应边际方法均可以增强当前度量元学习方法的效果。

论文 4：Improving Convolutional Networks with Self-Calibrated Convolutions

摘要：近来卷积神经网络（CNN）的进展主要是设计更复杂的架构以增强它们的表征学习能力。在本文中，来自南开大学、新加坡国立大学和字节跳动 AI 实验室的研究者探究如何在不调整模型架构的情况下依然提升 CNN 的基本卷积特征转换过程。为此，他们提出了一种新颖的自校准卷积（self-calibrated convolution），它通过内部通信来显式地扩展每个卷积层的视野，进而丰富输出特征。具有自校准卷积的网络分别命名为 SCNet、SCNeXt 和 SE-SCNet。

具体来说，与使用小核（如 3×3）融合空间和通道信息的标准卷积不同，研究者提出的自校准卷积通过新型自校准运算（self-calibration operation）围绕每个空间位置自适应地构建远程空间和通道间依赖。如此，通过整合更丰富的信息，CNN 可以生成判别性更强的标准。这种自校准卷积在设计上简单且具有通用性，同时在不引入额外参数和复杂度的情况下可以轻松地运用于扩增的标准卷积层。

file

![file](https://bbs.cvmart.net/uploads/images/202006/08/11/gh8frrXJwH.png?imageView2/2/w/1240/h/0)

推荐：实验表明，当这种自校准卷积应用于不同的骨干网络时，基线模型在目标检测、实例分割和关键点检测等多种视觉任务上都有显著的性能提升，并且不需要改变网络架构。

论文 5：Meta-Graph: Few Shot Link Prediction Via Meta Learning

作者：Joey Bose、Ankit Jain、Piero Molino、William L. Hamilton
论文链接：https://arxiv.org/pdf/1912.09867.pdf

摘要：在本文中，来自加拿大麦吉尔大学和优步人工智能实验室的研究者提出通过元学习来进行少样本链路预测，其目的是通过从图分类中学习，模型能够在少量训练后快速推理出新图中的缺失边缘。研究者认为当前的链路预测方法通常无力处理上述任务，具体来说，这些方法既不能有效地将学得知识从一图迁移至另一图上，也无法有效地从稀疏样本边缘学习。为了解决这些问题，研究者引入了一种新的梯度元学习框架元图（Meta-Graph），该框架利用到了高阶梯度以及一个有条件地生成图神经网络初始化的学得图函数签名（signature function）。

file

推荐：在使用一组新型链路预测基准时，研究者证实了元图可以在使用少量真实边缘（true edge）时学习快速地适应新图，在快速适应的同时也可以提升收敛结果。

论文 6：Differentiable Visual Computing

作者：李子懋
论文链接：https://people.csail.mit.edu/tzumao/phdthesis/phdthesis.pdf

摘要：在这篇 148 页的博士论文中，MIT CSAIL 博士后研究员、太极（Taichi）论文第二作者李子懋（Tzu-Mao Li）探讨了视觉计算、编程系统和统计学习之间的关系。他将经典计算机图形学和图像处理算法与现代数据驱动方法相结合，从而增强了物理理解。李子懋利用统计学中的数学工具和机器学习开发能够解决图形和视觉问题的新算法。此外，他开发的编程系统简化了可学得视觉计算算法的高效实现和数学推导。

该论文的主题是解决计算和应用复杂图形学 pipeline 导数所面临的挑战，以便利用这些导数更好地拟合和采样参数或者解决逆问题（inverse problem）。这项研究被认为「解决了图形学算法中的不连续性以及现代硬件的大规模并行性问题，其贡献远远超出了传统的自动微分」。

file

推荐：这篇博士论文斩获 ACM SIGGRAPH 2020 年度最佳博士论文奖。

论文 7：Semantic Image Manipulation Using Scene Graphs

作者：Helisa Dhamo、Azade Farshad、Iro Laina、Nassir Navab 等
论文链接：https://arxiv.org/pdf/2004.03677.pdf

摘要：图像处理是图像生成领域的一种应用场景，其中生成图像是对原始图像的修改。在大多数情况下，图像生成和处理任务是在原始像素上进行操作。但是，学习丰富图像和目标表示两方面取得的显著进展为文本到图像或布局到图像等主要由语义驱动的任务开辟了路径。

在本文中，来自慕尼黑工业大学、牛津大学、约翰霍普金斯大学和谷歌的研究者基于场景图（scene graph）来解决图像生成新问题，其中用户仅通过应用图像生成语义图的节点或边缘改变，即可以编辑图像。研究目的是在给定的群集中对图像信息进行编码，进而生成新的群集，如目标替换以及目标之间关系的变化，同时原始图像的语义和风格保持不变。他们提出的空间语义场景图网络不需要直接监督群集变化或图像编辑，这使得人们可以从已有真实世界数据集中训练系统并且不需要做额外注释。

file

推荐：本研究提出的方法可以使用户在保持场景不变的情况下实现目标的位置变化。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括CV领域10篇精选，详情如下：

本周 10 篇 CV 精选论文是：

1. Look Locally Infer Globally: A Generalizable Face Anti-Spoofing Approach. (from Debayan Deb, Anil K. Jain)

2. Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining. (fromYiqun Mei, Yuchen Fan, Yuqian Zhou, Lichao Huang, Thomas S. Huang, Humphrey Shi)

3. UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated Content. (from Zhengzhong Tu, Yilin Wang, Neil Birkbeck, Balu Adsumilli, Alan C. Bovik)

4. Flexible Bayesian Modelling for Nonlinear Image Registration. (from Mikael Brudfors, Yaël Balbastre, Guillaume Flandin, Parashkev Nachev, John Ashburner)

5. Recapture as You Want. (from Chen Gao, Si Liu, Ran He, Shuicheng Yan, Bo Li)

6. DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution. (from Siyuan Qiao, Liang-Chieh Chen, Alan Yuille)

7. HourNAS: Extremely Fast Neural Architecture Search Through an Hourglass Lens. (from Zhaohui Yang, Yunhe Wang, Dacheng Tao, Xinghao Chen, Jianyuan Guo, Chunjing Xu, Chao Xu, Chang Xu)

8. Boundary-assisted Region Proposal Networks for Nucleus Segmentation. (from Shengcong Chen, Changxing Ding, Dacheng Taoo)

9. CircleNet: Anchor-free Detection with Circle Representation. (from Haichun Yang, Ruining Deng, Yuzhe Lu, Zheyu Zhu, Ye Chen, Joseph T. Roland, Le Lu, Bennett A. Landman, Agnes B. Fogo, Yuankai Huo)

10. Nested Scale Editing for Conditional Image Synthesis. (from Lingzhi Zhang, Jiancong Wang, Yinshuang Xu, Jie Min, Tarmily Wen, James C. Gee, Jianbo Shi)

本文章首发在极市计算机视觉技术社区

微信公众号: 极市平台（ID: extrememart ）
每天推送最新CV干货

论文推荐 | SIGGRAPH 2020 最佳博士论文；南开等提出新型自校准卷积

论文推荐 | SIGGRAPH 2020 最佳博士论文；南开等提出新型自校准卷积

Recommend

自监督黑马 SimCLRv2 来了！提出蒸馏新思路，可迁移至小模型，性能精度媲美有监督

开源项目推荐｜mtensor：同时支持 C++ 和 cuda 延迟计算的异构计算库

美国“逼空大战”：轰轰烈烈开始，悄无声息落幕

联盟分析-政策法规 | 比特币的证券属性分析

思维的碰撞｜当稀疏表达遇到深度学习会发生什么？

Elements of Android Room

JSR-303 Bean Validation

联盟分析-政策法规 | 豪威测试：美国法对证券的司法认定标准

Introducing HyperTrack Insights

Column vs Row

About Joyk