4

论文推荐 | YOLO v4 它来了;北航 MangaGAN 生成久保带人 Style 漫画形象

 3 years ago
source link: https://bbs.cvmart.net/articles/2013
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

论文推荐 | YOLO v4 它来了;北航 MangaGAN 生成久保带人 Style 漫画形象

11个月前 ⋅ 2287 ⋅ 0 ⋅ 0

文章来源:机器之心@微信公众号

本周的重要论文有最新推出的 YOLO v4,以及北航团队使用 MangaGAN 新方法生成久保带人 Style 的漫画形象。

* 1.Unpaired Photo-to-manga Translation Based on The Methodology of Manga Drawing

* 2.Generalizing from a Few Examples: A Survey on Few-Shot Learning

* 3.CLEVRER: COLLISION EVENTS FOR VIDEO REPRESENTATION AND REASONING

* 4. Detection in Crowded Scenes: One Proposal, Multiple Predictions

* 5. YOLOv4: Optimal Speed and Accuracy of Object Detection

* 6.NBDT: Neural-Backed Decision Trees

* 7. Chip Placement with Deep Reinforcement Learning

* 8.ArXiv Weekly Radiostation:CV更多精选论文

论文 1:Unpaired Photo-to-manga Translation Based on The Methodology of Manga Drawing

摘要:漫画是很多人的童年回忆,除了经典的《银魂》、《海贼王》、《火影》,久保带人的作品《死神》也很有人气。最近,六位来自北航的研究者推出了一款漫画脸转换模型「MangaGAN」,实现了真人照片到漫画脸的完美转换

这篇论文中提出了「MangaGAN」,这是一种基于生成对抗网络(GAN)的非成对照片到漫画转换方法。用来训练 MangaGAN 的数据集也来源于一部非常受欢迎的漫画作品——久保带人的《死神(Bleach)》,包含漫画人脸的面部特征、特征点、身体等元素,所以生成结果也带有强烈的久保带人风格。总体来说,MangaGAN 包含两个分支:一个分支通过几何转换网络(Geometric Transformation Network,GTN)学习几何映射;另一个分支通过外观转换网络(Appearance Transformation Network,ATN)学习外观映射。

file

外观转换 ATN 是 multi-GAN 结构的网络,包含四个局部 GAN,分别用来转换眼、口、鼻和头发这四个面部位置。针对每个部位的 GAN,会有专属的训练策略和编码器以改善其性能。

file

几何转换 GTN 的 pipeline。几何信息被分为三种独立属性:位置、大小和脸型,然后使用 N_loc、N_siz、N_sha 三个 sub-GAN 分别进行转换。

推荐:有了这个模型,你也能拥有冷峻严酷的漫画形象——并且是独树一帜的久保带人 Style

论文 2:Generalizing from a Few Examples: A Survey on Few-Shot Learning

摘要:机器学习在数据密集型应用中取得了很大成功,但在面临小数据集的情况下往往捉襟见肘。近期出现的小样本学习方法(Few-Shot Learning,FSL)旨在解决该问题。FSL 利用先验知识,能够快速泛化至仅包含少量具备监督信息的样本的新任务中。

在这篇论文中,来自香港科技大学和第四范式的研究者对 FSL 方法进行了综述。首先该论文给出了 FSL 的正式定义,并厘清了它与相关机器学习问题的关联和差异(弱监督学习、不平衡学习、迁移学习和元学习);然后指出 FSL 的核心问题,即经验风险最小化方法不可靠;最后,根据各个方法利用先验知识处理该核心问题的方式,该研究将 FSL 方法分为三大类:数据:利用先验知识增强监督信号;模型:利用先验知识缩小假设空间的大小;算法:利用先验知识更改给定假设空间中对最优假设的搜索。
file
从数据、模型和算法三种不同视角来观察 FSL 方法如何解决小样本问题。

file
FSL 方法分类。

推荐:该研究提出了 FSL 的未来研究方向:FSL 问题设置、技术、应用和理论。

论文 3:CLEVRER: COLLISION EVENTS FOR VIDEO REPRESENTATION AND REASONING

摘要:在静态图像和视频上提出的各种数据集的推动下,复杂视觉推理问题已经在人工智能和计算机视觉领域得到了广泛研究。然而,大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别,而不是基于因果结构。尽管这些数据集涵盖了视觉的复杂性和多样性,但推理过程背后的基本逻辑、时间和因果结构却很少被探索。

在这篇论文中,麻省理工和 DeepMind 的研究者从互补的角度研究了视频中的时间和因果推理问题。受视觉推理数据集 CLEVR 的启发,他们简化了视觉识别问题,但增强了交互对象背后的时间和因果结构的复杂度。结合从发展心理学中汲取的灵感,他们提出了一种针对时间和因果推理问题的数据集。

file

研究者对各种最新的视觉推理模型在 CLEVRER 上进行了评估,结果显示,尽管这些模型在描述性问题上表现良好,但它们缺乏因果推理的能力,并且在解释性、预测性和反事实问题上表现不佳。

file

NS-DR 模型结合了用于模式识别和动力学预测的神经网络,以及用于因果推理的符号逻辑,包含四个组件:视频解析器、动态预测器、问题解析器和程序执行器。

推荐:数据集的亮点在于,它包含 20,000 个关于碰撞物体的合成视频以及 300,000 多个问题和答案,从互补的角度研究了视频中的时间和因果推理问题。

论文 4:Detection in Crowded Scenes: One Proposal, Multiple Predictions

摘要:在传统的目标检测框架中,一个候选框往往仅输出一个预测框,这为处理遮挡目标增添了很多困难。旷视研究院提出了一种一个候选框可以预测多个目标的检测方法,更加适用于密集物体的检测。为了适应一个候选框预测多个结果的方法,还设计了 EMD Loss 和 Set NMS,前者确保了在网络训练过程中结果的排列不变性,后者让检测器能够在后处理阶段中保留来自同一个候选框的多个预测框。

相对于经典的 FPN 检测器,该方法在存在大量遮挡的 CrowdHuman 数据集上可以取得明显涨点,在较为稀疏的数据集例如 COCO 上,也会有少量的性能提升。

file
密集场景中的人体检测,本研究提出的检测方法与 FPN 基线方法的检测效果对比。

file
整体架构流程图。

file

在 CrowdHuman 验证集上,各种密集场景检测方法的效果比较,其中 AP 和 JI 值越高、MR_-2 值越低代表性能更佳。

推荐:本文已入选 CVPR 2020 Oral

论文 5:YOLOv4: Optimal Speed and Accuracy of Object Detection

摘要:两个月前,YOLO 之父 Joseph Redmon 表示,由于无法忍受自己工作所带来的的负面影响,决定退出计算机视觉领域。此事引发了极大的热议,其中一个悬念就是:我们还能等到 YOLO v4 面世吗?

近日,YOLO 的官方 Github 账号更新了 YOLO v4 的 arXiv 链接与开源代码链接,迅速引起了 CV 社区的关注。在相关论文中,研究者对比了 YOLOv4 和当前最优目标检测器,发现 YOLOv4 在取得与 EfficientDet 同等性能的情况下,速度是 EfficientDet 的二倍!此外,与 YOLOv3 相比,新版本的 AP 和 FPS 分别提高了 10% 和 12%

file

单阶段(One-Stage)与双阶段(Two-Stage)检测器图示。

file
不同目标检测器的速度和准确度对比。

推荐:继 YOLO 之父 Joseph Redmon 宣布其推出计算机视觉领域两个月后,YOLO v4 它悄无声息地来了。

论文 6:NBDT: Neural-Backed Decision Trees

摘要:决策树是一种用于分类的经典机器学习方法,它易于理解且可解释性强,能够在中等规模数据上以低难度获得较好的模型。尽管决策树有诸多优点,但历史经验告诉我们,如果遇上 ImageNet 这一级别的数据,其性能还是远远比不上神经网络。「准确率」和「可解释性」,「鱼」与「熊掌」要如何兼得?把二者结合会怎样?最近,来自加州大学伯克利分校和波士顿大学的研究者就实践了这种想法

他们提出了一种神经支持决策树「Neural-backed decision trees」,在 ImageNet 上取得了 75.30% 的 top-1 分类准确率,在保留决策树可解释性的同时取得了当前神经网络才能达到的准确率,比其他基于决策树的图像分类方法高出了大约 14%

file

树监督损失有两个变体,分别是定义每个节点交叉熵项的 Hard 树监督损失,和定义所有节点概率交叉熵损失的 Soft 数监督损失。

file

在 CIFAR10、CIFAR100、TinyImageNet 和 ImageNet 数据集上的结果对比,其中神经支持决策树(NBDT)优于所有其他基于决策树的方法。

推荐:这种神经支持决策树新研究兼顾了准确率与可解释性

论文 7:Chip Placement with Deep Reinforcement Learning

摘要:在芯片设计过程中,芯片布局(chip placement)可以说是其中最复杂和耗时的步骤了。芯片设计周期的缩短有助于硬件设备适应机器学习领域的快速发展,那么,机器学习能否助力芯片设计呢?最近,谷歌提出了一种基于强化学习的芯片布局方法。

研究者将芯片布局看作一个强化学习问题,然后训练智能体将芯片网表(netlist)的节点放置在芯片画布(canvas)上。为了使强化学习策略泛化至新的芯片 block,研究者将表征学习置于预测芯片布局质量的监督任务中。通过设计能够在大量网表及其布局上准确预测奖励的神经架构,该研究生成输入网表的丰富特征嵌入。然后利用该架构作为策略和价值网络的编码器,实现迁移学习。

该研究旨在最小化芯片设计的 PPA(功耗、性能和面积)。研究者称,该方法能够在 6 小时内完成芯片布局设计,布局质量超过或匹配人类设计,而现有的基线方法需要人类专家参与,且往往需要数周时间才能完成。

file

谷歌方法与当前 SOTA 方法 RePlAce 和人工基线方法的对比结果。

推荐:值得关注的是,该方法可以为谷歌加速器芯片(TPU)生成更优化的芯片布局方案,还适用于任意类型的芯片

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括CV领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 CV 精选论文是:

1. The 1st Agriculture-Vision Challenge: Methods and Results. (from Mang Tik Chiu, Xingqian Xu, Kai Wang, Jennifer Hobbs, Naira Hovakimyan, Thomas S. Huang, Honghui Shi, Yunchao Wei, Zilong Huang等)

2. DeepSDF x Sim(3): Extending DeepSDF for automatic 3D shape retrieval and similarity transform estimation. (from Oladapo Afolabi, Allen Yang, Shankar S. Sastry)

3. Organ at Risk Segmentation for Head and Neck Cancer using Stratified Learning and Neural Architecture Search. (from Dazhou Guo, Dakai Jin, Zhuotun Zhu, Tsung-Ying Ho, Adam P. Harrison, Chun-Hung Chao, Jing Xiao, Alan Yuille, Chien-Yu Lin, Le Lu)

4. Eigendecomposition-Free Training of Deep Networks for Linear Least-Square Problems. (from Zheng Dang, Kwang Moo Yi, Yinlin Hu, Fei Wang, Pascal Fua, Mathieu Salzmann)

5. Location-Aware Feature Selection for Scene Text Detection. (from Zengyuan Guo, Zilin Wang, Zhihui Wang, Wanli Ouyang, Haojie Li, Wen Gao)

6. Towards Analysis-friendly Face Representation with Scalable Feature and Texture Compression. (from Shurun Wang, Shiqi Wang, Wenhan Yang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Wen Gao)

7. A Revised Generative Evaluation of Visual Dialogue. (from Daniela Massiceti, Viveka Kulharia, Puneet K. Dokania, N. Siddharth, Philip H.S. Torr)

8. The Creation and Detection of Deepfakes: A Survey. (from Yisroel Mirsky, Wenke Lee)

9. Weakly Aligned Joint Cross-Modality Super Resolution. (from Guy Shacht, Sharon Fogel, Dov Danon, Daniel Cohen-Or)

10. Cosmetic-Aware Makeup Cleanser. (from Yi Li, Huaibo Huang, Junchi Yu, Ran He, Tieniu Tan)

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK