CVPR2018 | 摆好Pose却没管理好面部表情？腾讯优图Facelet-Bank人脸处理技术了解一下 - JOYK Joy of Geek, Geek News, Link all geek

项目链接：https://github.com/yingcong/Facelet_Bank

引言

数字人脸处理技术旨在改变语义表达和有意义的特征，如微笑和悲伤，或给人脸添加虚拟妆容/配饰，例如小胡子和眼镜。随着智能手机和数码相机的日益普及，人们迫切需要一个实用且快速的系统。人脸处理在计算机视觉和图形领域已经受到广泛关注 [14, 3, 6, 4, 33, 31, 28]。以前的方法致力于美颜 [19, 8]，去美颜 [10]，表情处理 [28] 和看脸辨龄等等。

通过这些方案，我们知道，不同的妆容或属性变化需要不同的处理操作。例如，美颜会处理肤色和纹理，而面部表情处理则更关注 2D 或 3D 几何体。基于此，大多数方法都是专门为单个任务设计的，任何专业效果都需要专家努力和专业知识才能制定有效的新方案。

aArIZrZ.png!web

图 1. 使用我们的模型进行脸部处理的样例。

接下来，我们将阐述我们在寻求统一的人脸属性处理框架过程中遇到的问题，而后介绍我们最终的方案。

1.1 可能的解决方案及问题

直接回归

从外部数据学习人脸处理操作的直接方法是直接回归编辑前的输入和编辑后的真实图像 [10, 5]。但是，这一过程需要标注好的配对数据，而很多情况下没有这些数据或者需要大量人力来创建。对于任何以前没有的效果，这些处理都不易建立。

生成对抗网络

最近，生成对抗网络（GAN）已经显示了它在集合至集合的无监督学习中的能力 [36]。它使用循环一致性损失来保存图像内容，并且利用对抗损失将一组的属性转移到另一组中去。

虽然这个概念很明了而且效果惊人，但是很难训练，特别是对于需要修改系统组件的新效果。训练需要保持生成和判别的平衡。我们发现非最佳训练会产生很差的效果，这在视觉敏感的人脸上很容易被发现。

深度特征插值

深度特征插值 [29] 为学习两个不同集合的图像属性转换提供了另一种解决方案。这种方案需要基于两个图像集的深层特征。但是，这不是一个端到端的框架，因此无法进行全局优化。此外，即使在测试过程中，由于涉及数百个面部对齐和卷操作，它仍然是计算密集型的。

1.2 我们的方案

我们追求一个通用、灵活和高质量输出的人脸处理网络。图 1 展示了我们的方法生成的效果。我们采用了编码器解码器架构，而不是流行的生成对抗网络。

受 Style-Bank[9] 学习可替换风格转移层的启发，我们提出了一个 Facelet-Bank 框架，该框架可以用不同的中层网络（称为 Facelet）来对不同的人脸属性处理操作建模。有意思的是，为了产生不同的效果，只需更新中层网络就可以了，而无需完全重新设计框架。

此外，考虑到很多人脸处理任务缺乏参考标准，我们利用 [29] 的结果来生成伪目标以学习 Facelet 网络。有趣的是，尽管伪目标通常包含噪音，由于 Facelet 网络的架构中隐式地带有正则化功能，它仍然可以正确地捕获真正的属性操作。

最后，我们表明 Facelet 网络可以自动关注最重要的区域，以便以端对端的方式执行面部处理。我们专门设计为允许用户自定义效果级别，因此可以实现交互式脸部处理。我们的总体贡献是多方面的。

我们为面部处理提出了一个集合到集合的 CNN 框架。它不需要配对数据来训练。

该框架很灵活，可以通过简单地更新一些卷积层来生成不同的效果和级别，这对系统开发人员非常友好。

受益于卷积网络对图像的约束，我们的方法对伪目标中的噪声不敏感。

实验表明，我们的方法可以快速处理各种各样的人脸效果。

VrauEja.png!web

图 2. 我们的框架图。（a）是编码器 E（·）;（b）是 facelet-bank V（·）的卷积层;（c）是解码器 D（·）。facelet-bank 的结构是 Conv-ReLU-Conv-ReLU-Conv，其中所有 Convs 的内核尺寸都是 3×3。此外，facelet-bank 的所有 Convs 都不会改变先前输入的高度，宽度和通道数量。

MbiaYfZ.png!web