GAN模型迎来训练方法改进，CMU与Adobe的研究人员基于预训练提出新机制

麻省理工科技评论-GAN模型迎来训练方法改进，CMU与Adobe的研究人员基于预训练提出新机制

科技与人文

生成式对抗网络（Generative Adversarial Networks，简称 GAN）等图像生成模型要想生成真实度较高的图像，需要大量能够帮助其认识真实物理世界的信息。然而，目前这类模型采用的

生成式对抗网络（Generative Adversarial Networks，简称 GAN）等图像生成模型要想生成真实度较高的图像，需要大量能够帮助其认识真实物理世界的信息。然而，目前这类模型采用的是无监督训练方式，不仅会耗费大量的时间和工作，而且并不能充分利用通过大数据训练获取的信息。

近年来，大规模预训练的研究越来越热门，计算机视觉模型的性能也随之获得大幅提升。那么，能否利用可提供知识的大规模预训练模型来改进 GAN 模型的训练？哪些预训练模型可供选择？具体如何做能够最有效地提高 GAN 模型的准确性呢？

据了解，GAN 模型在完成图像生成工作时，要用到一个鉴别器和一个生成器。其中，鉴别器是用来判断图像的真假，而生成器的作用是输出能够“欺骗”鉴别器的图像。

近日，CMU 和 Adobe 的研究人员共同发现，GAN 模型在鉴别器集合中添加大规模预训练模型时可以显著改善其性能。而且，所选模型的特定子集会对性能好坏产生极大的影响。

基于此，研究人员提出了一种有效的选择机制，其先通过探测真假样本之间的线性可分性，选择出最准确的大规模预训练模模型，再逐渐将大规模预训练模型嵌入到 GAN 模型的鉴别器集合中。

研究表明，他们的方法可以在有限数据和大规模设置中改进 GAN 训练，且大大优于最近的 GAN 训练方法，尤其是在有限的样本设置中。

图 | 该方法在 LSUN Cat 和 LSUN Church 上的 FID 分数（来源：CMU）

据悉，研究人员使用多个训练样本，分别在 LSUN Church 和 LSUN CAT 数据集上对改进训练后的 GAN 模型、DiffAugment 模型和 StyleGAN2-ADA 模型作了评估。结果发现，改进的 GAN 模型具有更高的 FID（Frechet Inception Distance）分数。

而且，对于 LSUN Cat 数据集，改进的 GAN 模型仅使用 0.7% 的数据集就实现了与在完整数据集上训练的 StyleGAN2-ADA 相似的 FID。而在完整数据集上，改进的 GAN 模型在 LSUN Cat 和 LSUN Church 数据集上的 FID 比原来提高了 1.5 倍至 2 倍。

接着，研究人员还使用他们的方法对 StyleGAN2-ADA 模型进行了微调，并对比了 StyleGAN2-ADA 在微调前后在 FFHQ、LSUN CAT 和 LSUN CHURCH 三个数据集中训练生成的图像质量，采用的训练样本数从 1000 到 10000 变化。

结果表明，微调后的 StyleGAN2-ADA 模型生成的图像质量更佳，尤其是在 FFHQ 和 LSUN CAT 数据集上。此外，随着鉴别器数量的增加，模型的性能更强。

总的来说，通过 CMU 和 Adobe 提出的新方法，图像生成模型可以在所有样本设置中都得到 FID 分数的大幅提升，这证实了该方法在有限数据场景中发挥的积极作用。

图 | StyleGAN2-ADA 和该方法为相同潜在代码随机生成的图像（来源：CMU）

需要注意的是，大规模预训练模型作为鉴别器很容易在给定的训练集上过度匹配，尤其是在有限数据场景中。而且，就算采用了最新的可微数据扩充方法，鉴别器仍然倾向于过度匹配，在验证集上表现不佳。此外，鉴别器还可以潜在地关注那些人类无法识别但对机器来说显而易见的事情。

为了解决上述问题，研究人员选择整合一组不同的深层特征表示作为 GAN 模型的鉴别器，这种新的监督来源可以从两个方面使模型受益。

研究人员表示，“首先，在预训练特征上训练浅层分类器是将深层网络适应小规模数据集的常见方法，同时可以减少过度匹配情况。其次，有研究表明，深度网络可以捕获有意义的视觉概念，从低级视觉线索（边缘和纹理）到高级概念（对象和对象部分），而基于这些特征构建的鉴别器可以更好地匹配人类的感知。”

图 | StyleGAN2-ADA 和该方法最佳和最差样本的比较（来源：CMU）

此外，在实际样本有限的情况下，为了提高计算效率，研究人员使用线性探测来衡量特征空间中真假图像的可分性，将两者联合分为训练集和验证集，并且，为区分样本的来源，他们还训练了逻辑线性判别器，再经分布差距进行评估后，最终得出验证误差最小的模型。

结果发现，线性探头精度的高低会影响到模型区分真实样本和生成图像时的验证误差情况，精度高则训练的 GAN 模型 FID 分数一般也更高。

接下来，研究人员还对 K-fixed 和 K-progressive 的模型选择和集成策略进行了分析。其中，K-progressive 策略由于算法复杂度较低，因此对最佳预训练模型的选择有帮助。

最后，研究人员表示，现在，越来越多自我监督和有监督的计算机视觉模型能够随时可用，它们应该被用于生成建模。此次，他们通过转移大规模来表示学习的知识，为改进生成性建模迈出了一小步。

-End-

参考：
https://www.cs.cmu.edu/~vision-aided-gan/
2112.09130.pdf (arxiv.org)
https://github.com/nupurkmr9/vision-aided-gan

Recommend

多场景适用的现代创意插画

mysterious electric airship

东芝收到8份私有化收购要约

Japan tested a giant turbine that generates electricity using deep ocean current...

茶颜悦色翻车！重庆新店直播中，拖延上架、“溜粉”严重

Tesla blames drivers who wreck its cars but won’t hand over crash data without a...

Meta losing Sheryl Sandberg leaves a “massive hole”, analyst warns

Poco C40 launch date and prices have been revealed

抖音MCN如何在星图平台上签约/解约达人？

Motorola Moto Edge 2022's specs and renders surface

About Joyk