4

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

 11 months ago
source link: https://www.36kr.com/p/2266795344076808
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

机器之心·2023-05-21 01:54
2023年了,没想到GAN还能老树开花。

编辑:蛋酱、小舟

如果甲方想把大象 P 转身,你只需要拖动 G AN 就好了。

在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理,这是一把双刃剑,因为迭代方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,在实际应用方面,扩散模型比 GAN 方法更易于控制,这是 GAN 式微的原因之一。

当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。

最近,来自马克斯・普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN,能够让用户以交互的方式「拖动」图像的任何点精确到达目标点。

v2_8eb6ca820c11436fa6dd6ef884e8c585@430412560_oswg205861oswg1080oswg336_img_000

论文链接:https://arxiv.org/abs/2305.10973

项目主页:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

这种全新的控制方法非常灵活、强大且简单,有手就行,只需在图像上「拖动」想改变的位置点(操纵点),就能合成你想要的图像。

例如,让狮子「转头」并「开口」:

v2_ebe8c63c369e4050af7ebcb00756ae55@430412560_img_000

还能轻松让小猫 wink:

v2_466ecce9a69745069e13d97f6e3980c9@430412560_img_000

再比如,你可以通过拖动操纵点,让单手插兜的模特把手拿出来、改变站立姿势、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片:

如果你也接到了「把大象转个身」的 P 图需求,不妨试试:

v2_3636996ddaf340a58b88a88b8f5dad53@430412560_img_000
v2_9003e5d5c8ae459682b233ee51f49b11@430412560_oswg17956oswg1080oswg152_img_000
v2_e5f75e795cdf4480966459086a9ed539@430412560_oswg149723oswg1066oswg416_img_000

整个图像变换的过程就主打一个「简单灵活」,图像想怎么变就怎么变,因此有网友预言:「PS 似乎要过时了」。

v2_661553e00aac45b1a7280e5d0adad379@430412560_oswg82123oswg1080oswg289_img_000

也有人觉得,这个方法也可能会成为未来 PS 的一部分。

v2_2d419d4add9442738903238f065aaf44@430412560_oswg134355oswg1080oswg370_img_000

总之,观感就是一句话:「看到这个,我脑袋都炸了。」

v2_779b6393cee746688109a81b479977d0@430412560_oswg100814oswg1080oswg296_img_000

当大家都以为 GAN 这个方向从此消沉的时候,总会出现让我们眼前一亮的作品:

v2_70e8828a2cd4460e80e23ed06e5dbc4c@430412560_oswg53204oswg1080oswg143_img_000

这篇神奇的论文,已经入选了 SIGGRAPH 2023。研究者表示,代码将于六月开源。

v2_5ef506da2d884ca8bb5680a376aaaa79@430412560_oswg93602oswg1080oswg242_img_000

那么,DragGAN 是如何做到强大又灵活的?我们来看一下该研究的技术方法。

方法概述

该研究提出的 DragGAN 主要由两个部分组成,包括:

基于特征的运动监督,驱动图像中的操纵点向目标位置移动;

一种借助判别型 GAN 特征的操纵点跟踪方法,以控制点的位置。

DragGAN 能够通过精确控制像素的位置对图像进行改变,可处理的图像类型包括动物、汽车、人类、风景等,涵盖大量物体姿态、形状、表情和布局,并且用户的操作方法简单通用。

GAN 有一个很大的优势是特征空间具有足够的判别力,可以实现运动监督(motion supervision)和精确的点跟踪。具体来说,运动监督是通过优化潜在代码的移位特征 patch 损失来实现的。每个优化步骤都会导致操纵点更接近目标,然后通过特征空间中的最近邻搜索来执行点跟踪。重复此优化过程,直到操纵点达到目标。

DragGAN 还允许用户有选择地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖任何额外的网络,因此它实现了高效的操作,大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就可以完成图像处理。这让 DragGAN 能够进行实时的交互式编辑,用户可以对图像进行多次变换更改,直到获得所需输出。

v2_9a34594194f4436ebba9b7c31aa66f13@430412560_oswg411778oswg1080oswg378_img_000

如下图所示,DragGAN 可以有效地将用户定义的操纵点移动到目标点,在许多目标类别中实现不同的操纵效果。与传统的形变方法不同的是,本文的变形是在 GAN 学习的图像流形上进行的,它倾向于遵从底层的目标结构,而不是简单地应用扭曲。例如,该方法可以生成原本看不见的内容,如狮子嘴里的牙齿,并且可以按照物体的刚性进行变形,如马腿的弯曲。

v2_0a99e9d2863946f4a89c55e88b6f23cd@430412560_oswg697296oswg1080oswg471_img_000

研究者还开发了一个 GUI,供用户通过简单地点击图像来交互地进行操作。

此外,通过与 GAN 反转技术相结合,本文方法还可以作为一个用于真实图像编辑的工具。

一个非常实用的用途是,即使合影中某些同学的表情管理不过关,你也可以为 Ta 换上自信的笑容:

v2_be722a3f46d8472eb398ed7ce118b845@430412560_oswg568322oswg1080oswg909_img_000

顺便提一句,这张照片正是本篇论文的一作潘新钢,2021 年在香港中文大学多媒体实验室获得博士学位,师从汤晓鸥教授。目前是马克斯普朗克信息学研究所博士后,并将从 2023 年 6 月开始担任南洋理工大学计算机科学与工程学院 MMLab 的任助理教授。

这项工作旨在为 GAN 开发一种交互式的图像操作方法,用户只需要点击图像来定义一些对(操纵点,目标点),并驱动操纵点到达其对应的目标点。

这项研究基于 StyleGAN2,基本架构如下:

v2_d695777f2e05464eb4c577b89f879d3a@430412560_oswg553020oswg1080oswg849_img_000

在 StyleGAN2 架构中,一个 512 维的潜在代码𝒛∈N(0,𝑰)通过一个映射网络被映射到一个中间潜在代码𝒘∈R 512 中。𝒘的空间通常被称为 W。然后,𝒘被送到生成器𝐺,产生输出图像 I = 𝐺(𝒘)。在这个过程中,𝒘被复制了几次,并被送到发生器𝐺的不同层,以控制不同的属性水平。另外,也可以对不同层使用不同的𝒘,在这种情况下,输入将是

v2_8bcb6e1a3c2b440eabd19082caa540d5@430412560_oswg9697oswg904oswg154_img_000

,其中𝑙是层数。这种不太受约束的 W^+ 空间被证明是更有表现力的。由于生成器𝐺学习了从低维潜在空间到高维图像空间的映射,它可以被看作是对图像流形的建模。

实验

为了展示 DragGAN 在图像处理方面的强大能力,该研究展开了定性实验、定量实验和消融实验。实验结果表明 DragGAN 在图像处理和点跟踪任务中均优于已有方法。

定性评估

图 4 是本文方法和 UserControllableLT 之间的定性比较,展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点,实现了多样化和自然的操纵效果,如改变动物的姿势、汽车形状和景观布局。相比之下,UserControllableLT 不能忠实地将操纵点移动到目标点上,往往会导致图像中出现不想要的变化。

v2_bef7676e9ba0472382e24bd048e8b00c@430412560_oswg745116oswg1080oswg526_img_000

如图 10 所示,它也不能像本文方法那样保持未遮盖区域固定不变。

v2_00510887d455423c9bcea625bbc7c457@430412560_oswg1616386oswg1080oswg1083_img_000

图 6 提供了与 PIPs 和 RAFT 之间的比较,本文方法准确地跟踪了狮子鼻子上方的操纵点,从而成功地将它拖到了目标位置。

v2_13a8aeb554664daeb556e1354d5dfc4f@430412560_oswg1091240oswg1080oswg826_img_000

真实图像编辑。使用 GAN inversion 技术,将真实图像嵌入 StyleGAN 的潜空间,本文方法也可以用来操作真实图像。

图 5 显示了一个例子,将 PTI inversion 应用于真实图像,然后进行一系列的操作来编辑图像中人脸的姿势、头发、形状和表情:

v2_a23c3785fcaf4b2bb4a98d913185c88d@430412560_oswg293969oswg1080oswg207_img_000

图 13 展示了更多的真实图像编辑案例:

v2_bf25f4c009d547faab43dfbcb85e13fb@430412560_oswg862505oswg1080oswg590_img_000

定量评估

研究者在两种设置中下对该方法进行了定量评估,包括人脸标记点操作和成对图像重建。

人脸标记点操作。如表 1 所示,在不同的点数下,本文方法明显优于 UserControllableLT。特别是,本文方法保留了更好的图像质量,正如表中的 FID 得分所示。

v2_c5339adb80e94ee38cc98938df8fa547@430412560_oswg76696oswg1080oswg408_img_000

这种对比在图 7 中可以明显看出来,本文方法打开了嘴巴并调整下巴的形状以匹配目标脸,而 UserControllableLT 未能做到这一点。

v2_5d7dbb978b5c4ebaa877a0aa13e0a370@430412560_oswg1079591oswg1080oswg743_img_000

成对图像重建。如表 2 所示,本文方法在不同的目标类别中优于所有基线。

v2_232daa3ae5d54f728f8a8911a06db56d@430412560_oswg62272oswg1080oswg312_img_000

消融实验

研究者研究了在运动监督和点跟踪中使用某种特征的效果,并报告了使用不同特征的人脸标记点操作的性能(MD)。如表 3 所示,在运动监督和点跟踪中,StyleGAN 的第 6 个 block 之后的特征图表现最好,显示了分辨率和辨别力之间的最佳平衡。

v2_a21170eeb0cf491fb1dee60d527a9af4@430412560_oswg66511oswg1080oswg367_img_000

表 4 中提供了𝑟_1 的效果。可以看出,性能对𝑟_1 的选择不是很敏感,而𝑟_1=3 的性能略好。

v2_05698c667d2148e194a921735e618ae5@430412560_oswg21426oswg1080oswg284_img_000

讨论

掩码的影响。本文方法允许用户输入一个表示可移动区域的二进制掩码,图 8 展示了它的效果:

v2_93a82570d6d64262ae2db8307ded0711@430412560_oswg463756oswg1080oswg451_img_000

Out-of-distribution 操作。从图 9 可以看出,本文的方法具有一定的 out-of-distribution 能力,可以创造出训练图像分布之外的图像,例如一个极度张开的嘴和一个大的车轮。

v2_dfe5fea339d64508b39fd418fd1894d1@430412560_oswg512604oswg1080oswg374_img_000

研究者同样指出了本文方法现存的局限性:尽管有一些推断能力,其编辑质量仍然受到训练数据多样性的影响。如图 14(a)所示,创建一个偏离训练分布的人体姿势会导致伪影。此外,如图 14(b)和(c)所示,无纹理区域的操纵点有时会在追踪中出现更多的漂移。因此,研究者建议尽可能挑选纹理丰富的操纵点。

v2_80fac1927d1343adb01bcd26dd7e58fe@430412560_oswg279304oswg1080oswg257_img_000

AI+EDA:引领芯片设计新未来

本文来自微信公众号“机器之心”(ID:almosthuman2014),36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK