3

高分辨率图像合成训练工具 Latent Diffusion Models

 2 years ago
source link: https://www.oschina.net/p/latent-diffusion-models
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Latent Diffusion Models首页、文档和下载

潜在扩散模型 (LDM) 是一项高分辨率图像合成训练工具,它在图像修复和各种任务(包括无条件图像生成、语义场景合成和超分辨率)上实现了高度竞争的性能,同时与基于像素的 DM 相比显着降低了计算要求。

通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型 (DM) 在图像数据及其他数据上实现了最先进的合成结果。然而,由于这些扩散模型通常直接在像素空间中运行,强大的 DM 的优化通常会消耗数百个 GPU 天数,并且由于顺序评估,推理成本很高。为了在有限的计算资源上启用 DM 训练,同时保持它们的质量和灵活性,LDM 将模型应用在强大的预训练自编码器的潜在空间中。

在这种基础上训练扩散模型,首次允许在降低复杂性和保留细节之间达到近乎最佳的点,从而大大提高了视觉保真度。通过在模型架构中引入交叉注意力层,可将扩散模型转变为强大而灵活的生成器,用于一般条件输入(例如文本或边界框),并且以卷积方式进行高分辨率图像合成成为可能。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK