3

Stable Diffusion火到被艺术家集体举报,网友科普背后机制被LeCun点赞

 1 year ago
source link: https://www.qbitai.com/2022/09/37556.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Stable Diffusion火到被艺术家集体举报,网友科普背后机制被LeCun点赞

head.jpg白交 2022-09-05 14:05:38 来源:量子位

又是扩散模型

白交 发自 凹非寺

量子位 | 公众号 QbitAI

免费开源的Stable Diffusion太火了!

有人拿它来做视频短片,几分钟内穿越时间看遍地球万物的演变。

,时长02:19

还有人拿它来制作守望先锋里的英雄。

d0fee2feb5f84524acdfbc866f0abbc3~tplv-tt-shrink:640:0.image

甚至因为使用过于泛滥,牵涉到艺术版权的问题,一群艺术家们还吵了起来,并把一个非官方账号举报到封号。

a52ee173335349f9821004686b1437b9~tplv-tt-shrink:640:0.image

这背后究竟是如何运作的,才能形成如此惊人的反响?

这几天,有位小哥分享了Stable Diffusion工作机制的线程,还被LeCun点了赞。

31a317ecdf1944cb9e8e66cc90f07363~tplv-tt-shrink:640:0.image

来看看究竟说了啥。

又是扩散模型

首先,从名字Stable Diffusion就可以看出,这个主要采用的扩散模型(Diffusion Model)

简单来说,扩散模型就是去噪自编码器的连续应用,逐步生成图像的过程。

12738018d9a54275855cdf1986e377a3~tplv-tt-shrink:640:0.image

一般所言的扩散,是反复在图像中添加小的、随机的噪声。而扩散模型则与这个过程相反——将噪声生成高清图像。训练的神经网络通常为U-net。

18a92b90663e40b2afde41ad9d52a86e~tplv-tt-shrink:640:0.image

不过因为模型是直接在像素空间运行,导致扩散模型的训练、计算成本十分昂贵。

基于这样的背景下,Stable Diffusion主要分两步进行。

381cd9d2095342a18e17311a4f6b446f~tplv-tt-shrink:640:0.image

首先,使用编码器将图像x压缩为较低维的潜在空间表示z(x)。

其中上下文(Context)y,即输入的文本提示,用来指导x的去噪。

c5ecadc1d5fd497787000fc118b0de52~tplv-tt-shrink:640:0.image

它与时间步长t一起,以简单连接和交叉两种方式,注入到潜在空间表示中去。

随后在z(x)基础上进行扩散与去噪。换言之, 就是模型并不直接在图像上进行计算,从而减少了训练时间、效果更好。

值得一提的是,Stable DIffusion的上下文机制非常灵活,y不光可以是图像标签,就是蒙版图像、场景分割、空间布局,也能够相应完成。

a026d166ceb643cb85a15aaf5fdf1b04~tplv-tt-shrink:640:0.image
babf550e86f748bb8a176cf61424d224~tplv-tt-shrink:640:0.image

霸占GitHub热榜第一

这个平台一开源,就始终霸占GitHub热榜第一,目前已累计2.9k星。

b39f48909e3c4b6e9162cc280207edda~tplv-tt-shrink:640:0.image

它是由慕尼黑大学机器视觉与学习研究小组和Runway的研究人员,基于CVPR2022的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》,并与其他社区团队合作开发的一款开源模型。

d8b4b4917b684f1497e02a8fecd65d36~tplv-tt-shrink:640:0.image

据官方介绍,它能在几秒内在消费级CPU上运行创作,也无需进行任何预处理和后处理。

核心数据集是LAION-5B的一个子集,它是专为基于CLIP的新模型而创建。

同时,它也是首个在4000个A100 Ezra-1 AI超大集群上进行训练的文本转图像模型。

不管怎么说,在文本生成图像这一趴,又多了一位实力强劲的明星了。(狗头)

GitHub链接:
https://github.com/CompVis/latent-diffusion
参考链接:
[1]https://twitter.com/ai__pub/status/1561362542487695360
[2]https://stability.ai/blog/stable-diffusion-announcement
[3]https://arxiv.org/abs/2112.10752

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK