DALL-E官方论文代码终于放出，OpenAI是如何实现图像版GPT-3的？

OpenAI 放出 DALL-E 的部分论文与实现代码。

今年年初，OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 刷屏社区，这个大型模型可以将以自然语言形式表达的大量概念转换为合适的图像，效果十分惊艳。

如输入「牛油果形状的椅子」，就可以获得绿油油、形态各异的牛油果椅子图像。

FRnQvyB.png!mobile

如果 GPT-3 一样，大家都在期待 OpenAI 放出 DALL-E 的官方论文与实现代码。

经过近两个月的等待，DALL-E 的论文和代码终于新鲜出炉！

uIVVn23.png!mobile

不过此项目正在更新，截止发稿时 DALL-E 只开放了使用图像重建部分 d-VAE 训练的 CNN 编码器和解码器部分，而 Transformer 代码部分还没有公开。除此以外数据集也不能使用。而论文也是公布了 d-VAE 的论文。

e2EBJnI.png!mobile

项目地址：https://github.com/openai/DALL-E
论文地址：https://arxiv.org/abs/2102.12092

只能期待后续 OpenAI 公开更多的技术细节。

DALL-E 部分代码已开源

Yb2Izm7.png!mobile

这是为 DALL·E 所使用的 d-VAE 的官方 PyTorch 包。在运行 DALL-E/notebooks/usage.ipynb 程序之前，需要先安装软件包，代码如下：

pip install git+https://github.com/openai/DALL-E.git

N3AFZbY.png!mobile

解码器、编码器代码

d-VAE 论文

年初在论文还没有公开的情况下，就有人开始复现，他们复现的依据来自某博主制作的油管视频，在视频中，对 DALL·E 的原理结构进行了猜测。那么，现在论文已公开，是否颠覆了他的预想。

muYJJbu.png!mobile

传统上，文本到图像的生成主要集中在在固定的训练数据集上找到更好的建模假设。这些假设可能涉及复杂的体系架构、辅助损失或辅助信息，例如在训练期间提供的对象部件标签或分割掩码。该研究提出了一种基于 transformer 的简单方法，将文本和图像 token 作为单个数据流进行自回归建模。在足够的数据和扩展的情况下，当以 zero-shot 方式评估时，该研究提出的方法与以前的领域特定模型具有相当的竞争力。

Recommend

马斯克很着急：加速打造“月球电梯”，他要从NASA手中抢到这一单

Starship：跨 shell 的可定制的提示符 | Linux 中国

库克纪念乔布斯66岁生日：技术让人无限连接，是对他人生的最好证明

你还在玩狼人杀吗？

曝高通将联手台积电推4nm芯片！但骁龙895可能无缘新工艺

101项智能合约安全检查清单

滴滴回应系统崩溃：现已恢复正常订单差额部分将统一退还

叮当快药的“快”，美团买药的“轻”，都不及一个“对”？

中国to B故事：为什么渐次抛弃Salesforce？

长视频：单打独斗到抱团作战

About Joyk