7

图像版GPT3问世,一句话就能变成图!打破语言与视觉界线,AI将更加聪明

 3 years ago
source link: http://www.mittrchina.com/news/5993
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

继 OpenAI 推出史上最强语言模型 GPT-3 后,这家旧金山 AI 研究公司又有新动作。

这次,他们一连推出两款强大的多模态模型 CLIP 和 DALL・E,CLIP 可以对图像进行理解、归类,而 DALL・E 则可以直接借助文本生成图像,简直就是 “图像版 GPT-3”。

OpenAI 在官博中介绍,DALL・E 是 GPT-3 的 120 亿参数版本,如此庞大的数据集,足以让它发挥 “想象力” 创造出那些不同寻常的图像。

你只用简单描述一下想要的图像特征,比如 “一个高质量的龟兔插图” “一只模仿乌龟的兔子” “一只乌龟做成的兔子”,DALL・E 就可以生成以下图像,堪称帮助设计师 “开脑洞” 的神器。

fi6zYr6.gif!mobile

图|DALL・E 生成的 “乌龟 - 熊猫” 图和 “乌龟 - 兔子” 图

该模型一经发表,再次引燃 AI 圈。人工智能和机器学习领域的国际权威学者吴恩达,就用 DALL・E 模型生成了多张蓝色衬衫搭配黑色长裤的图像,并发推文对 OpenAI 表示祝贺,他认为这个成果很酷。

7Zj6Jn.jpg!mobile

图|吴恩达的推文

佐治亚理工学院(Georgia Institute of Technology)研究 NLP 和计算创造力的马克・里德尔(Mark Riedl)说,“文本 - 图像转换一直是一项研究挑战,尽管已经存在一段时间了,但这组示例令人印象深刻。”

OpenAI 首席科学家伊利亚・萨茨克维尔(Ilya Sutskever)表示,“我们生活在一个视觉世界中。从长远来看,你将拥有既能理解文本又能理解图像的模型。”“人工智能将能够更好地理解语言,因为它可以理解单词和句子的意思。”

DALL・E 和 CLIP 让 AI 更好的与现实连接

基于 GPT-3,OpenAI 展示了一个强大的自然语言处理模型,拥有 1750 亿超大参数的 GPT-3 让网友 “玩开了花”,不仅可以写文章,还能写诗、写歌、写菜谱,凭借惊人的文本生成能力,一直保持着超高热度。

尽管 GPT-3 很强大,但它的输出却让人有种与现实脱节的感觉,好像它根本不知道自己在说什么,这一点人们也经常拿来调侃。

如今,OpenAI 和其他机构的研究人员,正试图通过将文本根植于图像中,让语言模型用人类理解事物概念的方式来训练。他们将这些想法结合在一起,建立了两个新模型,分别名为 DALL・E 和 CLIP ,将语言和图像结合在一起,使人工智能更好地理解词汇及其所代表的含义。

如果说 GPT-3 能模拟人类如何使用词汇,DALL・E 则能够预见我们所看到的,就仿佛它拥有了想象力。

如果让你想象一个牛油果形状的扶手椅,你会和它 “想” 的一样吗?如下图,它生成的这些扶手椅设计已经十分贴近现实了,如果再让它生成一款牛油果咖啡桌呢?这充满现代感的设计似乎真的可以为设计师提供启发。

BRnE7rI.gif!mobile

图|DALL・E 生成的牛油果形状扶手椅以及咖啡桌

参与 DALL・E 工作的阿迪亚・拉梅什(Aditya Ramesh)表示,“最让我惊讶的是,这个模型可以把两个不相关的概念联系在一起,并赋予其功能。” 他认为牛油果与扶手椅的融合最为自然,“可能是因为牛油果被切一半,看起来有点像高背扶手椅,而果核恰好可以充当靠垫。”

就像 GPT-3 一样,DALL・E 同样是基于一个仅有解码器的 Transformer 架构,包含 1280 个文本和图像 token(文本占 256 个,图像占 1024 个),可以同时接收文本和图像作为单一数据流,并使用最大似然进行训练,一个接一个地生成所有 token。

它的 64 个自注意力层(self-attention)中的每一个都具有注意力 mask(掩盖词、掩膜),使每个图像 token 都可以匹配文本 token。DALL・E 对文本 token 使用标准的因果 mask,以行、列或卷积注意模式对图像 token 使用稀疏注意,具体取决于层数。

OpenAI 团队在其博客文章中称展示的结果并不是人工挑选的,而是通过另一款模型 CLIP 进行排序的,CLIP 会选出它认为最符合描述的 32 张图像。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

如下图所示,使用 CLIP 对 DALL・E 中的样本进行重新排序,可以大大提高样本的一致性和质量。

imyYFjY.jpg!mobile

图|CLIP 可以对 DALL・E 中的样本进行重新排序

据悉,OpenAI 计划在下一篇论文中提供有关 DALL・E 架构和训练过程的详细信息。

DALL・E 和 CLIP 是从两个不同的方向来解决这个问题的。CLIP 是对搜集到的图片进行理解、分类,而 DALL・E 是根据文本生成图片,两个模型可以理解为互为逆过程。

2yQFJz2.jpg!mobile

图|CLIP 的预训练过程

据了解,OpenAI 用高达 4 亿的数据集来训练 CLIP,它可以在各种各样的图像上进行训练,主打零样本学习,攻克了计算机视觉领域中数据集昂贵和狭窄的问题。

将语言建立在视觉理解上是让 AI 更加聪明的好方法

OpenAI 这次推出的多模态模型成果惊人,但仍然不尽完美。比如 DALL・E 根据 “画着蓝色草莓的彩色玻璃窗” 这一文本创建的图像就有些让人迷惑,不仅掺杂着红色草莓,而且有些图像抽象到看不出是窗户或者草莓。

jMnMzav.jpg!mobile

图|DALL・E 根据 “画着蓝色草莓的彩色玻璃窗” 这一文本创建的图像

再比如,OpenAI 工作人员 Aditya 认为以 “竖琴做成的蜗牛” 为文本生成的图像就很别扭,图像中蜗牛和竖琴以奇怪的方式结合在一起。

I3AJjmy.jpg!mobile

图|DALL・E 生成的 “竖琴制成的蜗牛”

艾伦人工智能研究所的阿尼・肯布哈维(Ani Kembhavi)说:“这个模型能从相当异想天开的文本中生成合成图像,这在我看来非常有趣。” 他的同事 Jaemin Cho 也对此印象深刻,“现有的文本 - 图像生成器还没有显示出绘制多个对象的控制水平,也没有 DALL・E 的空间推理能力,” 他说。

佐治亚理工学院从事自然语言处理和计算创造力的 马克・里德尔(Mark Riedl )则大胆质疑该模型生成的卡通图像,“我对萝卜的例子有点怀疑,从风格上看,它可能记住了一些来自互联网的艺术作品。DALL・E 所基于的 GPT-3 在记忆方面可是出了名的。” 他说。

IjYR7rn.jpg!mobile

图|DALL・E 根据 “穿着芭蕾舞短裙遛狗的小白萝卜” 这一文本生成的图像

尽管如此,大部分 AI 研究人员仍然认为,将语言建立在视觉理解上是让 AI 更加聪明的好方法。

“未来的系统将由这样的模型组成,它们都是朝着那个系统迈进的一步。”OpenAI 首席科学家 Ilya Sutskever 说。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK