2024-01-05 13:29

无界 AI 创始人长铗：无界在 AI 生态中的“光合作用”定位丨中国 AIGC 产业应用峰会

1 月 5 日，由杭州未来科技城管委会、余杭区科技局和余杭区企业（人才）综合服务中心联合指导，时戳科技主办，AI 新智界提供媒体特别支持的“智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会”在杭州正式开幕。

本次大会将深度聚焦 AIGC 应用，邀请到了全国各地近百家合作伙伴参会，以及来自产研、投资机构、高校、AIGC 创业者等众多行业精英和专家，共同分享过去一年 AIGC 应用进展，探讨未来发展趋势。

无界AI创始人长铗出席大会并做主题演讲：《光合作用：无界在 AI 生态中的定位》。他讲到，AIGC的过程特别像是光合作用，“光”是文本、语音、图像等外界的信息输入，“二氧化碳和水”是训练的数据集，“碳水化合物”是生成的图片。无界AI的定位是光合作用中的“叶绿体”，为生态伙伴赋能。

长铗表示，在过去一年，无界 AI 训练了大概1000万张图片素材，并且与国内50多所高校、博物馆建立了数据上的合作。近期，无界AI将陆续上线各大行业模型和国风、艺术插画、私人影像等模型，将自己的模型能力更好地输出给生态伙伴。未来一年，无界AI 还将在技术上进一步升级，加强对自然语言的支持，支持文字生成和书法生成等功能。

以下是AI新智界整理的演讲内容，为方便阅读进行了部分删减：

无界 AI 的定位

AIGC的过程特别像是光合作用，“光”是文本、语音、图像等外界的信息输入，“二氧化碳和水”是训练的数据集，“碳水化合物”是生成的图片。无界AI的定位相当于生态中的叶绿体，从宏观层面来说就是这个生态中的植物。生态中的动物是那些把我们模型能力应用得好，做出现象级、杀手级，或者国民级应用的生态合作伙伴。

定位有toB和toC之分。 toB是一个效率工具，能够节省时间；toC是一个情感陪伴，消磨时间。无界AI更偏向于toB，我非常相信将来生态伙伴能做出现象级的应用。当前，无界更希望将模型能力赋能生态合作伙伴，专注帮企业降本增效。

模型训练的两大流派

模型训练分为两个流派：参数派和像素派。

参数派，就是各种追求CLIP（生成图片与提示词的一致性）、FID（生成图片与训练素材的一致性）等这些可以用算法来评价的参数，通过优化参数实现霸榜。他们非常关注参数的规模，而忽视人类的审美，因为审美很难用算法来评价。无界属于像素派，也就是说我们更注重在像素层面的优化。我们非常关注人类审美的反馈，也就是社区用户的反馈。

说到像素派，我们就要提到 Midjourney，它的审美是一直在线的，它也属于像素派。我们和Midjourney有什么不一样呢？

模型规划不同

最大的区别就是我们在产品的模型规划上有很大不同。Midjourney本质上只有两个模型，一个是对应通用的方向的Midjourney模型；另外是对应二次元的方向的Niji模型。我们不太一样，我们把模型细分为汽车设计、产品设计、服装设计、建筑设计等不同的垂直领域，同时要做到美学上比Midjourney表现更好。

上图是无界AI与其他模型在生成效果上的评分示意图，如果SDXL是平均分70分的模型，Midjourney的得分是80分。我们对美学的要求更高，在细分赛道的模型要做到80分以上，才能达到模型上线的标准。

美学风格不同

无界 AI 与Midjourney 在理念上也不太一样。Midjourney有非常强烈的美学特征，下图中左边的图片很容易看出是Midjourney画的，它有很强烈的MJ艺术风格，个性化，具有辨识度。我们更强调的是模型艺术上的多样性，因为很难用单一的标准来评价美，所以我们尽可能还原美。

产品体验不同

如果把Midjourney比作米其林大厨，无界AI就是魔法师。米其林大厨把菜做到了90%，用户只需要简单的热一下，就可以直接享用。我们更希望用户自己成为魔法师，在不同的瓶瓶罐罐里添入不同的材料、不同的配方，调配出专属于自己的艺术风格。

易用性和灵活性不同

Midjourney的产品易用性更高，只需要简单的提示词就可以生成非常漂亮的图片。无界AI产品的灵活度更高，支持图片的后期处理。

我们在研发工艺美术模型时，和十几个高校和博物馆进行了学术上的交流。例如，在训练过程中，我们生成了一幅画珐琅鼻烟壶的图像，并向山东工艺美术学院韩明老师请教。他给出的指导意见是，胎底材料应为琉璃而非陶瓷，所以应该带有一点半透明的质感。我们迅速用工艺美术模型搭配玻璃质感的LoRA，将权重设为0.8，很快就调出了韩明老师描述的质感，这就是无界产品的灵活性体现。

灵活性和易用性是可以兼备的。虽然我们的用户一开始入手难度可能会比较高，但我们可以通过产品上的设计，比如工作流的机制，把所有参数设置都封装好。我这里要提前透露一下，我们将来可能会支持Midjourney controller的一些应用，也就是说用户可以直接在无界上使用MJ的模型，同时可以获得非常丰富的后期处理功能。

审美偏好不同

我们画一张穿着汉服的女孩图像，MJ V6的效果确实非常惊艳，但画出来是一个穿和服的女子，说明它可能不是特别懂中国的审美。右边是我用无界AI 的汉服模型画的汉服女孩，得到了理想的效果。我们是一个国内的团队，立足本土，所以在更懂中国的审美。

人类反馈不同

在人类反馈方面，Midjourney 就做了一个简单的处理，每生成4张图片，用户挑选最好的一张，这样也是帮它做了反馈。无界 AI 基于APP可以收集到非常多元的用户反馈数据，有点赞、收藏、同款、用户的调研等等。

版权逻辑的不同

产品理念的不一样，也会导致版权的逻辑不一样。根据 Midjourney的版权规定，免费的用户不可以商业使用，但付费用户可以获得商业使用授权。我们要注意到，这是一个商业使用的授权，不是版权著作权，也不是所有权。

无界AI很早之前就宣布，凡是用无界AI创作的图片，版权归创作者所有，这个理念是比较超前的。我们每一张作品都是上链存证的，而且和杭州互联网法院是打通的。当时存在较大争议，人们认为用提示词创作并不是原创。但现在已经有越来越多的案例显示，用户在创作图片的过程中有非常多智力的参与，应该尊重创作者的智力成果。比如前段时间互联网AI图片侵权第一案，北京互联网法院就支持了这样的观念。

无界 AI 模型训练成果

在过去一年，无界 AI 训练了大概1000万张图片素材。同时，我们还和国内50多所高校、博物馆都建立了数据上的合作。

我们来看一下无界 AI 训练的模型：

1.汉服模型。这也是我们第一个出圈的模型，右边这4张图是我们的用户结合水墨风格创作的一组汉服图片，参加了浙江省委宣传部举办的“梦溪杯”。

2.汽车设计模型。一言以蔽之，无论是100多年来汽车工业出现的所有汽车品牌和产品，还是现在的国产新势力最新的车型，我们的汽车设计模型都能画。即便是设计未来的概念车型，也不在话下。

3.工艺美术模型。这个模型我们是把市面上能收集到所有拥有数字博物馆资源都训练了一遍，相当于一个变化的国家版本馆。国家版本馆大家都知道，它有非常丰富的数字资源，但它的数字资源是一种静态的展示。当工艺美术模型训练过以后，它就变成了流动的资源或者变化的资源，用户可以非常方便地使用提示词实现不同博物馆馆藏之间的联名，把它们的风格结合起来。