0

亚马逊张孝峰:游戏业的AIGC工业化,每家公司都该有可控生产线!

 11 months ago
source link: http://www.gamelook.com.cn/2023/05/518289
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

亚马逊张孝峰:游戏业的AIGC工业化,每家公司都该有可控生产线!

2023-05-18 • 人物观点活动

每一家游戏公司都应该有可控的生产线。

Amazon-Game-Tech-Day-2023_AIGC-00.jpg

【GameLook专稿,未经授权不得转载!】

GameLook报道/5月16日,2023亚马逊云科技游戏开发者大会以线上形式召开。大会设“构建”、“运行”、“增长”三大分论坛,并邀请来自完美世界、37手游、柳叶刀工作室、Mattel 163等多家游戏公司技术大佬作为嘉宾,分享对前沿技术的把握、对热点话题的探讨,以及对行业趋势的洞察等。

lazy.png

在首日的“构建”分论坛上,亚马逊云科技首席游戏解决方案架构师张孝峰带来了《AIGC与游戏工业化》的分享。张孝峰认为,AIGC必须做到可控、高精度、一致性、易用的、批量的、自动化、没有版权风险,才能为游戏工业化搭建可用、好用、敢用的生产线。

在他看来,今天已经有大量非常成熟且开源的生成式网络模型,无论是程序员还是画师,都应当关注AI,因为AI即将改变我们的一切。

lazy.png

以下为分享实录:

大家好我是张孝峰,今天我们讲一下AIGC。AIGC在中国开发者中间讲得比较多,全球开发者可能会称呼“生成式的网络”,无论哪一种都是一样的内容。前面的演讲提到中国游戏产业正处于承压蓄力阶段,2022年销售收入和用户规模近八年来出现首次下降,所以需要在未来的游戏发展中,做到“质与量并齐,以质的提升为优先”。

但我们知道,发展一个行业是不可能同时做到“要好”、“要快”、“要便宜”,这是一个“不可能三角”。

其实在游戏行业里也没有那么缺工业化,中国开发者以前就做过大量的铺量的游戏,其实某种程度上也是工业化,可能是缺乏创意的工业化,但是能赚到很多钱,那时会有一些质量较低的游戏。

但现在游戏开发者如米哈游,他们创造了风靡全球、代表中国文化的游戏,这些游戏经过长时间、高成本的3A式开发和精雕细琢。

怎么同时做到“要好要快要便宜”?我们认为生成式AI带来了工业革命级别的能力。可以想象18世纪第一工业革命发起就是因为蒸汽机的产生,让人类的开发能力有了质的提升,如今在游戏行业我们也面对同样的时机。

lazy.png

在AIGC的主流场景中,我们希望AI可以做很多事,像文字、视频,实际上最成熟的方向还是图片。同时图片方向对游戏工业而言也是最重要的,因为在一个正常的游戏公司尤其是产出相对高质量的游戏公司中,美术人员比例可以占到三分之二甚至更多,而且在游戏的中后期占比会更大。

lazy.png
lazy.png

所以如果能提高美术人员的开发效率,就能大大增加游戏的整体开发效率,且没有牺牲质量为前提。

我们都知道AIGC很好用、可以用,那应该怎么选择AIGC工具?实际上到了2023年,可以用于绘画的AI模型非常多,如早在2014年就有对抗网络的GAN模型,做一些图像转变,但是没有创造能力。但OpenAi发布了DALL-E模型,用Transformer网络中的attention模块做到了基于图片的深度学习,也开创了生成式网络的方向。

lazy.png

今天我们已经拥有了非常成熟的、公开开源的生成式网络模型Stable Diffusion。Stability.ai这家公司和很多AI公司一样,他们认为AI应该平民化,有着“AI by the people, for the people”这样的口号。

疑问一:游戏公司需不需要训练自己的模型

因为Stability.ai非常好地做了开源,让所有的游戏开发者可以很方便地用到Stable Diffusion模型,所以我们第一个疑问就是:游戏公司需不需要自己从头训练模型?相信很多开发者已经有自己的答案,我们不需要自己训练模型。

这张图片是Stability.ai的CEO在亚马逊云科技去年大会上的演讲,他们在亚马逊云科技上用了4000张A100 GPU,才训练出SD 2.0模型。模型训练后运用,无论是预测、微调,都可以在单张的GPU上运行,真正做到了AI的民主化。

有了AI民主化之后,就产生了非常好的社区效应,现在生成式AI图片并不是Stability.ai一家公司在贡献,实际上很多的开发者都在其中。比如分享站点huggingface.co,以及非常适合美术人员排版和搜索风格的C站Civtai.com,让大家挑选一些非常精美的模型。

lazy.png

实际上在Stability.ai模型应用上创造了很多工具,让模型应用更加好用。比如非常著名的AUTOMATIC111开发者开发的webUI,包括ControlNet、Lora的训练,还有可以把图片无限扩张的openOutpaint项目,都是开源界免费给大家提供。会有机的形成一个整体,帮助我们做完图片生成的整个过程。

疑问二:游戏公司只需要懂Prompts就能用好AIGC?

第二个疑问是,很多人接触AIGC或者图片、文字生图时,他们都会说“我们只需要懂那些图片的咒语就可以了”。现在无论在一些网站像小红书上,甚至在一些二手售卖网站上,他们都会给大家售卖这样的“咒语”。

“咒语”的确很重要,但它是不是就是全部?实际上并不是,因为我们即使掌握了某一个咒语,要去生成某一张好看的图片时,可能也是抽盲盒的状态,这也是AIGC领域最多人提到的一点。但我们要做到游戏工业化,绝不能只抽盲盒。

要做到工业化,就要做到生图是可控的、高精度的、一致性的。

lazy.png

训练自己的模型保证一致性

怎么去做到一致性?其中一种方法可以去训练自己的模型。比如说一家成熟的游戏公司,有自己的IP或者购买了一些成熟的IP,就需要通过微调模型把IP给固定下来,让生成的图片跟IP一致。其实像Dreambooth、Texttual Inversion或者Lora各种方式可以去微调模型,它们的大小可能会各不一样,但都是可以用的方法,现在更多的人会使用Lora。这样的方法可以让保证产生一致性的、符合游戏IP的结果。

lazy.png

我们来看一下这样的一个例子,出于版权问题我用了一个开源例子,这个例子里左手边是维基百科的的吉祥物“维基娘”,它是一个完全开源状态下面的动画人物,所以我可以安全的把它拿下来做训练。我把“维基娘”训练成Lora后,可以搭配不同的模型,生成3张,甚至30张、3000张不同的图片。清新的风格、暗黑的风格,甚至是汉服的风格,可以让我们的IP在不同的游戏,不同的动漫里面去做展现。

lazy.png

另外一个大家比较熟悉的项目是在ControlNet里面的OpenPose,可以看到当我们给出这样的一张OpenPose的图片时,生成的图片人物就全部会摆出这样的姿势。当然了,在调整不同的权重的情况下,这个姿势或多或少会有点小变化,但也是非常合理的姿势。

lazy.png

这里面也会有一个实际的应用,这是亚马逊云科技的架构师发表的一篇文章,他帮助他的电商客户,把这个OpenPose跟电商服装去结合,直接一键生成电商服装模特的照片。这个模特不是真人,但是做出来的效果跟真人一致。而且她穿衣的位置非常精准,所以这是OpenPose的实际应用。

lazy.png

还有一个应用例子是ControlNet有个Canny边缘检测功能,比如说这是我原来生成的一张AIGC的图,我通过Canny处理之后,它可以变成一个线稿,这个线稿搭配上不同的这样的关键字,就可以生成很相似,但是完全不同风格的这张图。特别说一下下面的一些关键字,其实也是ChatGPT帮我生成的。

线稿生图这样的一个应用,也有个非常实际的场景。左手边这张线稿其实是一个美工大佬给到我的,他给我出了一个题目,说你给我去做这样一个事,为什么他要做这个事呢?左手这张线稿他们是真人美术工作者画出来的画,可能占了他整体美术工作里面20%的时间,但是他要变成右手边的这一系列图,可能他们会在里面挑一张,才能够真正完成工作,而右手边工作实际上占了他们60%-80%的时间。

lazy.png

所以如果能够一键从线稿生成图片,对于他们的整个工作流的会有巨大的价值,而我花了十几分钟就能做出线稿生图。这是另外一张的图片,是一个南瓜头海盗的形象,它也是做出来效果非常好。

lazy.png

在整个AIGC的开源领域,其实有很多的开源开发者参与其中。所以他们的开发是非常激烈的,就在我写这个PPT的过程中他们就更新了。在4月24号ControlNet更新到了1.1版本,新增了lineArt模型,lineArt实际上是更适合线稿生图的模型,我现在还没有做详细的测试,回头跟大家一起去分享这里面的一些我的测试心得。

高精度带来可用的美术工具

还有一个方向是要做高精度。我们知道,如果大家玩过AIGC的话,比如说在Stable Diffusion里,其实很难做出比512×512大很多的图,通常最多到1024的程度。因为Stable Diffusion 1.5是在512×512的参数下面做训练的,强行把它拉大,很可能会生成两个人物,并不好看。

所以我们通常都会去做一个UpScale的动作,UpScale跟传统的直接把图片做一个二次平方放大是不一样的,它实际上也先做了一次的放大,但放大以后会分块。比如说要放大到3倍、4倍,那就可能会切成8块、10块、12块,然后在每一块里面用原来的关键字、原来的模型去做局部的重新绘画。

lazy.png

在这张图里,如果大家下载到完整的PPT,可以仔细去看一下左手边直接放大以后,眼睛旁边好像有一些小小的暗影,也看不出来什么,在右边AI重绘的时候,他就会把这一部分变成了一个在眼白里正常的血丝,这样就会特别有质感。所以它这个放大是AI想象过的放大,能够保证质量。

实际上,这个Denoising的参数可以保证放大的时候跟原图的相似度。比如说这个案例里去做放大的时候,我就刻意把Denoising调更高一点,其实我也忘了是0.25还是0.35,但是它就会让两个眼睛会略有不同,他们有点像,但又略有不同。

lazy.png

这样的情况下也可以让图片有另外的一些修改,比如说原来不笑的图片可能变得带一点微笑,所以UpScale也是我们很好用的一个功能。如果做到了可控高精度的UpScale,再做到这样的一致性的控制,实际上这样的一个美术工具就是一个可用的工具,它不是一个玩具,它真真正正是一个美术工业化里面可以用到的工具。

疑问三:SaaS服务又如何?

还有一些同学可能会问,实际上现在有很多很成熟的AIGC的SaaS服务,我直接用他们可不可以?的确可以,因为你要去用一个SaaS服务的时候,你的门槛可能是很低的,它很容易上手,网上有非常丰富的教程。而且出图的基本质量是有保证的,因为他们是一家商业公司,他们会希望用户留在这。所以他们基本上隔离了一些不好看的出图,保证相对的质量,所以新手可以用它来入门。

每一家游戏公司都应该有可控的生产线

但是如果你真的把它用在商业生产上,你会发现他没办法做一些模型的微调,或者说它微调的这个模型不属于你,而属于他们的商业公司。然后他也没办法去做一些精确的控制生图的方向,我看到有一些SaaS工具已经有方这个方向尝试了,但是跟开源界还是差很远。最重要的一点,可能它的版权是成疑的,这个我们后面再去讨论。

所以一般不建议直接把个SaaS服务用于生产,可能会有各种的问题。我们认为每一家成熟的游戏公司,都应该要有一条自主可控的AIGC生产线。

lazy.png

那怎么去做到呢?就是通过Stable Diffusion搭建一个生产线。刚刚开始的时候门槛可能会比较高一点、上手可能会难一点、可能需要有硬件,无论是自买显卡,还是要去在云计算上面去租用硬件。

lazy.png

刚开始甚至生出来的图都挺难看的,因为你没有很好的模型,没有很好的调配,大部分人刚刚使用Stable Diffusion的时候,会觉得那个图没有一些SaaS服务的的好看。但是它整个社区是激烈开发的,而且氛围非常好,所以很容易能够找到别人已经做好的一些模型,然后再加上你们公司自己的游戏IP,就可以控制出很精美的图,更符合商业需要,而且版权可控,但这里面需要怎么去控制版权,我们后面也会聊到。

如果要去搭一个Stable Diffusion,肯定绕不开的就是webUI。webUI就是一个界面,我相信如果玩过Stable Diffusion的同学都会非常熟悉这个界面,它的确很好用,功能非常的丰富,但是不是仅用webUI就可以用好AIGC?

借助API实现批量和自动化

其实并不是,在一些传统的SaaS服务里,我们可以看到他们其实是webUI的简化,尤其是大家比较熟悉的M字头就是一个极致的简化,你只需要给他一个Prompts,它所有的一些小小的仅有的一些控制的部分,都直接放在Prompts里、它的咒语里面就可以做到。所以对于很多美术同学来说,就是需要一个这么简洁的生产力的工具。所以我们要做到游戏美术的工业化时,不仅仅要做到可用,还要做好它的易用性。

易用性除了在使用界面上的易用性,还有一个在工业化实际场景里面要做到的批量和自动化。

什么叫批量和自动化?举一个例子,已经开始使用游戏美术工业化的公司常做的一个场景,会有一个主美术,主美术会去控制整体的这美术风格,比如说他把Prompts做好了、把ControlNet做好了,然后这一部分数据会做一定的排列组合,比如Prompts加这个会不会好一点?ControlNet这么摆会不会好一点?

lazy.png

排列组合之后送到后台一个批量生成的模块,这个模块可能不占用美术人员平时自己使用的机器。然后会大量生成图片,甚至一晚上生成上千张图片,发给他的一些小美工去快速挑选图片。比如说一晚上生成上千张,美工第二天早上上班就可以去拿到上千张图片去做分类,哪些是好的,哪些不好的。好的就拿回去做精细加工,因为刚才我们说到的像放大或者甚至一些修改啊,其实都是非常耗费资源的,没必要把每张图片都放大,所以我们就会挑选好的图片再拿去放大。

这个情况下,好的这些排列组合也可以学习,甚至加上机器学习的部分,帮助我们去改善生成参数。

在游戏工业化的其他批量流程里也可以举出一两个例子,比如说批量的模型训练。游戏角色IP其实在一个公司里面可以很多,比如说一家三国志游戏的公司可能有数百名武将需要做训练,训练过程中可能也会产生各种的不同的训练结果。因为在传统的训练里,通常都会把训练做到比如说几千步到1万步的过程,通常1000到2000步会保存一个中间结果,因为我们知道到后面很可能会过饱和,效果可能会更差。这样的情况下也是一个排列组合,一次训练出10个、20个模型出来,然后用相同的咒语去生图,就知道哪一个模型是好的,再投入生产使用。

比如说刚才提到的电商场景,如果已经把ControlNet控制的非常好了,剩下来的就是要拍摄真实的衣服,就可以做一个固定的衣服的架子,只要挂上去按照布光、机位拍摄,就可以批量、自动化生成大量模特穿着衣服的照片。所以,这个批量的场景实际上非常多的。

那我们怎么去做到批量?这个也非常简单。因为首先Stable Diffusion的webUI完整的提供了API功能,如果大家手头已经搭好了一个webUI,可以访问它的/DOS目录,这个界面是在整个Stable Diffusion里面完全可以用到的每一项的API,甚至增加一个插件,比如说我们刚才说的ControlNet更新了到1.1,这个API也会随之更新。所以可以用程序化的方式去调用在webUI上看到的所有的东西。

lazy.png

用无服务器架构部署模型

第二点它还有一个开源项目,可以把整个Stable Diffusion的web UI打包成一个Docker,这个Docker里面你就可以把你训练好、从C站上下载的模型,或者你训练好的Lora各种的Extensions塞到这个镜像里,然后推送到我们的推理集群里。

所以在一个完整的AIGC的工业化生产领域里,可能会有这样的一个物理部署,从中间的橙色的部分去打包一个Docker镜像,这个打包能力它可能会跟C站有关联,你只要给出一个C站的对应的URL,它就会帮你下载模型,然后打包到镜像里,再推送搭建到推理集群。

这是一个庞大的弹性推理集群,只要提供相应的生成参数,就可以自动去调用API。对于普通的美工来说它可能就是一个按钮,当然需要公司的开发人员去做一定的开发。但是我相信,所有的开发人员看到刚才那个API之后,都觉得非常好开发。

这就完成了生图的过程。同样训练也一样,我们可以从对象存储里去拉取训练集图片,训练集群可以做各种模型的部署,同时也会调推理集群,生成模型的鉴定图片。最后选定的模型也会推到打包,可以选择合适的模型进行打包搭建推理集群,这就是完整的一个物理部署。实际上已经有相当多的开发者或者游戏的公司已经开始做,并且有不少的已经做出来了。

lazy.png

这是我们中国客户的一个实际案例,实际上把一个AIGC的工业化推到了他们的最终客户上,是一个真实的APP,可以帮助他的客户生成高质量的手机壁纸。手机壁纸首先有相当的分辨率,而且适配手机,肯定不是512×512,所以他们在里面其实做了好几步的动作。并且他也保证客户输出一些关键字的情况生出来的图是好看的,并且没有不符合法律的一些图片。

lazy.png

所以它整体把这个过程已经打包到非常好,好到可以让他们的最终用户,就是普通的受众可以直接使用,更别说他们内部的美工人员。这套工具完全搭建在亚马逊云科技上,他们用到了比如Sagemaker推理、Prompts输入的机器,在前端用到了Lambda,包括我们的S3对象存储,所以它是完全可以通过Serverless的架构去部署模型。

lazy.png

疑问四:AI时代,如何保护知识产权?

刚才讲到怎么去用模型,前面也透露了我们会讲到知识产权问题,为什么要讲知识产权?我们做到可控、高精度、一致性、易用、批量自动化,就是一个好用又可用的美术工业化以后,还要想用的时候有没有版权风险?相信大家都有去研究版权问题,最近在互联网的讨论也非常多。

lazy.png

版权保护仍有空白

讲版权问题还是绕不开SaaS。大家比较熟悉的Midjourney在用户手册里提到,他们的图片能不能用于商业用途,免费账号不允许商用,因为它是符合个人创作协议的。如果是付费账号可以商用,但是商用的同时Midjourney共享这张生成图片的版权。所以你们俩共有版权,但是他允许你商用。如果你是年总收入超过100万美元的公司,就必须买Pro的会员才可以视为合法商用。

这个也不是很多钱,几百块美金一个月的样子,但这一个声明仅仅是Midjourney自己的声明,是属于“我公司让不让你做的”的事。

在真实的环境里面又会怎么样呢?这是一本美国的漫画书,它是由美国的艺术家卡什塔诺娃生成的,这本漫画书有部分的图像是卡斯塔诺娃在Midjourney上生成的。然后卡什塔诺娃把这本书拿去了美国版权局进行注册登记,最初美国版权局也觉得这是一本正常的书,进行了版权登记,但是卡什塔诺娃她也是一个社交媒体上的大V,她把这件事发布到自己的社交媒体上。这件事情在美国社交媒体上火了。火了之后,美国版权局也注意到,于是他们重新审核,最终在2月21号给卡什塔诺娃发了一封信,信中说到他们要驳回版权申请,解释是他们的版权法是仅仅为了保护人类作者身份的作品。在2023年的3月16号,版权局发布了版权登记指南,专门针对人工智能的生成材料的作品做了解释。

lazy.png
lazy.png

指南里明确说,如果你的作品完全是机器人自动完成的,并且这个机器人的训练数据是基于人类的共同创作的作品,比如说像Stable Diffusion就是在60亿幅人类作品里创造出来的,那这样的作品就不受版权保护,至少在美国不受保护。

现在的Photoshop其实里面也会有非常多的AI的功能,实际上它也是一个AI辅助,但是这种辅助功能在美国版权局认为是可以受到版权保护的。

生成参数是AI时代的原画

这里面就留下了很多空间。首先第一点,美国版权局并不是一家立法机构,它其实是一个行政机构,隶属美国国家图书馆。但是在美国这样的一个海洋法系国家里,大家去打版权官司都会以美国版权局的注册为准,所以他就有行政权。这样的一个解释仅仅也是在版权局范围内的一个解释,理论上来说,他也不说你这个东西在法律上违法的。所以在绝大部分的地方其实美国虽然已经走的比较前了,但它的立法并不完善,在并不完善的情况下,就像可口可乐他们也没有申请专利,但是他们保护的很好,那因为他们保护了自己的商业秘密。

所以在立法不完善的情况下,商业秘密可能变成了我们在AIGC工业化里面更好的一个过程。这个商业秘密包括了很多的方向。比如图片制备流程可能会像这张片子里面讲到的,先有自由的训练集的数据,然后通过自由训练机的数据去微调,微调好模型,比如生成了一个Lora,然后主美可能会根据Prompts、ControlNet、Lora去调用大模型生成一张AIGC图片,这个图片出来以后,我们可能还会去做人工修正,这个是很多游戏公司常做的事,这里面有一个我们前面没提到的内容,就是生成参数。

lazy.png

生成参数实际上是在AIGC的领域里面特有的,如果在webUI生成图片,其实它会默认,除非主动关掉,会在它的Metadata里面默认带上生成参数,只要你把这张图片拖回到那个png info的插件里,就可以完整的看到生成参数。

这个生成参数非常非常重要,如果使用完全相同的生成参数,你可以生成一张完全一致的图片。从数学上它可能不是完全一致,里面还是有些学习度,但肉眼上它就是完全一致的。对这张图片做局部的修改放大,也需要有这个生成参数才能够保证完全无损。刚才说到它放大其实是一个重绘,重绘的时候需要有相同的模型、相同的Lora、相同的一些参数,才能够保证重绘的时候不会把一些颜色变掉。

lazy.png

所以生成参数本身就是一个AI时代的原画。很多的呼声都会说,生成参数本身就应该被版权保护,它保护的可能不是那张图片,但是它保护的是这个AI时代的原画。

lazy.png

其实在很多中国范围内的图片版权官司也是一样的,要证明某一个游戏用到的图片跟我游戏的图片很相像,这个很容易证证的,但AI时代你怎么证明你拥有的这张图片是你的?这就需要在公证处公证,我可以一键简单完整固定的生成同一张图片。这种情况下,你就可以证明这张图片就是你生成的,所以这个就是AI时代的原画。

所以在在AI时代,我们对整个商业秘密的保护就会有完全不同的一些方案。

比如自由训练集可能是美工画的,比如线稿、IP,主美的Prompts、ControlNet,其实也是他自己创造的东西,那我们可以通过传统的方式,比如说通过源代码管理、图片管理、网盘的形式去把它通过权限的方式保存起来。而生成出来的AIGC的图片本身我们假设先不用去理,但是人工修正的图片肯定是公司的财产,可能要在里面做通道图、做各种的贴图,也是传统的方法。

但在现代的方法里,我们需要一个自动化的工业系统,它除了批量生成图片以外,需要把这个生成参数——这个AI时代的原图给截留下来,保存在工业化的系统里,不被任何人获取。但是它又要非常精确的保存,比如我们的生成的图片如果人工修正的时候,可能也要依赖AI工具,这个时候我们就会把图片扔回来,通过相同的ID能够找回原来的生成参数,就能够对这个图片进行再次的处理或者再次的生成。

lazy.png

所以,我们需要一个现代化的自动化工业系统,把AIGC模型管好,并不是一个仅仅的开源的webUI就能够做到的事。只要我们做到了这样的工业化,它是可控、高精度、一致性、易用的、批量的、自动化、没有版权风险的,它就是一个可用、好用、敢用的工业化的生产线,可以大大提升游戏的开发效率。

lazy.png

疑问五:如何开始?

怎么开始这样的一个生产线呢?

不要觉得远,去学习、去使用

首先第一点,这个东西真的非常新,包括我本人在内研究可能就两三个月间,但是我们已经能看到很多成果。因为今天AIGC真的是程序员的工具,里面有很多的东西对程序员非常友好,所以如果你是一个代码开发者,你对你自己的美术画画的能力不那么自信,你也可以把它用起来。

实际上整个AIGC的开源里,日本的程序员的贡献特别大,真的应了米哈游那句口号“技术宅改变世界”。他们可能对日本文化里面的二次元宅文化特别有感觉,所以真的做了很多的努力。

而如果你是一个美术的工作者,你应该要相信AIGC工具未来可以大大的减轻你的工作负担,你要开始去学习它、开始去使用它,它并不是一个非常难用的东西,它已经有webUI。当你看到它画出来的图的时候,你会被他惊艳到,同时也能够学习到他怎么去帮助到你。

如果要用起来的话,你可能需要相应的硬件,你可能会使用GPU或者云计算。如果是GPU,至少要一张4到8G的显卡才可以做推理,如果要做模型的微调,则要16到24G的显卡。那一般来说一张4070显卡通常要5000块人民币以上,而且一张卡只能够支持一个人,不太建议用AMD或者苹果的M1的显卡,虽然能用,但性能不高,并且很多的插件可能兼容性不太好,因为很多的插件还是使用CUDA。

如果使用云计算,你可以按需计费租用一个GPU,实际上我们看到很多的SaaS产品本身就是在云计算上面去做的,所以它这个价格都可以做得下来,并且可以赚钱的话,那我们相信去使用云计算去做AIGC试验,费用也并不是很高,甚至是很合理的费用。而且像电费、硬件的损耗,烧显卡的事情也是经常出现的事,都可以在云计算这边解决掉。

所以如果要构造工业化管线需要两种人,第一种人是AIGC时代的系统架构师。他会非常了解AIGC的各种的开源实现,知道怎么去使用API调用,通过Docker的方法去构造生产集群,也理解美工给到它的对应的webUI的参数,并且帮助美工把它丢到参数里面做程序化生成。并且他知道哪些东西应该给截流保存下来,比如存到一个数据库里面、带上ID,就能够查询去保护公司的知识产权,知道知识产权在哪一块是很重要的。

另外一种人就是AIGC时代的主美术。这个主美术会使用AIGC作为主要的绘画工具,并不是说以前学到的绘画能力没有用了,还是非常有用的,但是AIGC可以帮他们大量涌现创意和细节,帮补充完整。以前可能画一张大图,需要一堆的小美工去画里面的细节,现在不需要,直接用AGC可以做出来。他会非常积极的拥抱这种各种新的开源技术,因为每一个新的开源技术拿出来都是一个巨大的创新,但是他自己还是会有强烈的美感,他可以快速的阅读大量的图片,而且知道这些图片是用怎样的AIGC方法生成出来。所以他有能力去统一公司的美术风格,去做模型的微调,去做参数的控制。

如果你是一个美术人员,你觉得AIGC离你很远,但是终究有一天你会发现,它必然会成为你的生产环节的一部分。到那个时候,你可以去利用它一键生成大量图片,你可能不需要关心里面的细节,但你依然要保持美感,快速的阅读大量图片,帮助你的主美去选择哪些是合适的、哪些不合适。作为一个反馈者提供意见,你也可以大大的提高工作效率。

说到这里,其实有一天,我想起来我的儿子跟我聊天,我的儿子也是一个游戏爱好者,他问我说:“爸爸,我看到现在AI很厉害,他画的图很漂亮,是不是以后所有的游戏都是3A游戏的呢?”

我告诉他说,对,也不对。可能未来所有的游戏都是今天的3A游戏的质量,但是3A游戏本身就是a lot of time, a lot of money的意思,总会有人还在AI时代继续a lot of time a, lot of money的生成,非常优质的游戏,只是那个时候的3A游戏,可能比现在的3A游戏有非常大的质的提高。

AIGC还不是游戏工业化的全部

其实AIGC的画画部分还不是游戏工业化的全部,还有很多的AI的功能,我们可以把它用起来。比如说利用强化学习大语言模型,结合AI的美术风格大量生成游戏关卡,这个其实已经在亚马逊云科技的不少客户里面去做了,结合AIGC的话,他真的可以去在后台自己就去创造一个关卡。AI可能现在还是比人笨,但是AI绝对会比人勤劳,只要你给它电,他就会每时每刻的去迭代学习,这是一个非常可怕的事。

当你真的有非常庞大的无限的关卡后,又可以去结合我们在大数据、人工智能做用户行为分析,真正做到千人千面的用户体验。每个用户碰到的NPC,碰到的游戏关卡都完全不一样,这样的场景才是真真正正的独一无二的元宇宙,每个用户进去都会看到不同的东西,我们希望这个未来很快来到,可能它已经来到了。

一点小声明,这份PPT里面绝大部分的插图都是AI生成的,包括大家看到的这些.所以它里面一定没有太多的版权问题,因为我也没有去通过一些专有模型去做训练,它就是一个在60亿的这样的一个大模型里做出来的训练。

再说一件小事。在前面说到线稿的时候我们去做了这张图,因为我本身不是一个美术工作者,所以我肯定觉得我的创意比不过AI,但当看到这张的时候,我真的是震惊了。

lazy.png
lazy.png

可能这张图在视频里面看的不太清楚,大家回头可以去下载PDF详细看。这张图片它生成的是一个虚实结合,一个铁框架子上架了一个南瓜的场景,任何的一个人类看左手边那张线稿都觉得一个南瓜海盗它是实心的,这个AI真的想象出来它是空心的,这是在创意上面做减法的动作,比绝大部分的人都要高级,非常厉害。

我甚至觉得这样的AI是有智慧的,当然如果从数学的原理上来说,我们知道他们都来源于这样的一篇的论文,《Attention Is All You Need》,这篇论文就是Transformer论文的开始。这篇论文其实题目也起得非常的精妙,他介绍了他的Attention的模型,Attention本身在英语里就是注意的意思,所以现在每一位开发者,无论你是一个美术的开发者,还是一个程序员,你都可以注意起来,AI即将改变我们的一切。

好,谢谢大家,今天就是我分享的全部。

如若转载,请注明出处:http://www.gamelook.com.cn/2023/05/518289


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK