1

【Ai时刻】什么?你的显卡还只用来打游戏?—NVIDIA RTX 40系列显卡Ai算力横评-太平洋...

 10 months ago
source link: http://diy.pconline.com.cn/1632/16326107.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

【Ai时刻】什么?!你的显卡还只用来打游戏?—NVIDIA RTX 40系列显卡Ai算力横评

16842313353417900.jpg 月亮背面的外星人 责任编辑:sunaorui 发布于:2023-07-03 23:06 PConline原创

  在Ai绘画领域火热的前夕,我们针对15款NVIDIA显卡进行了一次针对Stable Diffusion模型的生成时间测试【Ai时刻】NVIDIA显卡Ai算力大比拼,想画Ai女友该怎么选?。结果显示,40系显卡在Ai算力方面具有显著优势,性价比表现出色。如今,随着最后一款40系桌面级显卡—RTX 4060的问世,完整的40系家族也呈现在我们面前。在本期的Ai时刻,我们将重新对40系家族进行Ai算力的解构和评析。

367712627_1688389369890_thumb.jpg
367712628_1688389370511_thumb.png

Ai生成

  通过使用多模态的Stable Diffusion测试,我们将充分挖掘这些显卡的算力性能。并且,从个人玩家的角度出发,我们将为你揭示哪款显卡是你在Ai领域的最优选择。在接下来的评测中,我们将对40系显卡家族的各成员进行详细介绍和性能测试,包括RTX 4090、RTX 4080、RTX 4070、RTX 4070Ti、RTX 4060Ti和RTX 4060,以及RTX3060。通过对比他们在Stable Diffusion模型上的表现,将为你提供关于显卡性能和价格的综合考量。

articleImageLoading.gif

  首先介绍一下测试背景与条件:随着Stable Diffusion上的模型与图片生成算法的不断丰富,我们采用了4个测试环节来进行全面且多角度的显卡Ai算力测试:

1.利用NVIDIA官方提供的“Ai房屋”测试,来生成符合官方数据的测试结果。

articleImageLoading.gif

2.利用civitAi(一个Ai模型聚合网站)上火热的Ai人像模型与图片生成算法进行一组模拟真实小姐姐的测试。

articleImageLoading.gif

3.利用civitAi(一个Ai模型聚合网站)上火热的Ai人像模型与图片生成算法进行一组模拟魔幻怪物小姐姐的测试。

articleImageLoading.gif

4.针对第2个测试环节增加生成图像的分辨率,尽量占用每一张显卡的显存,来观察在极限显存占用的情况下,各显卡之间的表现。

  首先还是先来看一下参赛选手们的“个人信息”汇总:

articleImageLoading.gif

  其中与Ai绘图会高度相关的参数,我们总结出了这几点,Ai生成图像主要依赖于显卡的并行计算能力。以下是几个显卡核心参数及其与Ai生成图像之间的关系:

articleImageLoading.gif

  1. 显卡流处理器数量(SM):流处理器数量是显卡内部处理单元的数量。每个流处理器包含一定数量的CUDA核心、Tensor核心和其他处理资源。流处理器数量越多,显卡并行处理任务的能力越强,对Ai生成图像的性能提高更明显。

  2.显卡CUDA内核数量(CUDA Cores):CUDA核心是NVIDIA显卡的基本处理单元,用于执行并行计算任务。CUDA核心数量越多,显卡的并行计算能力越强,Ai生成图像的速度也会相应提高。

  3.显卡Tensor内核(Tensor Cores):Tensor核心是NVIDIA显卡特有的处理单元,专为深度学习和Ai任务设计。它们可以高效地执行矩阵乘法和累加运算,这是深度学习中的核心计算操作。Tensor核心数量越多,显卡在Ai生成图像任务中的性能越优秀。

*3060的Tensor核心为第三代,40系显卡为第四代

  4.显卡显存容量、显存位宽、显存带宽:显存容量对Ai生成图像的影响取决于模型的大小和复杂度。显存容量越大,可以处理的模型和数据越多。显存位宽和显存带宽影响数据在显卡内部的传输速度。显存位宽越宽、显存带宽越高,显卡处理大型Ai任务的能力越强。

显存容量

显存位宽

  5.L1缓存(MB):L1缓存位于每个流处理器(SM)内部,离CUDA核心和Tensor核心非常近。它的访问速度非常快,但容量相对较小。L1缓存主要用于存储局部变量和线程间共享的数据。在Ai生成图像任务中,高效的L1缓存可以提高处理速度,降低内部数据传输延迟。

  6.L2缓存(MB):L2缓存位于显卡的全局内部,所有SM共享。它的容量比L1缓存更大,但访问速度相对较慢。L2缓存主要用于缓存全局内存中的数据,以减少显存访问延迟。对Ai生成图像任务来说,高效的L2缓存可以提高数据处理速度,特别是在处理大型模型和数据集时。

L2缓存(MB)

  不多说,我们进入测试环节,首先来个官方的开胃菜,画图的参数是:使用v2-1 768-emapruned模型;768*768的尺寸;Steps: 50;CFG scale: 7.5,一组10张图,每次绘画3组,该测试能够反应绝大多数Ai绘图的生成效果成绩,尤其是在做一些工业Ai、实物生成的用途时。

articleImageLoading.gif

articleImageLoading.gif

  第二组就是我们可爱的Ai小姐姐,我们使用了majicmixRealistic_v6模型,搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 50, 采集器: Euler, CFG : 7.5, Seed: 172450070, Size: 1024x768,共生成1组,6张图片,代表了绝大场景下的Ai模特(女友(误))的生成场景。

articleImageLoading.gif

articleImageLoading.gif

  第三组是体现Ai创意与耦合生成能力的魔女小姐姐,在关键词中,我们使用了“龙角、血迹、邪恶、狰狞”等,生成效果非常令人满意。使用了majicmixRealistic_v6模型,搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 32, 采样器: DPM++ 2M Karras,CFG : 7.5, Seed: 2316746276, Size: 1200x675,测试意义为更加普遍的DPM++ 2M采样器(常用于复杂的人物模型生成)时的成绩,共生成1组,6张图片,与第二组相互对照。

articleImageLoading.gif

articleImageLoading.gif

  第四组测试便是针对第2个测试环节增加生成图像的分辨率,尽量占用每一张显卡的显存,来观察在极限显存占用的情况下,各显卡之间的表现。同样使用了majicmixRealistic_v6模型,搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 50, 采集器: Euler, CFG : 7.5, Seed: 172450070, Size: 1800x1800,共生成1组,6张图片。此测试主要验证显存与 Ai 生成图像效率之间的关系,是否显存越大必然越快。

articleImageLoading.gif

  由于大多数 Ai 模型训练使用 512x512 图像,生成超高分辨率图像时,Ai 模型对资源的需求会呈指数级增长,需要消耗大量显卡资源,特别是显存资源。同时,图像会大量失真,产生怪异效果,因此不建议生成超高分辨率 Ai 图像。

  在占满了每一张显卡的显存情况下(包括拥有24GB显存的RTX4090),这6张图片的生成时间如下:

articleImageLoading.gif

  从测试结果可以解答许多网友的误解,即 Ai 生成仅与显存相关(挖矿的想法)。测试结果显示,尽管 RTX 3060 的显存(12GB/192 位)明显高于 RTX 4060(8GB/128 位),但在显存饱和后的生成时间上,两者之间仍有约 35% 的差距。可见,升级Tensor核心的 RTX 40 系列显卡,尽管显存上处于劣势,性能表现仍远超前代。

articleImageLoading.gif

  测试结果显示,在真实场景下的Ai生成图像任务中,40系显卡表现出明显的阶梯式成绩分布,与各卡的 CUDA 内核数及 Tensor 内核数密切相关。尤其是高端且价格相对友好的 RTX 4070 及 RTX 4070 Ti,其性能表现令人印象深刻。

articleImageLoading.gif

  看到此处,相信大家已对 40 系显卡在 Ai 绘图算力方面有初步判断。那么,作为普通用户,我们会推荐哪款卡?哪款最具“Ai 性价比”?我们选择了某知名显卡品牌的 40 系全系列定价,并结合常规 Ai人像绘图的成绩,计算“Ai算力定价”。由于RTX 3060仅作为对照组,我们不会进行推荐,仅参考40系列的成绩与价格。

articleImageLoading.gif

  我们假设RTX4090在短发小姐姐Ai绘图中的35.46秒为100%,来看其他显卡在Ai绘画时需要RTX4090的多少倍:

articleImageLoading.gif

  我们可以通过比较显卡的性价比来衡量它们在Ai绘图任务上的表现。为了计算性价比,我们可以使用以下公式:Ai性价比 = 显卡算力指数x显卡价格。以RTX4090为基准,我们可以计算其他显卡在相同算力下的性价比。在这个例子中,RTX4090算力性价比 = 100%算力指数x13999元。接下来,我们可以将其他显卡的性价比与RTX4090的性价比进行比较。这样,我们就可以得出一个各个显卡相对于RTX4090性价比的结论,从而可以更好地判断哪款显卡在Ai绘图任务上性价比更高。

articleImageLoading.gif

  可见,相对于RTX4090来说,RTX4070Ti的纯算力性价比是较高的,也是在算力转化后最为接近RTX4090的一张显卡,那单纯从算力的性价比角度出发,这张卡是除了RTX4090外的最佳选择,而如果屏幕面前的你只是想要在游戏之余,偶尔跑跑Ai,那么我认为RTX4070会是你的最佳选择,一组6张的精致人像图片75秒的运算时间在大多数人的可忍耐范围之内,而RTX4060这样超过2分钟的选手,可能在等待的过程中会有些无聊了。

articleImageLoading.gif

  总的来说,考虑 Ai 绘图场景下的应用,我们推荐 RTX 4070 或 RTX 4070 Ti 这两款显卡

  如今显卡的多功能性是由于技术发展和市场需求共同推动的。在过去的几十年里,计算机图形学的研究取得了重要突破,显卡硬件的性能也得到了显著提升。随着GPU的计算能力越来越强大,显卡逐渐从单纯的渲染图形发展为具备广泛计算能力的硬件平台。此外,各行各业对高性能计算、Ai等领域的需求不断增长,显卡厂商也纷纷投入研发,使显卡更好地适应这些需求。

articleImageLoading.gif

  显卡之所以具有多功能性,关键在于GPU具备强大的并行计算能力和通用计算能力。GPU最初设计用于处理计算机图形,需要同时处理大量像素和顶点。为了高效执行这些任务,GPU采用了高度并行的架构。这使得GPU在处理其他涉及大量并行计算的任务时,也能发挥出强大的性能。

articleImageLoading.gif

  在未来,随着GPU计算能力破茧成蝶般的蜕变,显卡在各个领域的应用将犹如波涛般汹涌澎湃。短短的数年内我们就可以预见显卡将在高性能计算、Ai绘图、Ai生成计算等多重功能的舞台上,如繁星闪烁般绽放越来越耀眼的光芒。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK