【Ai时刻】什么？你的显卡还只用来打游戏？—NVIDIA RTX 40系列显卡Ai算力横评-太平洋...

【Ai时刻】什么？！你的显卡还只用来打游戏？—NVIDIA RTX 40系列显卡Ai算力横评

月亮背面的外星人责任编辑：sunaorui 发布于：2023-07-03 23:06 PConline原创

　　在Ai绘画领域火热的前夕，我们针对15款NVIDIA显卡进行了一次针对Stable Diffusion模型的生成时间测试【Ai时刻】NVIDIA显卡Ai算力大比拼，想画Ai女友该怎么选？。结果显示，40系显卡在Ai算力方面具有显著优势，性价比表现出色。如今，随着最后一款40系桌面级显卡—RTX 4060的问世，完整的40系家族也呈现在我们面前。在本期的Ai时刻，我们将重新对40系家族进行Ai算力的解构和评析。

Ai生成

　　通过使用多模态的Stable Diffusion测试，我们将充分挖掘这些显卡的算力性能。并且，从个人玩家的角度出发，我们将为你揭示哪款显卡是你在Ai领域的最优选择。在接下来的评测中，我们将对40系显卡家族的各成员进行详细介绍和性能测试，包括RTX 4090、RTX 4080、RTX 4070、RTX 4070Ti、RTX 4060Ti和RTX 4060，以及RTX3060。通过对比他们在Stable Diffusion模型上的表现，将为你提供关于显卡性能和价格的综合考量。

　　首先介绍一下测试背景与条件：随着Stable Diffusion上的模型与图片生成算法的不断丰富，我们采用了4个测试环节来进行全面且多角度的显卡Ai算力测试：

1.利用NVIDIA官方提供的“Ai房屋”测试，来生成符合官方数据的测试结果。

2.利用civitAi（一个Ai模型聚合网站）上火热的Ai人像模型与图片生成算法进行一组模拟真实小姐姐的测试。

3.利用civitAi（一个Ai模型聚合网站）上火热的Ai人像模型与图片生成算法进行一组模拟魔幻怪物小姐姐的测试。

4.针对第2个测试环节增加生成图像的分辨率，尽量占用每一张显卡的显存，来观察在极限显存占用的情况下，各显卡之间的表现。

　　首先还是先来看一下参赛选手们的“个人信息”汇总：

　　其中与Ai绘图会高度相关的参数，我们总结出了这几点，Ai生成图像主要依赖于显卡的并行计算能力。以下是几个显卡核心参数及其与Ai生成图像之间的关系：

　　1. 显卡流处理器数量（SM）：流处理器数量是显卡内部处理单元的数量。每个流处理器包含一定数量的CUDA核心、Tensor核心和其他处理资源。流处理器数量越多，显卡并行处理任务的能力越强，对Ai生成图像的性能提高更明显。

　　2.显卡CUDA内核数量（CUDA Cores）：CUDA核心是NVIDIA显卡的基本处理单元，用于执行并行计算任务。CUDA核心数量越多，显卡的并行计算能力越强，Ai生成图像的速度也会相应提高。

　　3.显卡Tensor内核（Tensor Cores）：Tensor核心是NVIDIA显卡特有的处理单元，专为深度学习和Ai任务设计。它们可以高效地执行矩阵乘法和累加运算，这是深度学习中的核心计算操作。Tensor核心数量越多，显卡在Ai生成图像任务中的性能越优秀。

*3060的Tensor核心为第三代，40系显卡为第四代

　　4.显卡显存容量、显存位宽、显存带宽：显存容量对Ai生成图像的影响取决于模型的大小和复杂度。显存容量越大，可以处理的模型和数据越多。显存位宽和显存带宽影响数据在显卡内部的传输速度。显存位宽越宽、显存带宽越高，显卡处理大型Ai任务的能力越强。

显存容量

显存位宽

　　5.L1缓存（MB）：L1缓存位于每个流处理器（SM）内部，离CUDA核心和Tensor核心非常近。它的访问速度非常快，但容量相对较小。L1缓存主要用于存储局部变量和线程间共享的数据。在Ai生成图像任务中，高效的L1缓存可以提高处理速度，降低内部数据传输延迟。

　　6.L2缓存（MB）：L2缓存位于显卡的全局内部，所有SM共享。它的容量比L1缓存更大，但访问速度相对较慢。L2缓存主要用于缓存全局内存中的数据，以减少显存访问延迟。对Ai生成图像任务来说，高效的L2缓存可以提高数据处理速度，特别是在处理大型模型和数据集时。

L2缓存（MB）

　　不多说，我们进入测试环节，首先来个官方的开胃菜，画图的参数是：使用v2-1 768-emapruned模型；768*768的尺寸；Steps: 50；CFG scale: 7.5，一组10张图，每次绘画3组，该测试能够反应绝大多数Ai绘图的生成效果成绩，尤其是在做一些工业Ai、实物生成的用途时。

　　第二组就是我们可爱的Ai小姐姐，我们使用了majicmixRealistic_v6模型，搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 50, 采集器： Euler, CFG : 7.5, Seed: 172450070, Size: 1024x768，共生成1组，6张图片，代表了绝大场景下的Ai模特（女友（误））的生成场景。

　　第三组是体现Ai创意与耦合生成能力的魔女小姐姐，在关键词中，我们使用了“龙角、血迹、邪恶、狰狞”等，生成效果非常令人满意。使用了majicmixRealistic_v6模型，搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 32, 采样器： DPM++ 2M Karras,CFG : 7.5, Seed: 2316746276, Size: 1200x675，测试意义为更加普遍的DPM++ 2M采样器（常用于复杂的人物模型生成）时的成绩，共生成1组，6张图片，与第二组相互对照。

　　第四组测试便是针对第2个测试环节增加生成图像的分辨率，尽量占用每一张显卡的显存，来观察在极限显存占用的情况下，各显卡之间的表现。同样使用了majicmixRealistic_v6模型，搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 50, 采集器： Euler, CFG : 7.5, Seed: 172450070, Size: 1800x1800，共生成1组，6张图片。此测试主要验证显存与 Ai 生成图像效率之间的关系，是否显存越大必然越快。

　　由于大多数 Ai 模型训练使用 512x512 图像，生成超高分辨率图像时，Ai 模型对资源的需求会呈指数级增长，需要消耗大量显卡资源，特别是显存资源。同时，图像会大量失真，产生怪异效果，因此不建议生成超高分辨率 Ai 图像。

　　在占满了每一张显卡的显存情况下（包括拥有24GB显存的RTX4090），这6张图片的生成时间如下：

　　从测试结果可以解答许多网友的误解，即 Ai 生成仅与显存相关（挖矿的想法）。测试结果显示，尽管 RTX 3060 的显存（12GB/192 位）明显高于 RTX 4060（8GB/128 位），但在显存饱和后的生成时间上，两者之间仍有约 35% 的差距。可见，升级Tensor核心的 RTX 40 系列显卡，尽管显存上处于劣势，性能表现仍远超前代。

　　测试结果显示，在真实场景下的Ai生成图像任务中，40系显卡表现出明显的阶梯式成绩分布，与各卡的 CUDA 内核数及 Tensor 内核数密切相关。尤其是高端且价格相对友好的 RTX 4070 及 RTX 4070 Ti，其性能表现令人印象深刻。

　　看到此处，相信大家已对 40 系显卡在 Ai 绘图算力方面有初步判断。那么，作为普通用户，我们会推荐哪款卡？哪款最具“Ai 性价比”？我们选择了某知名显卡品牌的 40 系全系列定价，并结合常规 Ai人像绘图的成绩，计算“Ai算力定价”。由于RTX 3060仅作为对照组，我们不会进行推荐，仅参考40系列的成绩与价格。

　　我们假设RTX4090在短发小姐姐Ai绘图中的35.46秒为100%，来看其他显卡在Ai绘画时需要RTX4090的多少倍：

　　我们可以通过比较显卡的性价比来衡量它们在Ai绘图任务上的表现。为了计算性价比，我们可以使用以下公式：Ai性价比 = 显卡算力指数x显卡价格。以RTX4090为基准，我们可以计算其他显卡在相同算力下的性价比。在这个例子中，RTX4090算力性价比 = 100%算力指数x13999元。接下来，我们可以将其他显卡的性价比与RTX4090的性价比进行比较。这样，我们就可以得出一个各个显卡相对于RTX4090性价比的结论，从而可以更好地判断哪款显卡在Ai绘图任务上性价比更高。

　　可见，相对于RTX4090来说，RTX4070Ti的纯算力性价比是较高的，也是在算力转化后最为接近RTX4090的一张显卡，那单纯从算力的性价比角度出发，这张卡是除了RTX4090外的最佳选择，而如果屏幕面前的你只是想要在游戏之余，偶尔跑跑Ai，那么我认为RTX4070会是你的最佳选择，一组6张的精致人像图片75秒的运算时间在大多数人的可忍耐范围之内，而RTX4060这样超过2分钟的选手，可能在等待的过程中会有些无聊了。

　　总的来说，考虑 Ai 绘图场景下的应用，我们推荐 RTX 4070 或 RTX 4070 Ti 这两款显卡。

　　如今显卡的多功能性是由于技术发展和市场需求共同推动的。在过去的几十年里，计算机图形学的研究取得了重要突破，显卡硬件的性能也得到了显著提升。随着GPU的计算能力越来越强大，显卡逐渐从单纯的渲染图形发展为具备广泛计算能力的硬件平台。此外，各行各业对高性能计算、Ai等领域的需求不断增长，显卡厂商也纷纷投入研发，使显卡更好地适应这些需求。

　　显卡之所以具有多功能性，关键在于GPU具备强大的并行计算能力和通用计算能力。GPU最初设计用于处理计算机图形，需要同时处理大量像素和顶点。为了高效执行这些任务，GPU采用了高度并行的架构。这使得GPU在处理其他涉及大量并行计算的任务时，也能发挥出强大的性能。

　　在未来，随着GPU计算能力破茧成蝶般的蜕变，显卡在各个领域的应用将犹如波涛般汹涌澎湃。短短的数年内我们就可以预见显卡将在高性能计算、Ai绘图、Ai生成计算等多重功能的舞台上，如繁星闪烁般绽放越来越耀眼的光芒。

【Ai时刻】什么？！你的显卡还只用来打游戏？—NVIDIA RTX 40系列显卡Ai算力横评

Recommend

CODE: Raptured - An Action Horror experience

拒绝全面电动化，All in固态电池的丰田还能“车到山前必有路”？

云天励飞：Edge10 适用于 AI 推理场景如机器人等，目前在初步商用阶段

The space telescope surveying the entire universe to understand dark matter and...

GitHub - luzrain/telegram-bot-api: PHP Wrapper for Telegram Bot API

为什么黑客更喜欢使用 Kali Linux？

Huawei: World's First 6GHz Technology Verification - Gizchina.com

Text AI Art Generators Hinder Artists More Than It Helps Them

tomcat Filter内存马 - 功夫小熊猫

幽默：什么是两段事务机制2PC？

About Joyk