1

初探GB200参考设计

 2 months ago
source link: https://awtmt.com/articles/3710541
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

初探GB200参考设计

信息平权 发表于 2024年03月15日 11:11
摘要:GB200性能可能会成为大杀器,整体推理性能的提升可能是20-40倍...除以价格因素,依然可以获得10倍以上per dollar的性能提升。

首先我们得先想清楚一个问题,做这个给谁用?现在有几个不同的观点。其一,回看当初的GH200,对推荐系统的提升效果尤其明显(下图)

2e4e6e8f-c270-4d15-984d-30a81f71bbb1.png

此外从之前我们探讨的meta报告中给出的不同模型的能力需求雷达图中,也可以看到,推荐系统模型的特点是对Memory Capacity(注意这里不见得是HBM,应该包括了DDR)的要求尤其高。因此GH200通过grace hopper实现的统一大内存(恐怖的144TB DDR),的确非常适合推荐系统。这里又会让人联想到近期NV反复与市场强调的正在爆发的推荐引擎推理需求。

dbab774c-43c6-4b52-b983-97468230627c.png

但这里的确有个问题,1)这玩意很贵;2)费这么大劲定义这么牛逼的一个系统,不可能只面向推荐系统的少数巨头。3)推荐系统不需要如此强的带宽,岂不是浪费?具体网络配置和架构设计

adf44f97-277a-4dfa-9fc8-d3920204387d.png
483f5a33-99b1-4f7c-902d-a1ad35a09669.png
6a6e6d85-0ea5-4619-8462-ff86b23fd350.png
424a6683-21d8-47dc-b011-3413bea8b1d6.png

该文件中,专门区分了CX7和CX8两种参考设计,另一个J总也透露,可能在B100沿用CX7,B200才会升级到CX8(特别是前后版本NVlink,寻址空间从256直接到了2000…)。价格上GB200(1 Grace+2GB100)接近7万美金。而文件中展示的B100和B200的价格,的确非常有竞争力,会给AMD相当大压力...

我们回到前面探讨的产品定位问题。表面上看又是一个巨贵的玩意儿(NVL72 rack是250万美金)。但从性能的提升看,过去GH200在LLM 65B上的推理速度相比H100提升了2倍多,在VectorDB和DLRM上的相比H100提升了5-6倍。假设在LLM负载上,B100相比H100的提升是4倍(两颗die+更大的HBM),GB200相比B100的提升是2-3倍(nvlink升级+grace hopper vs pcie),这里还没考虑软件的优化,之前tensor-RT优化过的推理任务提升也是好几倍。几个因子相乘,整体推理性能的提升可能是20-40倍...当然你要除以价格因素(2.3万美金vs7万美金),依然获得了10倍以上per dollar的性能提升...

如果上述我们的推演大差不差,那这一次GB200的性能的确可能会成为大杀器。上一代GH200相比H100的提升不够明显、推出时间拉的太长、价格因子放到分母被摊平....让GH200显得没有那么惊艳。这一次的GB200似乎的确值得期待。其实就等下面这张图,NV何时给我们放出后续,看GB200的那根柱子能捅到哪里去.......

e10d9f92-c853-4f3d-9de2-0a5c8dfb2c7a.png

本文作者:Jason,本文来源:信息平权,原文标题:《初探GB200参考设计》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK