初探GB200参考设计

信息平权发表于 2024年03月15日 11:11

摘要：GB200性能可能会成为大杀器，整体推理性能的提升可能是20-40倍...除以价格因素，依然可以获得10倍以上per dollar的性能提升。

首先我们得先想清楚一个问题，做这个给谁用？现在有几个不同的观点。其一，回看当初的GH200，对推荐系统的提升效果尤其明显（下图）

此外从之前我们探讨的meta报告中给出的不同模型的能力需求雷达图中，也可以看到，推荐系统模型的特点是对Memory Capacity（注意这里不见得是HBM，应该包括了DDR）的要求尤其高。因此GH200通过grace hopper实现的统一大内存（恐怖的144TB DDR），的确非常适合推荐系统。这里又会让人联想到近期NV反复与市场强调的正在爆发的推荐引擎推理需求。

但这里的确有个问题，1）这玩意很贵；2）费这么大劲定义这么牛逼的一个系统，不可能只面向推荐系统的少数巨头。3）推荐系统不需要如此强的带宽，岂不是浪费？具体网络配置和架构设计

该文件中，专门区分了CX7和CX8两种参考设计，另一个J总也透露，可能在B100沿用CX7，B200才会升级到CX8（特别是前后版本NVlink，寻址空间从256直接到了2000…）。价格上GB200（1 Grace+2GB100）接近7万美金。而文件中展示的B100和B200的价格，的确非常有竞争力，会给AMD相当大压力...

我们回到前面探讨的产品定位问题。表面上看又是一个巨贵的玩意儿（NVL72 rack是250万美金）。但从性能的提升看，过去GH200在LLM 65B上的推理速度相比H100提升了2倍多，在VectorDB和DLRM上的相比H100提升了5-6倍。假设在LLM负载上，B100相比H100的提升是4倍（两颗die+更大的HBM），GB200相比B100的提升是2-3倍（nvlink升级+grace hopper vs pcie），这里还没考虑软件的优化，之前tensor-RT优化过的推理任务提升也是好几倍。几个因子相乘，整体推理性能的提升可能是20-40倍...当然你要除以价格因素（2.3万美金vs7万美金），依然获得了10倍以上per dollar的性能提升...

如果上述我们的推演大差不差，那这一次GB200的性能的确可能会成为大杀器。上一代GH200相比H100的提升不够明显、推出时间拉的太长、价格因子放到分母被摊平....让GH200显得没有那么惊艳。这一次的GB200似乎的确值得期待。其实就等下面这张图，NV何时给我们放出后续，看GB200的那根柱子能捅到哪里去.......

本文作者：Jason，本文来源：信息平权，原文标题：《初探GB200参考设计》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

初探GB200参考设计

初探GB200参考设计

Recommend

BPMN 2.0 and Jakarta EE: A Powerful Alliance

RAG 范式、技术和趋势 - JadePeng

华擎发布600/700系列主板BIOS更新：全面支持英特尔酷睿i9-14900KS处理器

网易有道CEO周枫：今天的商业模型就是未来的端侧模型-品玩

中东土豪入局？报道：阿联酋投资公司MGX正洽谈投资OpenAI芯片企业

掘金县城：折腾的青年，回归的中产

Next.js Sitemap Generator Script

邻居早上扰民怎么办？

新晋百亿白酒巨头，提价了

/SCWM/R_ODO_POST_GI use on older release

About Joyk