1

赛道Hyper | 英伟达超算机:定义AGI算力集群

 11 months ago
source link: https://awtmt.com/articles/3691006
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

赛道Hyper | 英伟达超算机:定义AGI算力集群

周源 发表于 2023年06月13日 08:06
摘要:DGX GH200,从AI决策型向AI生成式的过渡标杆。

英伟达创始人兼CEO黄仁勋,不但是个出色的技术工程师,也是位杰出的市场管理专家和营销大师。 

黄仁勋的营销才能,从其对GPU的定义可以窥视。原先,GPU只是一张显卡,后来黄仁勋将服务器也称为GPU。最近,“黄氏”GPU定义,已扩展至CPU叠加GPU内存算力集群。 

英伟达最近发布的超级计算机DGX GH200,从参数上看,性能极为惊人,结构也堪称精巧。但是,从技术原理上看,DGX GH200原本很可能并非为AI集训所设计,其内核Grace Hopper是决策型AI(为AI推荐系统所用)性质。 

从结构设计上看,DGX GH200从决策型AI“转型”到LLM方向,但其真正价值并非为LLM定制,而是其可扩展性、以及将CPU内存与GPU内存,通过NVLINK C2C组件整合起来的技术,从而实现黄仁勋将GPU的定义扩展为超算集群的逻辑自洽。 

至于真正的为LLM定制的针对性综合解决方案,黄仁勋还没给出答案。 

CPU+GPU=? 

DGX GH200的核心是Grace Hopper(CPU+GPU)。每台DGX GH200,都搭载了多达256个Grace Hopper。 

黄仁勋将Grace Hopper称为“superchip”(超级芯片),这很像是一种营销表达。 

实际上,Grace是CPU,确实是为AI而生,但本身的技术特性不是高性能CPU算力,而是能耗控制。换句话说,Grace负责还过得去的算力性能;Hopper则是GPU,与印象中的英伟达GPU负责AI算力不同,“Grace Hopper”中的Hopper,负责的是散热。 

根据英伟达技术白皮书显示,Hopper是英伟达基于Hopper架构的GPU(即H100系列),而Grace则是英伟达自研的基于ARM架构的高性能CPU。 

这颗芯片的CPU核(core)型号是Arm的公版neoverse N2。根据英伟达在2021年发布Grace Hopper时的PPT信息,Grace是一款包含了76个CPU核的N2多核处理器。 

通过LPDDR5X(内存)通信接口,Grace接了高达512GB的内存(实际480GB),内存带宽也达到546 GB/s;Hopper(GPU)则通过HBM3(显存)接口接了最多96GB的显存,带宽可达3TB/s。 

LPDDR,即Low Power Double Data Rate,中文全称“低功耗双倍数据速率”,是美国JEDEC固态技术协会(JEDEC Solid State Technology Association)面向低功耗内存制定的通信标准。 

LPDDR有时候也等同于Low Power Double Data Rate SDRAM,中文全称“低功耗双信道同步动态随机存取内存”。通常,这以先进封装技术直接堆在CPU处理器上方,以低功耗和小体积著称,是移动应用场景的主流内存产品。 

2019年2月,JEDEC发布JESD209-5,即LPDDR5低功耗内存传输速率(通信)标准。相较于2014年发布的第一代LPDDR4标准,LPDDR5的I/O速度提升到6400 MT/s,实现翻番。 

基于LPDDR5的性能基础,LPDDR5X更进一步:数据传输速率从6400Mbps增至8533Mbps,对于支持8533Mbps LPDDR5X内存的移动SoC,其峰值理论可用带宽将进一步增长到68.26GB/s,从而赋予更广泛的设备拥有更多基于AI和5G的功能。 

Grace用了LPDDR5X,就其16GB的容量而言,即使用了8片,CPU的总容量也只有128GB,远远达不到决策AI所需要的存储空间,更遑论对LLM的容量支持要求。但黄仁勋采用了新的结构,也就是集成8颗Grace CPU,还将之互联成一个Unified Memory。 

这时,内存容量就高达1TB(8*128G),等于用X86的2S结构,相当于512GB per Socket的1TB容量。 

回到Grace Hopper超级芯片,其高达144TB的Memory(显存)量,实际上是LPDDR5X的内存叠加HBM3的显存,即256组的CPU 480GB内存(LPDDR5X)叠加GPU 96GB显存(HBM3)。简单折算下,就是每个节点8组搭配,约3.75TB的CPU内存加上768GB的显存。 

乍看上去,如此神一样存在的存储容量令人惊叹。但实际上,Grace Hopper的整体容量,除了内存还包括显存,这是从所未见的结构设计。但这种结构忽略了CPU同样令人惊奇的延迟。 

这问题该怎么解决?若解决不了,以Grace Hopper为核心的DGX GH200,速度比蜗牛还慢,还怎么训练AI? 

因此,杰出的技术工程师黄仁勋,在Grace Hopper中,还应用了至关重要的组件“NVLink C2C”。这个组件的核心是NVLink通信协议,将Grace的CPU与Hopper的GPU之间传输数据量的带宽,以900GB/s的带宽速率联系起来,远超常规的64GB/s带宽速率。 

这就是黄仁勋敢于将LPDDR5X内存的CPU容量算到DGX GH200超算机整体存储规格的底气。虽然叠加高容量CPU内存会带来超级延迟的不利后果,但GPU对延迟并不敏感,通过以NVLINK通信协议为核心的NVLINK C2C组件,将CPU的内存变成了GPU内存,以此消除高容量CPU内存带来的延迟。 

这种结构和部件设计,也是DGX GH200超算机引以为傲的可扩展性特征。 

价值和不足 

DGX GH200超算机的性能取决于存储空间的大小。144TB还能扩展吗?当然可以。这可通过将Grace Hopper与英伟达Bluefield DPU的接口连接InfiniBand,这样就可进一步扩展到更大的规模,从而实现更高性能的计算。 

虽然看上去有144TB超级内存空间,900GB/s的传输速率也相当牛逼,但平均下来每组Grace Hopper的带宽也就200GB/s,与144TB共享显存带宽差太远。 

总体来说,对DGX GH200超算机的性能来说,Grace Hopper芯片组的结构设计是关键,而英伟达的NVLink协议具有的超高性能数据互联能力是关键中的关键,核心中的核心。通过提供高达900GB/s的带宽并且提供一致性接口,Grace Hopper实现强悍的可扩展性。 

Grace Hopper中CPU与其他高性能服务器端ARM CPU的区别,也许就是对于NVLink接口的支持,而这也成了Grace Hopper的最显著亮点。 

虽然英伟达发布的DGX GH200超算机,其内核Grace Hopper的结构设计和软件超高速一致性内存接口NVLink的奇思妙想,并非是对AGI做的针对性整体解决方案。但是,黄仁勋的技术和结构设计能力肌肉秀,真正的价值是对处于AI生成式技术和应用阶段,对具有超强性能的算力集群产品做出符合AGI阶段的标准定义。 

这里可能需要简单解释下为什么DGX GH200超算机不是为AGI做出的针对性解决方案,而是主要面向决策式传统AI的推荐系统。 

首先,DGX GH200超算机的核心结构Grace Hopper芯片组发布于2021年。那时虽然AGI也在迭代中,但远远没有像2022年12月OpenAI发布的ChatGPT-3.5这种现象级应用带来的轰动效应,因而也没有像现在这样全球范围内的广泛关注度。 

其次,从技术原理看,传统AI决策型推荐系统的特点是内存占用大,但计算数据要转换的热数据(指频繁访问的在线类Data)并不多。因此,通行的做法是,通过系统设计,在CPU内存中临时存放热数据,再以GPU侧的HMB显存做cache并导入热数据,对带宽和CPU内存速度要求不高。 

大模型的数据转移特征是什么?内存占用也不小,但每次计算来回流动的基本是热数据,少有数据集之类的冷数据。所以就两难,若选择将海量热数据放到LPDDRX5,带宽还是有点不够(毕竟每组Grace Hopper带宽也只有200GB/s);若放冷数据,成本又太高。 

这里还有个问题,就是维护成本极高。Grace Hopper就物理形态看,CPU和GPU还各自独立,这两种芯片互联使用的是PCB板上的走线。在技术逻辑角度,这两种物理芯片的存储空间通过NVLink C2C组件和NVLink协议,被集成为一个整体。 

因此,高度集成的Grace Hopper,但凡坏一块LPDDR5X,整个芯片组就要报废。这样的维护成本,除了巨头比如微软和谷歌这种不差钱的公司,其他公司都难以承受。 

综合来说,Grace Hopper的LLM应用,在DGX GH200超算机的技术丛集中,并没有显现出惊艳的亮点;其结构设计确实表现出色,但这很像是以LLM需求所做的微调。因为这个结构,发布于2021年,那时LLM应用方向也还并不向今日这样如此明确。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
AI全知道

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK