2

Supermicro 推出三款基于 NVIDIA 技术的生成式 AI SuperCluster-品玩

 1 month ago
source link: https://www.pingwest.com/a/293591
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Supermicro 推出三款基于 NVIDIA 技术的生成式 AI SuperCluster-品玩业界动态

Supermicro 推出三款基于 NVIDIA 技术的生成式 AI SuperCluster

全栈式 SuperCluster 包括气冷、液冷训练与云端级推理机柜配置,并搭载全新 NVIDIA Tensor Core GPU、网络与 NVIDIA AI Enterprise 软件

Supermicro, Inc.作为 AI、云端、储存和 5G/边缘领域的全方位 IT 解决方案制造商,宣布推出其最新产品组合,加速生成式 AI 部署。Supermicro SuperCluster 解决方案能为目前及未来大型语言模型 (Large Language Model,LLM) 硬件基础设施提供核心建构组件。

Supermicro 三款强大的 SuperCluster 解决方案现已上市并可被用于生成式 AI 工作运行。这些解决方案内的 4U 液冷系统或 8U 气冷系统是专为强大 LLM 训练性能以及高度批次大小且大量的 LLM 推理所设计。配备了 1U 气冷 Supermicro NVIDIA MGXTM 系统的第三款 SuperCluster 超级集群则针对云端级推理进行了优化。

Supermicro 总裁兼首席执行官梁见后 (Charles Liang) 表示:「在 AI 时代,算力以集群来衡量,不再只用服务器数量作为依据。我们的全球制造产能已扩大到每月 5,000 台机柜,能比以往更快地为客户提供完整生成式 AI 计算集群。只需通过我们采用 400Gb/s NVIDIA Quantum-2 InfiniBand 和 Spectrum-X Ethernet 网络技术的数个可扩充型集群建构组件,一个 64 节点的计算集群能支持具有 72TB HBM3e 的 512 个 NVIDIA HGX H200 GPU。结合了 NVIDIA AI Enterprise 软件的 Supermicro SuperCluster 解决方案非常适合用于针对现今企业与云端基础架构的 LLM 训练,且最高可达兆级参数。互连的 GPU、CPU、内存、储存、以及网络硬件在被部署至机柜内的多个节点后形成现今 AI 技术的基础。Supermicro 的 SuperCluster 解决方案为快速发展的生成式 AI 与 LLM 提供了核心建构组件。」

NVIDIA GPU 产品管理副总裁 Kaustubh Sanghani 表示:「NVIDIA 最新型 GPU、CPU、网络与软件技术助力能让系统制造者为全球市场内不同类型的下一代 AI 工作运行实现加速。通过结合基于 Blackwell 架构产品的 NVIDIA 加速计算平台,Supermicro 能提供客户所需要的前沿服务器系统,且这些系统可容易地被部署至数据中心。」

Supermicro 4U NVIDIA HGX H100/H200 8-GPU 系统通过液冷技术使 8U 气冷系统计算密度加倍,同时降低功耗量与总体拥有成本 (TCO)。这些系统旨在为了支持下一代 NVIDIA 的 Blackwell 架构 GPU。Supermicro 冷却分配单元 (Cooling Distribution Unit,CDU) 与冷却分配分流管 (Cooling Distribution Manifold,CDM) 是主要冷却液流动脉络,可将冷却液输送至 Supermicro 定制的直达芯片 (Direct-to-Chip,D2C) 冷板,使 GPU 和 CPU 处于最佳运行温度,进而实现效能最大化。此散热技术可使一整座数据中心电力成本降低最多 40%,同时节省数据中心占地空间。

搭载 NVIDIA HGX H100/H200 8-GPU 的系统非常适合用于训练生成式 Al。通过 NVIDIA® NVLink®技术高速互连的 GPU,以及高 GPU 内存带宽与容量,将成为符合成本效益地运行 LLM 的核心关键。Supermicro 的 SuperCluster 具备庞大 GPU 共享资源,能作为一个 AI 超级计算机进行计算作业。

无论是导入一个最初就以数兆级词元 (token) 数据集进行完整训练的大型基础模型,或开发一个云端级 LLM 推理基础架构,具有无阻式 400Gb/s 网络结构的脊叶网络拓扑 (Spine and Leaf Network Topology) 都能从 32 个计算节点顺畅地扩展至数千个节点。针对完全整合的液冷系统,Supermicro 在产品出厂前会凭借经认证的测试流程彻底验证与确保系统运行有效性与效率。

采用了 NVIDIA GH200 Grace Hopper Superchip 的 Supermicro NVIDIA MGX™系统设计将能打造出未来 AI 计算集群的架构样式以解决生成式 AI 的关键瓶颈:运行高推理批次大小的 LLM 所需的 GPU 内存带宽及容量,进而降低运营成本。具有 256 节点的计算集群能实现云端级大量推理算力引擎,并易于部署与扩充。

article-body

配置 4U 液冷系统的 5 组机柜或 8U 气冷系统的 9 组机柜型 SuperCluster

-单一可扩充单元含 256 个 NVIDIA H100/H200 Tensor Core GPU

-液冷技术可支持 512 个 GPU、64 个节点,而其体积空间等同于搭载 256 个 GPU 的气冷式 32 节点解决方案

-单一可扩充单元含具有 20TB HBM3 的 NVIDIA H100 或具有 36TB HBM3e 的 NVIDIA H200

-一对一网络传输结构可为每个 GPU 提供最高 400 Gbps 带宽,并支持 GPUDirect RDMA 与 GPUDirect Storage 技术,实现最高兆级参数的 LLM 训练

-400G InfiniBand 或 400GbE Ethernet 网络交换器结构采用高度可扩充型脊叶网络拓扑技术,包括 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X Ethernet 网络平台

-可定制化 AI 数据管道储存结构具有业界领先的平行文件系统选项技术

-搭载 NVIDIA AI Enterprise 5.0 软件,可支持可加速大规模 AI 模型部署的新型 NVIDIA NIM 推理微服务

配置 1U 气冷 NVIDIA MGX 系统的 9 组机柜型 SuperCluster

-单一可扩充单元含 256 个 GH200 Grace Hopper Superchips

-最高可达 144GB HBM3e 加 480GB LPDDR5X 的统一内存,适用于云端级、大量、低延迟和高批次推理,并能在单一计算节点中容纳超过 700 亿个参数规模的模型

-400G InfiniBand 或 400GbE Ethernet 网络交换器结构采用了高度可扩充型脊叶网络拓扑技术

-每节点最多含 8 个内建 E1.S NVMe 储存装置

-可定制化 AI 数据管道储存结构搭配 NVIDIA BlueField®-3 DPU 与领先业界的平行文件系统选项,能为每个 GPU 提供高传输量、低延迟的储存装置存取

-NVIDIA AI Enterprise 5.0 软件

通过 GPU 间可实现的优异互连性能,Supermicro 的 SuperCluster 解决方案针对 LLM 训练、深度学习,以及大量且高批次推理进行了优化。Supermicro 的 L11 和 L12 验证测试结合了现场部署服务,可为客户提供无缝体验。客户收到即插即用的可扩充单元后能实现数据中心内的轻松部署,并可更快获取成果。

关于 Super Micro Computer, Inc.

Supermicro 是应用优化全方位 IT 解决方案的全球领导企业。Supermicro 的成立据点及营运中心位于美国加州圣何塞,致力为企业、云端、AI 和 5G 电信/边缘 IT 基础架构提供领先市场的创新技术。我们是全方位 IT 解决方案制造商,提供服务器、AI、存储、物联网、交换器系统、软件及支持服务。Supermicro 的主板、电源和机壳设计专业知识进一步优化我们的开发与生产,为我们的全球客户实现从云端到边缘的下一代创新。我们的产品皆由企业内部团队设计及制造 (在美国、亚洲及荷兰),经由产品设计优化降低总体拥有成本 (TCO),并通过绿色计算技术减少环境冲击,且在全球化营运下达到极佳的制造规模与效率。屡获殊荣的 Server Building Block Solutions®产品组合使客户能从极多元系统产品线内选择合适的机型,进而将工作负载与应用达到最佳效能。多元系统产品线由高度弹性、可重复使用的建构组件打造而成,而这些建构组件支持各种硬件外形规格、处理器、内存、GPU、存储、网络、功耗和散热解决方案 (空调、自然气冷或液冷)。

Supermicro、Server Building Block Solutions 和 We Keep IT Green 皆为 Super Micro Computer, Inc. 的商标和/或注册商标。

所有其他品牌、名称和商标皆为其各自所有者之财产。

来源:互联网


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK