2

AI算力龙头英伟达携手云计算王者亚马逊云科技,共同加速AI创新

 3 weeks ago
source link: https://www.dingkeji.com/post/sj/154105.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

AI算力龙头英伟达携手云计算王者亚马逊云科技,共同加速AI创新--丁科技网

AI算力龙头英伟达携手云计算王者亚马逊云科技,共同加速AI创新
2024-04-01 14:09:39
来源:丁科技网  
作者:建辉

1956年那个燥热的夏季,宁静的汉诺斯小镇里,那场在后来相当知名的“达特茅斯会议”,虽然敲定了“人工智能”作为“用机器来模仿人类学习以及其他方面的智能”的技术的代名词,但是对它的未来,应该是没有明确预判的。那些当时的行业“超脑”没有想到,“人工智能”在此后的几十年里波浪式前进、阶段性停滞、多次修正,并在某一个阶段突然爆发式崛起,而诸如“大模型”、“生成式”这样的术语,在那时,是未被讨论、规划甚至设想过的:在2020年之后,“人工智能”不仅有了真正的“靴子落地”的倾向,而且“脚印”加深,“脚步”加快。

特别是在Transformer出现后,大模型的规模平均每隔半年就会翻倍。目前,OpenAI最先进的大模型有1.8万亿参数,而前述扩张速度或许代表,这种参数规模,对于未来,仍然不过是个“开始”。这个时候,压力就越来越明确地给到了“算力”。

在英伟达 GTC 2024的主旨演讲中,英伟达创始人兼首席执行官黄仁勋表示,如果用一颗petaflop(每秒钟可进行1千万亿次运算)量级的GPU来应对前述大模型需要的计算规模,用时约1000年,“不够快”,“不够大”。

也是基于此,GTC 2024现场发布Blackwell GPU,AI性能达到20 petaflops,相比作为主要面向大规模AI和HPC应用的英伟达第九代数据中心GPU的Hopper,Blackwell的AI性能提升5倍,片上存储提升4倍。同时,包含多项计算加速技术。黄仁勋说,“Hopper很棒,但我们需要更大的GPU”,Blackwell就“非常非常大”。

外界将Blackwell称之为“算力核弹”。

不过,正如“核弹”需要很好的“发射平台”,要推动AI创新领域的“算力引爆”,英伟达并不是“一个人在战斗”,与之携手、提供优秀“平台”的,是与英伟达有13年合作历程的亚马逊云科技。后者致力于让最先进的AI算力在云端触手可得,Blackwell GPU平台即将登陆亚马逊云科技,亚马逊云科技将提供NVIDIA GB200 Grace Blackwell 超级芯片和 B100 Tensor Core GPU。

具体而言,双方的延伸合作,在AI前沿技术探索的规模、性能、安全、应用等维度亮点突出。

在云上加速超万亿级参数大模型研发

从黄仁勋的言语间,不难看到,英伟达Blackwell,剑指万亿参数规模大模型。

Blackwell架构下的新品NVIDIA GB200,包含两个B200 GPU(单个包含2080亿个晶体管)和一个Grace CPU,在具有1750亿个参数的GPT-3大语言模型基准测试中,GB200性能是H100的7倍,训练速度是H100的4倍,成本和能耗上GB200比H100降低了25倍。

亚马逊云科技将提供配置GB200 NVL72的英伟达Blackwell平台,该平台具备配备72颗Blackwell GPU和36颗Grace CPU,通过第五代NVIDIA NVLink™互连。亚马逊云科技则在云中为其提供强大的EFA网络连接、高级虚拟化的Amazon Nitro系统和Amazon EC2 UltraClusters超大规模集群等技术支持,客户能够在亚马逊云科技上扩展至数千个GB200 Superchips。

亚马逊云科技还计划提供配备基于新的英伟达B100 GPU的Amazon EC2实例,并能够在Amazon EC2 UltraClusters中进行大规模部署。此前,亚马逊云科技已经成功推出了基于英伟达H100芯片的Amazon EC2 P5实例,客户能够在云上将其P5实例扩展到超过2万个英伟达H100 GPU,后续还提供可短期使用这些实例的EC2 Capacity Blocks for ML功能,以帮助客户更好地安排云上生成式AI开发进程。

GB200芯片同时也在亚马逊云科技和英伟达共同开发的AI平台NVIDIA DGX™ Cloud上可用,这是一个在亚马逊云科技上双方共同开发的AI平台,为企业开发者提供了构建和部署先进生成式AI模型所需的专用基础设施和软件。

综上来看,亚马逊云科技通过对英伟达的Blackwell GPU的支持,在应对资源密集型和数万亿参数语言模型等推理工作负载加速方面实现了巨大飞跃。

Ceiba性能翻6倍,助力更多领域创新

在去年11月底亚马逊云科技2023 re:Invent全球大会上,Ceiba首次亮相,是当时英伟达与亚马逊云科技合作建造的世界上最快的AI超级计算机之一,当时的计算性能为65exaflops,,专为英伟达自身的研究和开发而设计,并独家托管在亚马逊云科技上。

伴随Blackwell出现,Ceiba项目迎来新进展,将采用GB200芯片进行设计。新的Ceiba项目拥有20736颗B200 GPU的超级计算机,采用新型NVIDIA GB200 NVL72系统构建,该系统利用第五代NVLink技术连接10368颗NVIDIA Grace CPU。系统还通过亚马逊云科技的第四代EFA网络进行扩展,为每个Superchip提供高达800Gbps的低延迟、高带宽网络吞吐量,能够处理高达414exaflops的AI计算量。

这与之前计划在Hopper架构上构建的Ceiba相比,性能翻了6倍。

以此为依托,英伟达将基于Ceiba项目推进大语言模型、图形(图像/视频/3D 生成)与仿真、数字生物学、机器人技术、自动驾驶汽车、NVIDIA Earth-2 气候预测等领域的 AI 技术,从而推动更多领域的生成式 AI 创新。

生成式AI开发安全更进一步

类型、规模庞大的安全问题,在近年来与大模型、生成式AI探索几乎相伴而生。通过合作,亚马逊云科技与英伟达继续强化了生成式AI的安全性。

一方面,英伟达也在Blackwell架构中增加了机密计算功能来强化AI的安全性。另一方面,Blackwell架构包含了可靠性引擎RAS,该引擎通过AI对可靠性、安全性等相关问题进行预测和预先诊断,在稳固运行的同时进一步降低运营成本。

至于亚马逊云科技,首先,坚持客户拥有并能够始终控制其数据,并确保数据不会与第三方模型提供者共享。

其次,Amazon Nitro系统与英伟达GB200结合能够阻止未授权个体访问模型权重。

GB200支持对GPU间的NVLink连接物理加密以及CPU和GPU间的数据传输加密,同时还能够利用Amazon EFA对分布式训练和推理过程的数据进行加密。

受益于Amazon Nitro系统,GB200系统能够将CPU和GPU的输入/输出功能卸载至专门的硬件中,以提供更加一致的性能,其增强的安全性可以在客户端和云端全程保护客户的代码和数据在处理过程中的安全。

推进生成式AI在生命健康领域的应用

亚马逊云科技与英伟达在利用计算机辅助的药物发现领域进行合作拓展,推出了新的NVIDIA BioNeMo™基础模型,用于生成化学、蛋白质结构预测,以及理解药物分子与目标的相互作用,这些新模型将很快在Amazon HealthOmics上提供。

Amazon HealthOmics是一个专为帮助医疗保健和生命科学组织存储、查询和分析基因组、转录组及其他组学数据而设计的专用服务。

Amazon HealthOmics和英伟达医疗保健团队还合作推出生成式AI微服务,以推进药物发现、医疗技术和数字健康领域的发展,该服务提供一个新的GPU加速的云端服务目录,涵盖生物学、化学、成像和医疗保健数据,以便医疗企业能够在亚马逊云科技上利用生成式AI的最新成果。

整体而言,这次的合作,是双方在技术领域的又一次强强联合:英伟达的超强算力芯片系统与亚马逊云科技强大的Elastic Fabric Adapte (EFA)网络连接能力、高级虚拟化( Amazon Nitro System)和超大规模集群(Amazon EC2 UltraClusters)等领先技术的结合,使得客户能够更快、更大规模、更低成本且更安全地在云上构建和运行数万亿参数的大语言模型。(丁科技网原创,转载务必注明“来源:丁科技网”)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK