10

直击AWS Re:Invent 2021大会:一鼓作气推出Graviton3芯片、Inferentia、Trainium Trn1...

 2 years ago
source link: http://soft.zhiding.cn/software_zone/2021/1202/3137785.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

直击AWS Re:Invent 2021大会:一鼓作气推出Graviton3芯片、Inferentia、Trainium Trn1以及Nitro SSD接口

来源:至顶网软件与服务频道    2021-12-02 17:36:25

关键字: 亚马逊云科技 AWS Re:Invent 2021大会

作为亚马逊云科技的年度盛会,本届AWS re: Invent 2021大会重点关注云战略与运营、安全性、开发者生产力以及IT架构与基础设施议题。

AWS re: Invent堪称当今业界最具份量的云计算大会。亚马逊在公有云IaaS与PaaS市场上一直占据主导地位,其庞大的生态系统以及本次推出的数十种产品,再次凸显出云巨头强劲的路线创新能力。

直击AWS Re:Invent 2021大会:一鼓作气推出Graviton3芯片、Inferentia、Trainium Trn1以及Nitro SSD接口

本文将向大家介绍几项重要的AWS公告,并通过一些实际用例展望这些成果在未来落地时将会带来的具体影响。

Graviton演变史

亚马逊希望在Graviton2的基础上再次将性价比指标推向高点。截至目前,AWS已经推出了12种由Gravtion2处理器支持的EC2实例,包括通用型、计算优化型、内存优化型、存储优化型、峰值型和加速计算型等,分别服务于从初创公司到大型企业的各类客户群体。

经过三年的探索,相信不会有人再怀疑AWS的Graviton和ARM in the Cloud战略能否成功。2021年Six Five峰会上的“Gravtion挑战赛”掀起了令人难以置信的市场反响。这场挑战通过提供蓝图和分步指南的方式,帮助开发人员将自己的工作负载迁移至基于Gravtion的实例。共有超过1000名来自初创公司和大型企业的开发者参与其中,就连不少独立开源开发者也加入进来一试身手。

AWS则在本届re:Invent大会上公布了获胜者名单。企业类冠军为VMware vRealize团队,他们在项目中迁移了60个微服务、实现了48%的延迟改善,并将成本降低达22%。Kasm Technologies在初创公司中拔得头筹,性能提升达到48%,容器流媒体平台的潜在成本下降达25%。尽管如今比赛已经结束,但AWS仍将保留为期四天的支持服务,帮助更多开发者将工作负载迁移至Graviton。

AWS还在努力降低Graviton的使用门槛,包括为基于ARM架构的应用程序提供全面的生态系统支持。自从Graviton于2018年发布生态系统支持计划以来,已经从各类Linux操作系统及软件服务(包括容器、监控与管理、安全和开发软件)社区得到了振奋人心的积极响应。

在本届大会上,AWS还公布了Graviton Ready计划,除了为合作伙伴提供解决方案认证之外,还努力向客户宣传哪些应用程序已经做好了登陆Graviton的准备。

在会上,AWS又公布了三个基于Graviton2的新实例。其中两个为存储优化型实例,即采用全新AWS Nitro SSD 的Im4gn/Is4gen;外加第一个将Graviton2与英伟达GPU结合起来的新型GPU实例。

新一代Graviton3

更令人激动的是,如今Graviton已经从之前功能有限的初代方案转化为全方位服务实例,同时进一步降低了工作负载的迁移门槛。

但AWS用Graviton3的发布再次强调,他们的处理器探索之路仍在继续。Graviton2的性价比已经比发布时的云计算实例高出40%,而Gravtion3则更进一步。据称与Graviton2相比,新的C7g实例能够再将计算性能提升25%。虽然AWS没有确认,但Graviton3使用的是Arm Neoverse V1架构,支持SVE(可伸缩矢量指令)与BFloat16。AWS还提到新一代处理器的浮点运算性能提高到2倍,能够更高效地处理科学及某些机器学习/媒体编码类工作负载。此外,其加密工作负载的性能也提高到2倍;作为Graviton3的重点应用场景,其在某些机器学习推理工作负载中的性能甚至提高到3倍。C7g实例还配备有最新的DDR5内存,与基于Graviton2的实例相比内存带宽提高了50%,能够显著增强科学计算等内存密集型应用的处理性能。

对于人们一直关注的节能减排问题,AWS表示与同类原有EC2实例相比,Graviton3实现相同级别性能所消耗的能源降低达60%。

搭载Gravtion3处理器的全新C7g实例主要面向计算密集型工作负载,例如高性能计算(HPC)、游戏、视频编码和基于CPU的机器学习。

用于人工智能(AI)和机器学习(ML)的定制化芯片

如今,几乎每一位AWS客户都或多或少需要处理AI和ML负载,包括金融服务、医疗保健、制造和零售等多个领域。客户已经意识到AI和ML对于保持竞争力、为客户提供更佳体验的重要意义。但当前AI与ML面临的最大挑战,就是高昂的实施成本。

AI与ML分为两个阶段。我们首先需要训练模型,之后才能利用这些模型执行推理——机器学习与深度学习都需要遵循这样的流程。云则是AI与ML的理想承载平台,不仅提供丰富的高性能计算、高速网络与海量存储资源,同时也允许用户以按需方式灵活控制资源成本。

大多数客户希望利用AI/ML的力量为业务和客户体验提供积极影响,但却一直受困于模型训练和推理带来的高昂成本。AWS致力于提高模型性能、降低AI/ML实施成本,而定制化AI与ML芯片也正是为此而生。

AWS发布的首款面向推理应用的机器学习芯片名为Inferentia。推理过程的实质是对传入数据进行实时分析;AWS决定以此为起点,是因为ML中约九成成本源自推理负载。Inferentia能够以远低于GPU实例的价格提供机器学习推理所必需的高性能与吞吐量。

AWS还提供AWS Neuron SDK,帮助开发人员通过TensorFlow及PyTorch等框架轻松从基于GPU的推理模型迁移至Inferentia。

与推理类似,ML训练同样极耗资源,需要大量并行处理的高性能算力。在这一领域,训练时间与训练成本是同等重要的两大核心指标。客户需要不断收集新数据以重新训练模型,这就让训练成本成了一个“无底洞”。

AWS利用高并行数学运算与更高的ML模型训练算力加快整个过程,将网络吞吐量由基于GPU实例上的每秒500 Gib提升至每秒800 Gib;同时在网络与训练芯片之间提供高吞吐量互连、降低延迟,由此实现更快的云端ML训练速度。

通过高速网络,客户可以创建EC2 UltraClusters并使用800 GB网络将数千个训练加速器汇聚起来,建立起PB级的无阻塞集群。其在本质上已经属于小型超级计算机,能够显著缩短复杂模型的训练时长。

由AWS Trainium芯片支持的全新Trn1实例致力于“在云端提供最快的机器学习训练速度与最低实施成本”;与配备英伟达A100的最新P4d实例相比,Trn1实例在训练深度学习模型的成本方面可降低达40%。AWS表示,Trainium芯片的峰值机器学习模型训练性能可达最新P4d实例的1.5倍。

Amazon EC2 I4/Im4gn/Is4gen实例采用全新AWS Nitro SSD

这一次,亚马逊宣布EC2 I3/I3en实例将提供NVMe SSD实例,专为低延迟、高I/O性能及低成本吞吐量等目标进行优化。I3/I3en属于存储优化型实例,适用于需要直接访问本地存储上数据集的应用程序,例如横向扩展的事务与关系数据库、NoSQL数据库、大数据与数据分析类工作负载。

随着工作负载向着更复杂的读写访问与更大规模的数据集发展,客户对计算性能和数据访问速度的需求也在同步提升。

新一代I4/Im4gn/Is4gen实例通过AWS原创设计的AWS Nitro SSD提供高达30 TB的NVMe存储,最大限度提高I/O密集型工作负载的存储性能。

在询问这些定制SSD的细节信息时,AWS给出了这样的回应:“根据对运营商使用的SSD及NVMe技术的现实观察,我们意识到FTL(闪存转换层)是实现高性能、一致性与可靠性的关键。这种固件一直被用于为工业 级商用存储设备提供数据持久性、安全性与性能余量保障。即使两台设备中使用的存储介质完全不同,不同厂商的不同FTL也可能给产品带来完全不同的性能与操作特性。我们早在2016年2月(甚至更早)就开始研发FTL技术这一基本技术元素。”明白了,AWS正在优化FTL以提高速度表现。

与上一代I3/I3en实例相比,AWS表示预期I/O延迟将降低达60%、延迟波动性降低75%。AWS Nitro SSD与AWS Nitro系统紧密集成。前文也提到,采用AWS Graviton2处理器的Im4gn实例相较于之前的I3实例将性价比提高了40%,每TB存储成本则降低达44%。同样使用Graviton2处理器的Is4gen实例与I3en实例相比,每TB存储成本最多可降低15%,计算性能则提高达48%。采用第三代英特尔Scalable处理器(Ice Lake架构)的I4实例与现有I3实例相比,计算性能也有55%的提升。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK