5

特斯拉D1芯片拥有500亿个晶体管,AI算力可扩展至百亿亿级别

 2 years ago
source link: https://www.expreview.com/80137.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

特斯拉D1芯片拥有500亿个晶体管,AI算力可扩展至百亿亿级别

吕嘉俭发布于 2021-8-21 17:23
本文约 570 字,3 张图表,马上就好 …
本文约 570 字、3 张图表,需 1 分钟阅读

近日特斯拉(Tesla)举行的AI Day活动中,埃隆-马斯克(Elon Musk)及多位工程师,讲解了特斯拉纯视觉方案FSD的进展、神经网络自动驾驶训练、D1芯片和Dojo超级计算机等相关信息。其中特斯拉研发的AI训练芯片D1引起了不少人的兴趣,这款芯片将用于特斯拉目前正在构建的超级计算机,旨在以更少的消耗和更少的空间提供更高的性能。

据ComputerBase报道,D1芯片是采用7nm工艺制造的定制芯片,拥有500亿个晶体管,其裸片面积为645 mm²,小于英伟达的A100(826 mm²)和AMD Arcturus(750 mm²)。其配备了354个训练节点,支持用于AI训练的各种指令,包括FP32、BFP16、CFP8、INT32、INT16和INT8。

Tesla_D1_1.jpg

特斯拉表示。D1芯片可以提供22.6 TFLOPS的单精度浮点运算性能,BF16/CFP8的峰值算力达到了362 TFLOPS,热设计功耗(TDP)不超过400W。对AI训练来说,可扩展性非常重要,因此通过带宽为10 TB/s的“延迟交换结构”在各个方向进行互连。D1芯片周围会有一个I/O环,有576个通道,每个通道提供112 Gbit/s带宽。同时25个D1芯片可以组成的一个训练模块,带宽达到36 TB/s,BF16/CFP8的峰值算力达到9 PFLOPS。

Tesla_D1_1.jpg

如果在数个机柜中部署120个训练模块(包含3000个D1芯片),就能组成ExaPOD。这是世界上首屈一指的AI训练超级计算机,超过100万个训练节点,BF16/CFP8的峰值算力达到1.1 ExaFLOPS。相比特斯拉目前基于英伟达设备构造的超级计算机,在同样成本条件下,性能提高了4倍,每瓦性能提高了1.3倍,占地面积仅为五分之一。

Tesla_D1_1.jpg


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK