1

英伟达:CPU 已落伍,用 GPU 训练大语言模型成本可降低 96%

 11 months ago
source link: https://finance.sina.com.cn/tech/digi/2023-05-29/doc-imyvmrpa8445592.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

英伟达:CPU 已落伍,用 GPU 训练大语言模型成本可降低 96%

广告

  IT之家 5 月 29 日消息,根据英伟达在 2023 年台北电脑展会上的演讲,该公司宣称其 GPU 可以大幅降低训练大型语言模型(LLM)的成本和耗能。

7b35-b5c8a2784811e959d25c305b72c112d2.jpg

  英伟达首席执行官黄仁勋在演讲中,向 CPU 行业发起了挑战,他认为生成式人工智能和加速计算是未来计算的方向。他宣布传统的摩尔定律已经过时,未来的性能提升将主要来自生成式人工智能和基于加速计算的方法。

  英伟达在展会上展示了一份 LLM 的总体拥有成本(Total Cost of Ownership,TCO)分析:首先,他们计算了训练一个 LLM 所需的 960 个 CPU 组成的服务器集群的完整成本(包括网络、机箱、互连等所有设备),发现这需要花费约 1000 万美元(IT之家备注:当前约 7070 万元人民币),并消耗 11 千兆瓦时的电力。

f61f-145dfdbb382c260af5491ff1238c7e44.jpg
251c-cbe5b08008a8d7eb333e2b92dc1f5411.jpg
5b8b-81c526a93bf78ef3d471bb572b43dcba.jpg
广告

  相比之下,如果保持成本不变,购买一个价值 1000 万美元的 GPU 集群,可以在同样的成本和更少的电力消耗(3.2 千兆瓦时)下训练 44 个 LLM。如果转而保持电力消耗不变,那么可以通过 GPU 集群实现 150 倍的加速,以 11 千兆瓦时的电力消耗训练 150 个 LLM,但这需要花费 3400 万美元,此外这个集群的占地面积比 CPU 集群小得多。最后,如果只想训练一个 LLM,那么只需要一个价值 40 万美元、消耗 0.13 千兆瓦时电力的 GPU 服务器就可以了。

  英伟达所要表达的意思是,相比 CPU 服务器,客户可以以 4% 的成本和 1.2% 的电力消耗来训练一个 LLM,这是一个巨大的成本节省。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK