3

大模型时代的算力革新,西云算力的三位一体战略

 1 week ago
source link: https://server.51cto.com/article/787007.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

大模型时代的算力革新,西云算力的三位一体战略

原创
作者: 鸢玮 2024-04-25 09:08:44
近日,51CTO 有幸采访了西云算力 CTO 梁峰,就大模型时代下西云算力的布局建设及战略发展进行了深入的探讨。 在科技飞速发展的今天,大模型技术正以前所未有的速度改变着世界。随着大模型技术的不断突破,众多企业纷纷

在科技飞速发展的今天,大模型技术正以前所未有的速度改变着世界。随着大模型技术的不断突破,众多企业纷纷调整战略,以适应这一新兴领域的快速发展。

对于算力运营商而言,这场变革同样带来了前所未有的机遇与挑战。西云算力,作为这场变革的积极参与者,也在这场变革中积极探索,寻求新的发展机遇。近日,51CTO 有幸采访了西云算力 CTO 梁峰,就大模型时代下西云算力的布局建设及战略发展进行了深入的探讨。

在科技飞速发展的今天,大模型技术正以前所未有的速度改变着世界。随着大模型技术的不断突破,众多企业纷纷
在科技飞速发展的今天,大模型技术正以前所未有的速度改变着世界。随着大模型技术的不断突破,众多企业纷纷

梁峰表示,随着大模型技术的广泛应用,算力需求呈现出爆炸式增长的趋势。西云算力紧跟时代步伐,不断优化算力布局,提升服务质量,以满足市场日益增长的需求。同时,西云算力还积极探索新的技术应用和商业模式,以适应大模型时代的发展需求。

西云算力的三位一体战略

据了解,西云算力的愿景是打造最有效率的绿色安全 AI 算力平台。为实现这一愿景,西云算力从多个方面努力,在数据中心的建设上,西云算力致力于为客户提供高功率、低能耗的设施,通过设计智能模式和空间规划,以及精细测试风洞风流模型,不断优化散热效果。

其中涉及了大量的技术挑战和创新实践。在集群设计方面,西云算力精心选择网络架构,包括 RDMA 网络类型、网络交换机以及互联网模式等。特别是在处理大规模、三层网络架构时,确保路由协议能够适应 AI 训练的大流量模式,技术要求极高。同时,在云平台搭建过程中,西云算力注重容器化服务的优化,以满足 AI 训练和推理的调度需求,确保模型数据调度、存储与计算消耗之间达到最佳平衡,从而最大化 MFU。在推理层面,西云算力选择最适合的框架、加速库、显卡或芯片,力求实现效率最大化。此外,安全性始终是西云算力关注的焦点,从服务器到网络,再到模型和用户数据的安全,都需要经过严格的技术研发与保障。

188ebcf5233e19f3dd1772b794262a80d19049.png

如今,西云算力凭借其在算力、能源和生态方面的深厚积累,构建了三位一体的整体战略。在算力方面,西云算力已建成的智算算力规模位居国内前列,能够提供高效的大模型训练支持,实现了分钟级断点续训,并行效率得到显著提升。在能源方面,西云算力注重节能减排和可持续发展,结合宁夏独特的气候特征,西云算力采用了独创的自然风冷技术,使得节能效果相比传统技术高达 70%。在生态方面,西云算力积极与产业链上下游企业合作,共同打造开放、共享的计算生态,为行业发展注入新的活力。通过这一系列的战略举措,西云算力正朝着其愿景稳步前进,为中国的 AI 算力发展贡献自己的力量。

算力建设的深度发展

西云算力由亚信联合创始人、宽带资本董事长田溯宁先生创办,于 2016 年成立。通过近十年的经营,西云算力在云计算、大数据、人工智能等领域不断探索和实践,积累了丰富的云计算基础设施运营经验和技术储备,始终坚守技术创新与服务优化的初心,致力于为客户提供更加高效、可靠的 AI 算力支持。

在硬件服务器集群的建设方面,西云算力不断投入研发力量,优化集群架构,提高数据处理能力和稳定性,通过采用了无损 RDMA 网络,大幅提升了数据传输效率。并且与团队及合作伙伴的共同努力,成功建设了大规模商业集群,这些集群在大规模、大模型训练中发挥着关键作用。

其次,为了进一步提升 MFU(模型算力利用率),西云算力从多个维度进行深度优化,包括框架、算法、算子、通信和监控容灾等方面的优化工作,促进了应用的快速迭代,提升了模型训练效率,还有效降低了能源消耗,实现了更好的训练效果。

第三,西云算力还提供容器、MAAS 层、平台层及 Agent 层等多层次服务能力,企业客户可以根据自己的需求选择合适的服务。例如,研发能力强的客户可以选择使用容器层,而注重应用交付的客户则可以获得 MaaS 乃至 Agent 层的支持。这种灵活的服务模式有助于提高企业的应用开发效率,促进业务的快速发展。

能耗优化的多维探索

西云算力深知,能耗是计算中心运营成本的重要组成部分,因此始终致力于降低能耗、提升能效。

今年 1 月,西云算力投入使用了宁夏首个30 千瓦全自然风冷的高功率机柜数据中心,解决了高功率设备在数据中心的散热问题。同时,还结合宁夏的气候特征,通过独创的自然风冷技术,节能效果相比传统技术高达 70%。

其次,西云算力通过优化硬件设计、改进散热系统等手段,实现了机架级能效的显著提升。这不仅降低了数据中心的运营成本,也为西云算力赢得了良好的环保声誉。

此外,西云算力携手无锡天云数据中心科技有限公司,针对大模型训练需求,建设高功率机柜设计的基础设施机房,通过技术创新,实现了设备间连接线材的缩短和集中,进一步节省了成本并提升了传输效率。

生态建设的广阔前景

在生态建设方面,西云算力秉持开放、合作的理念,积极与产业链上下游企业携手,共同构建一个健康、繁荣的计算生态。

在供应链合作层面,西云算力与超云数字、新华三浪潮、等企业建立了紧密的合作关系;其次,西云算力还与算力优化平台进行合作,例如共绩科技和白海科技,通过合作伙伴的技术优势和客户资源,实现更广阔的合作;第三,西云算力还与中国专业开发者社区CSDN合作,以普惠算力赋能AI开发者。

值得一提的是,西云算力还与智沃优等服务人工智能领域初创企业的孵化器合作。通过与孵化器的合作,西云算力能够为初创企业提供全方位的支持,共同赋能他们在新模式探索和发展方面的努力。

英伟达GTC 大会启示:引领行业新趋势

作为全球 AI 技术领域的重要盛会,英伟达GTC 大会吸引了来自不同行业和类型的企业关注。西云算力也从中深刻感受到了大模型时代的浪潮和算力需求的迅猛增长,同时明确了未来的发展方向。

梁峰对 2024英伟达GTC 大会所传递的信息有着独到的见解。他指出,算力已成为新时代的能源,英伟达从单芯片内的堆叠转向芯片外的堆叠,推出 GB200 NVL72 旗舰级GPU机架系统,机架内通信采用铜缆替代光纤,凸显了能耗优化的重要性。此外,单颗芯片或单块显卡的比重在大会中显著减少,而英伟达更加聚焦于生态和应用场景的发展,特别是机器人与现实世界的交互场景。

对于西云算力而言,英伟达GTC 大会也给其带来了多方面的启示。梁峰认为,在 AI 发展的现阶段,大模型是驱动生态进步的基石,依然遵循 Scaling Law 原则,即更大的参数、更强的算力和更丰富的数据是模型质量的关键。因此,西云算力需要不断提升集群能力,从千卡走向万卡甚至更大规模。

其次,西云算力将坚定地为大模型公司提供最佳集群服务,同时关注 AI 应用生态的发展,与英伟达保持类似的战略方向。西云算力计划在 RAG 和 Agent 方面加大研究投入,提升应用开发的质量和效率,为客户提供更优质的工具链支持。

此外,西云算力也将密切关注小型 MoE(混合专家模型)的发展动态,为应用场景的推理提供更具性价比的算力解决方案。通过不断优化能源、算力和网络等方面,西云算力将建设高效、绿色、安全的算力平台,满足不断增长的AI算力需求。

结语

随着大模型时代的深入发展,算力运营商正迎来前所未有的新机遇。通过不断优化算力布局、提升服务质量、探索新的技术应用和商业模式,西云算力正朝着打造最有效率的绿色安全 AI 算力平台的愿景稳步前进。

展望未来,西云算力将继续致力于为大模型公司提供最佳集群赋能,并在技术研究和应用创新上不断突破。同时,西云算力将与业界伙伴紧密合作,共同推动 AI 技术的发展和应用场景的拓展,为行业的繁荣和进步贡献力量。

责任编辑:鸢玮 来源: 51CTO

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK