1

变天的云计算怎么玩?看春晚保障

 2 months ago
source link: https://www.36kr.com/p/2656636298756355
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

变天的云计算怎么玩?看春晚保障

晓曦·2024-02-20 13:30
春晚早已是数字世界技术亮剑的绝佳舞台。

历经41年洗礼,春晚早已不仅是一台晚会,而是中文世界的流量高地,更是数字世界技术亮剑的绝佳舞台。

中国云计算行业甚至一度流传:想了解一家云厂商的江湖地位,那就去翻春晚保障者名单。他们,台前跑出了行业加速度,幕后锚定了IT风向标。在这个得天独厚的“演武场”,如果没有厚实的技术肩膀,很难扛住“泼天的流量”。

2024,京东再战春晚。

interlace,1

春晚保障从升维转向降维

春晚无疑是全球最极端的大流量高并发系统之一。任何小问题,都将引发大关注。

自2015年互联网春晚拉开序幕,瞬时涌入的巨大流量与红包互动相伴而来,数十亿人同时抢红包,数十亿条数据同时汇集,业界并非不清楚它的力量,可受制于基础设施和技术水平,宕机事件仍时有发生。

为解决这一难题,业界通常作加法:一手堆资源,投入海量成本,提前对服务器和基础架构进行扩容,增加资源硬扛流量;一手“拉人墙”,聚全行业力量,为春晚互动提供技术保障。

反观虎年春晚,京东云却在服务器0增加的情况下,独自支持春晚,将计算资源在抢红包和购物节两个场景间来回切换,4小时完成了16次秒级腾挪上千万核计算资源的极限操作,被媒体称作云计算领域的“三元桥换桥”。

上述转变,与中国云计算思维模式的变迁,一脉相承。

如果说,拼资源做加法是春晚保障的上半场,那么,降成本做减法就是春晚保障的下半场。随着分布式、自动化、高弹性云计算架构的日益形成,中国云计算思维方式,也从升维走向降维,拼资源和堆人力已不再是行业考量的重点,降本增效转而成为业界主流叙事。

这对主打低价心智的京东来说,尤为重要。龙年春晚,他们面临的挑战更严峻,既要发放30亿红包,又要派送1亿好物,还要确保年货供应链服务履约,基础设施降本是实现其低价的关键一环。

在最大规模、最全链路、最复杂场景,他们不仅不加资源,还要将整体资源成本下降50%。这不仅是对技术的挑战,更是对团队智慧和创新能力的考验。

京东云唯一的路径,就是用智能技术,最大限度压榨现有资源,把利用率提上来。

面对16天史上最短备战周期,这家云厂商敏捷上线春晚保障“AI指挥官”,即春晚保障Agent。借助大模型,连接多个系统数据,将流量预测、极致调度、智能备战等关键环节压缩串联,为春晚保障提效。

quality,q_80

流量预测走向“智能描摹”

精准预测,是春晚保障的基础。这就像医生术前作病情描摹一样。无论是病理分析,还是诊疗方案,抑或风险评估,术前的精准描摩,直接关系一台手术的成败。

历经数次春晚大考,业界深知,春晚亿级流量,带来的高频且脉冲式洪峰,仅凭人力疏导,见效慢、作用小、成本高。一旦流量预测过高,将造成资源浪费,而流量预测过低,匹配资源不足,将引发宕机风险。因此,实现计算资源和高并发流量的智能临摹,势在必行。

interlace,1

京东云再战春晚,大模型成为流量预测的关键技术变量。

他们借助大模型能力,分析历史数据和虎年春晚保障经验,绘制更精准更敏捷的流量地图,从数千个数据维度,对春晚流量“望闻问切”,实现了超95%的预测准确率。应对流量冲击时,大模型还可以自动调整后续几轮的红包策略,确保流量平稳分配。这样,核心流量接入以及转化均在预期之内,还能更高效地保障零售、物流环节的整体供应链履约。

这一智能临摹,也为京东零售快速生成互动场景的用户权益策略,提供了依据。在制定春晚1亿好物策略时,运营人员根据精准预测流量大小、预判用户访问轮次分布,基于交互式策略画布,5分钟内,以无代码的形式生成用户策略并上线,这相当于5个工程师,以写代码形式,连续工作100个小时。

智能技术带来极致调度

极致调度,是春晚保障的支柱。它事关每一个在线业务的资源分配,每一个离线业务的算力运用,这种追求资源利用最大化、降本增效的极致调度艺术,如同一位出色的指挥家引领整个乐团达到和谐共鸣。

interlace,1

龙年春晚,云舰扛起了极致调度的重任。作为京东云混合多云操作系统,云舰的主要作用,在于消除底层各类软硬件基础设施的差异,将所有可供调配资源,聚合在统一的资源池内,敏捷地对包括x86计算资源和国产化计算资源等进行管理与统一调度。

虎年春晚,它就秒级调度近300万个容器、超1000万核算力资源,应对春晚红包活动流量洪峰。

这次,面对“红包互动+年货购物”高并发和超复杂场景,云舰通过规模化混部技术,让京东云混部计算集群 CPU 整体利用率控制在60%左右。

要知道,行业CPU 整体利用率一般在40%和50%之间,进一步提升CPU使用率,难度极大。在离在线混部环境中,CPU使用率过高,固然会降低基础设施成本,但也容易引发资源争抢,如何在确保系统稳定性的情况下,将CPU 整体利用率控制在60%?

云舰采取了业务分级策略,它将高优先级和低优先级业务混合部署,通过智能预测,确保高优先级业务需要资源时,可以秒级抢占低优先级业务的资源。在这个过程中,云舰自研的调度类算法,可以无视传统模式下的CPU时间片,将干扰率由5%降到1%,更迅速抢占资源,让高优先级业务形成更明显压制。

自虎年保障以来,京东云混部集群的规模和应用数量增加3-4倍,云舰可调度的资源随之大幅增长,有效支撑AI训练和推理任务的离在线混布、快速切换。其中,仅容器化资源部署密度,就提升3倍,可以说是“榨”干了GPU性能,从而助力整体资源成本下降50%。

上述实践,也开创了全栈国产化产品支持央视春晚红包互动的行业先河。

大模型开启人机协同备战

人机协同备战,是春晚保障的路径。正所谓“将军不打无准备之仗”,配备AI能力的京东春晚保障团队,在春晚战役打响前,就已完成智能备战。

interlace,1

拿红包互动来说,全球观众不登录就可抽奖抢红包,活动的匿名性,极有可能引发大范围DDoS攻击。若恶意羊毛党模拟用户行为,在短时间内发起大量请求,抢占红包,将迅速消耗服务器资源,导致用户无法访问服务。

找到风险点,京东云安全大模型便开始靶向排雷,系统模拟攻击者薅羊毛行为造成的DDoS攻击。安全运营人员打开告警链接,查看安全大模型分析报告,对攻击手法,攻击链路、防护策略一目了然,做到有备无患。

与此同时,安全大模型还将生成并保存SOAR安全编排、自动化及响应剧本,令运营剧本生成速度提升10倍,大幅提升应急响应速度。

攻防演练,验证了系统安全性。京东云还需打赢另一场硬仗,那就是压力测试。

就传统压测而言,要提前 3个月准备,耗时费力不说,数据也不准确,极易引发扩容浪费。为了解决这一问题,京东研发了泰山平台,并集成了ForceBot全链路军演机器人和故障分析大模型。

ForceBot像是制造问题的高手,故障分析大模型则是解决问题的高手。

前者,通过自动化部署,模拟并实时监控海量用户抢红包、购物等行为,制造流量洪流对系统施压,并秒级反馈压测数据。

后者,不仅承担故障诊断、故障分析、故障记录等工作,也支持压测平台的监控工具实时收集系统性能指标,确定故障的具体位置,还能分析日志文件,找出异常行为或错误信息,快速定位问题,辅助工程师决策。

值得一提的是,作为大模型支持的代码助手,JoyCoder通过AIGC的方式,快速生成压测场景代码,具备代码自动预测补全、代码翻译、生成接口文档、代码优化、生成单测、安全漏洞识别及修复等功能。

春晚保障期间,Joycoder周活跃用户数4000+,总计被4000+研发人员调用约25万次,研发效率提升10%。

追随、并行、超越的中国故事

流量与预测、预测与调度、调度与备战,环环相扣的智能技术链条,如流动的音符,奏响了春晚保障的京东云乐章。

这个曲调,从中国式超越的技术洪流中涌来,既崭新,又熟悉。

它曾鸣响中国速度,一辆辆高铁冲出亚洲,改写世界铁路规则;它曾呈现5G网络建设世界领先,载人航天、火星探测更进一步;它曾雕刻中国供应链,释放超级连接力,走向产业纵深……

如今,它记录9年春晚互动保障的变迁,一展中国式超越的锻造华章——从宕机到顺滑,从拼资源到拼智能,智抗春晚超级流量,让保障难题,在实践中破解,让技术愿景,在发展中实现,再次上演从追随、到并行、再到超越的中国故事。

正如京东云相关负责人说,“回望春晚保障变迁,团队全面向智能化转型,不仅推进智能应用的大规模实践,也锻炼了支持人工智能、大模型的数字基础设施,形成了更全面,更高效,更低成本的大型活动保障体系。”

龙年春晚过后,30亿红包和1亿好物,将很快融入国民经济末梢,京东云智抗大流量的佳话,也将悄然编织进中国云计算行业的技能图谱,但智能技术所带来的降本、增效、提质,仍在岁月长河中,不舍昼夜,滚滚向前。

本文由「晓曦」原创出品, 转载或内容合作请点击 转载说明 ;违规转载必究。

寻求报道

本文图片来自:企业授权


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK