5

腾讯云孟凡杰:我所经历的云原生降本增效最佳实践案例

 1 year ago
source link: https://blog.csdn.net/m0_46700908/article/details/126120664
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

腾讯云孟凡杰:我所经历的云原生降本增效最佳实践案例

4d62eb9e5b7c45e43562e20416f6d263.gif

​嘉宾 | 孟凡杰

出品 | CSDN云原生

CNCF云原生计算基金会2021年《FinOps Kubernetes Report》显示,迁移至 Kubernetes 平台后,68%的受访者表示所在企业计算资源成本有所增加,36%的受访者表示成本飙升超过20%。因此提升资源利用率,实现降本增效,已成为当前企业关注的重点。

但该如何提升资源利用率,实现降本增效?这值得云原生从业者持续探讨和互相学习。

基于此,中国信通院、腾讯云、FinOps产业标准工作组联合发起《原动力x云原生正发声 降本增效大讲堂》系列直播活动。在2022年6月23日的第一讲活动上,腾讯云任容器技术专家、FinOps产品研发负责人孟凡杰分享了云原⽣降本增效最佳实践案例。

孟凡杰致力于云原生成本优化,是云原⽣成本优化开源项⽬Crane发起⼈,著有《Kubernetes⽣产化实践之路》、《软件研发效能提升实践》。本文整理自孟凡杰的分享。

当前,成本优化成为企业上云的核心关切。在腾讯内部,对资源利用率有非常高的要求,历经海量自研业务上云的数年技术探索和成本优化实战,成效明显——总体规模5000万核,混部后资源利用率达到65%,累计节省30亿元人民币。

23fe1ba6e0ea849f5b138d27a50926de.png

云原生成本管理现状与挑战

CNCF 2021年调查显⽰,云原生部署率创历史性新⾼,96%的组织已经在调研或使⽤Kubernetes。也就是说,这些组织要么已经在生产系统使用了Kubernetes,要么已经在做POC了。

同时,Flexera发布的《2021云计算市场发展状态报告》显示,30%~35%的云⽀出被浪费。基于腾云公有云客户数据分析和调研也佐证了这一点——客户集群中资源成本浪费⾮常严重,有众多客户提出关于提⾼资源利⽤率的诉求。采样数据显示,物理机平均利⽤率10%,虚拟机平均利⽤率12%,而容器化平均利用率只有14%,大大低于我们的预期。

在后云原生时代,成本管理面临着诸多挑战:

  • 去中⼼化:随着以Kubernetes为核⼼的云原⽣应⽤的蓬勃发展,传统的集中式财务预算和IT管理模式在向以业务为导向的分布式决策转型;

  • 不断上涨:CNCF调查显⽰,随着业务的快速发展,企业的云费⽤以24%的年增长率快速增加;

  • 动态变化:云原⽣的动态环境和弹性能⼒导致云费⽤随业务负载不断变化;

  • 浪费严重:业务上云以后缺乏资源优化意识,依然以传统资源配置思维管理资源,浪费严重。

云成本管理的核⼼是在保障业务的前提下,最⼩化资源需求。但由于Kubernetes原⽣能⼒的先天不⾜,导致资源浪费。

  • 资源配置(不会配):基于经验的资源配置不准导致⼤量浪费。

  • 弹性(不敢配):基于阈值的弹性的滞后性导致业务来不及弹。

  • 业务稳定性(不能配):当CPU发⽣抢占时以cpu.shares公平分配时间⽚,无法确保延迟敏感型业务的稳定性。

f630a47f78c4adee67fdea82de2317d4.png

FinOps与Crane

腾讯的云原生降本增效最佳实践是基于FinOps框架开展的。

FinOps定义了⼀系列云财务管理规则和最佳实践,通过助⼒⼯程和财务团队、技术和业务团队彼此合作,进⾏数据驱动的成本决策,使组织能够获得最⼤收益。其原则、角色、成熟度、阶段、能力如下图所示。

f7a50b8bc9add7688e738d52524a02f6.png

基于以上的方法论,腾讯开源了一个成本优化项目Crane(Cloud Resource Analytics and Economics),让腾讯自研业务云原生化的经验和工具帮助更多人。Crane架构具备以下特点:

  • 预测为王:可扩展的预测算法;

  • 优化为本:基于预测的资源再分配、成本可视化、多维扩缩容;

  • 稳定性为根:基于业务优先级的增强QoS;⼲扰检测和主动回避。

以Crane为基础框架的降本产品架构如下图所示。

c0ce3fdd43a0d46f03f81f66e87c0b46.png

具体推动降本时,FinOps团队是降本的核心,作为集中化决策团队,定位承上启下,向上汇报给管理层(CTO/CFO/COO),接受管理层的授权去推动所有业务部门的改造以及平台优化;向下把每个执行的任务细分到不同的分布式执行团队(平台运维、业务运维)。

FinOps团队的日常工作涵盖降本增效战略、成本分析与浪费识别、目标制定与下发、费率优化、业务侧优化、平台侧优化。

ef0be8960c2dbd3c3712339a101b9f6e.png

在产品层面,腾讯推出了数据驱动的成本分析与成果测算。

离线数仓

  • ⾃定义Spec Watcher捕获workload变动

  • 基于Prometheus Metrics Beats每⽇凌晨拉取当天业务指标

  • 针对Metrics Beats做了⾃定义存储优化,存储空间降低数个量级

离线算法评估

  • 针对⼤量离线指标数据评估预测算法准确性

运营数据分析

  • 聚类与业务画像

  • ⼤盘现状与⾛势

  • ⽤户⾏为分析

be784e18a6b5bb361a86d0fd1e348dd1.png

fb776cf5b885e955f534a8e0b36b4d28.png

最佳实践举例

以腾讯某部门集群优化为例,在优化之前,该部门的状况是:

  • 节点装箱率参差不齐:近⼀半集群装箱率不⾜50%;

  • 节点利⽤率低:三分之⼆集群峰值利⽤率不到40%;

  • 业务资源利⽤率低:CPU利⽤率15%,内存利⽤率25%;

  • 有效弹性占⽐低:只有10%的HPA在本年度弹出过。

调研后发现,这是一个普遍现象,为了改善这些问题,腾讯是这样操作的。

目标设定与绩效晾晒

  • 为优化腾讯内部业务云资源,腾讯定义了云成熟度模型

  • 该模型从平台侧以及业务侧考核各个BG的云资源使⽤情况

  • 总成熟度得分 = 业务侧得分 *  50% + 平台侧得分 * 50%

  • 得分情况从作业、产品、部门维度层层汇总,并以该结果作为考核参考指标

业务侧优化

成本可视化

  • 基于预测的趋势分析

成本和浪费识别

  • 与计费API整合的费⽤展⽰

灵活的汇聚维度

  • 按应⽤类型

  • 按⾃定义标签

⽅便可信的优化能⼒

  • 可⽀持原地升降配的规格优化

  • 弹性推荐、定时弹性和预测弹性

  • 三条黄⾦曲线展⽰推荐值的来源

d8031ecf0d5c8c33f66fe4b4017e606f.png

平台侧优化:节点容量缩放和⽔位管理

集群大盘可视化

  • 集群总体利⽤率

  • 节点利⽤率热⼒图

节点容量缩放

  • 可定义节点容量缩放⽐例,放⼤节点可分配资源,提升装箱率

节点水位控制

  • 可⾃定义节点⽔位,控制节点利⽤率上限

  • 动态调度器依据利⽤率装箱,确保真实利⽤率与⽬标利⽤率⼀致

  • 可配置紧缩优先调度策略,⽅便退还闲置节点

f5feb3aa9afe6c28e45c58933c35257a.png

平台侧优化:业务定级与混部

优先级定义

  • 平台运维定义基于PriorityClass的冲突处理策略

  • 业务运维为业务定级

冲突检测与主动回避

  • 灵活的异常检测策略

  • cAdvisor、eBPF、BizProbe

  • 综合指标考量

  • CPI、Steal Time、CPU Utilization、Memory Utilization、Network IO、Disk IO

主动回避策略

  • ⾼优业务CPU绝对抢占

  • 低优业务主动驱逐

06c509bb0571a54099bb41ce712cd598.png

内部大规模落地的成效

  • 在腾讯内部⾃研业务⼤规模落地

  • 部署⾄数百个Kubernetes集群

  • 管控数百万CPU核

  • 全⾯上线⼀个⽉内,⼤盘总核数缩减25%

0e205fa9dbd421b9dc00c53e5672c2db.png

如果您也面临云原生上的降本挑战,欢迎访问我们的开源项目地址https://github.com/gocrane/crane 与我们联系。非常期待与业界同行交流降本经验和技术,用Crane的能力为您解决成本优化核心痛点。

【原动力×云原生正发声降本增效大讲堂】第二期聚焦全场景在离线混部、K8s GPU资源效率提升、K8s资源拓扑感知调度主题,分别在7月28日、8月4日、8月11日晚20:00-21:00进行。点击『此处』进入活动专题,带你体验云原生降本增效实践案例、了解如何解决企业用云痛点、掌握降本增效关键技能……


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK