2

架构师必备:系统容量现状checklist - Java烘焙师

 1 year ago
source link: https://www.cnblogs.com/toplist/p/16366857.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

正如飞机在起飞前,机长、副机长要过一遍checklist检查,确认没问题了才能起飞。楼主也整理了一个系统容量现状checklist,方便对照检查。本文搭配架构师必备:如何做容量预估和调优,食用更佳。
作为架构师,不要觉得系统容量是运维工程师才关心的问题,而应当对系统容量现状做到了如指掌。这样才能知道系统的瓶颈在哪,哪些优化是要优先做的,以及为了应对活动期间突发的流量,做多少扩容。

本文分为2大部分,一是资源使用率,二是业务指标。

资源使用率

  • 实例个数、每个实例server的工作线程个数、MQ消费组线程个数
  • QPS峰值
  • 接口响应时间:平均、95分位、99分位、最大值
  • CPU使用率峰值
  • 报错数量/秒
  • JVM堆内存使用率峰值
  • GC回收时间
  • 磁盘使用率(如有,一般无本地存储)

MySQL

  • 分库数量、分表数量、从库个数、路由规则
  • QPS峰值、TPS峰值、读写比例
  • CPU使用率峰值
  • 磁盘使用率
  • 有无热点、数据倾斜
  • 主从复制/同步延迟ms
  • 慢查询数量/秒
  • 长事务数量/秒

Redis

  • 实例个数、集群方式
  • QPS峰值、TPS峰值、读写比例
  • CPU使用率峰值
  • 内存使用率峰值
  • key总数
  • 有无热点实例、有无热点key

HBase

  • 实例个数、region个数
  • CPU使用率峰值
  • 磁盘使用率
  • compaction时间段
  • 有无热点实例、有无数据倾斜

ElasticSearch

  • 实例个数、分片shard个数、路由规则
  • 文档document个数
  • CPU使用率峰值
  • 磁盘使用率
  • 有无热点实例、有无数据倾斜
  • 实例个数、分片partition个数
  • 消息TPS峰值
  • 消费堆积数量
  • CPU使用率峰值
  • 消息保留时长

核心流程的业务指标

每个系统都不一样,需要根据实际情况定义业务指标。如:

  • xxx成功率
  • xxx失败率
  • xxx个数、次数
  • xxx时长
  • xxx参与人数
  • xxx金额

状态机流转情况

如图所示,示例的状态机流转情况如下:

  • 流转方向:只能从1流向2,不能从2流向1
  • 前置状态:只能从2或3流向4,不能从1流向4
  • 中间态停留时长:2、3、4是中间状态,不应当长时间停留,否则认为是卡住了
  • 终结状态:5(成功)和6(失败)是终结终态,最终都会变成5或6

因此,需要关心的业务指标如下:

  • 各状态的个数
  • 成功率:成功终结状态的比例
  • 整个流程的时长
  • 卡在中间态的个数、时长

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK