30

谈业务系统性能优化(200525)

 4 years ago
source link: http://blog.sina.com.cn/s/blog_493a84550102z8by.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

iAf2Yfm.jpg!web

对于业务系统的性能优化,我原来系统的谈过分析和诊断的思路,今天再谈下业务系统性能优化里面我们常见的一些思考和分析系统性能问题的方法。

上线前的性能测试是否有用?

有时候大家可能觉得奇怪,为何我们系统再上线前都做了性能测试,为何上线后还是会出现系统性能问题。那么我们可以考虑下实际上我们上线前性能测试可能存在的一些无法真实模拟生产环境的地方,具体为:

1. 硬件能否完全模拟真实环境?最好的性能测试往往是直接在搭建完成的生产环境进行。

2. 数据量能否模拟实际场景?真实场景往往是多个业务表都已经存在大数据量的积累而非空表。

3. 并发能否模拟真实场景?一个是并发需要录制复合业务场景,一个是并发量大时候需要多台压测机。

而实际上我们在做性能测试的时候以上几个点都很难真正做到,因此要想完全模拟出生产真实环境是相当困难的,这也导致了很多性能问题是在真正上线后才发现。

系统本身水平弹性扩展是否完全解决性能问题?

第二个点也是我们经常谈的比较多的点,就是我们的业务系统在进行架构设计的时候,特别是面对非功能性需求,我们都会谈到系统本身的数据库,中间件都采用了集群技术,能够做到弹性水平扩展。那么这种弹性水平扩展能力是否又真正解决了性能问题?

实际上我们看到对于数据库往往很难真正做到无限的弹性水平扩展,即使对于Oracle RAC集群往往也是最多扩展到单点的2到3倍性能。对于应用集群往往可以做到弹性水平扩展,当前技术也比较成熟。

当中间件能够做到完全弹性扩展的时候,实际上仍然可能存在性能问题,即随着我们系统的运行和业务数据量的不断积累增值。实际上你可以看到往往非并发状态下的单用户访问本身就很慢,而不是说并发上来后满。因此也是我们常说的要给点,即:

单点访问性能正常的时候可以扩展集群来应对大并发状态下的同时访问

单点访问本身性能就有问题的时候,要优先优化单节点访问性能

业务系统性能诊断的分类

对于业务系统性能诊断,如果从静态角度我们可以考虑从以下三个方面进行分类

1. 操作系统和存储层面

2. 中间件层面(包括了数据库,应用服务器中间件)

3. 软件层面(包括了数据库SQL和存储过程,逻辑层,前端展现层等)

那么一个业务系统应用功能出现问题了,我们当然也可以从动态层面来看实际一个应用请求从调用开始究竟经过了哪些代码和硬件基础设施,通过分段方法来定位和查询问题。

比如我们常见的就是一个查询功能如果出现问题了,首先就是找到这个查询功能对应的SQL语句在后台查询是否很慢,如果这个SQL本身就慢,那么就要优化优化SQL语句。如果SQL本身快但是查询慢,那就要看下是否是前端性能问题或者集群问题等。

软件代码的问题往往是最不能忽视的一个性能问题点

对于业务系统性能问题,我们经常想到的就是要扩展数据库的硬件性能,比如扩展CPU和内存,扩展集群,但是实际上可以看到很多应用的性能问题并不是硬件性能导致的,而是由于软件代码性能引起的。对于软件代码常见的性能问题我在以往的博客文章里面也谈过到,比较典型的包括了。

1. 循环中初始化大的结构对象,数据库连接等

2. 资源不释放导致的内存泄露等

3. 没有基于场景需求来适度通过缓存等方式提升性能

4. 长周期事务处理耗费资源

5. 处理某一个业务场景或问题的时候,没有选择最优的数据结构或算法

以上都是常见的一些软件代码性能问题点,而这些往往需要通过我们进行Code Review或代码评审的方式才能够发现出来。因此如果要做全面的性能优化,对于软件代码的性能问题排查是必须的。

通过IT资源监控或APM应用工具来发现性能问题

对于性能问题的发现一般有两条路径,一个就是通过我们IT资源的监控,APM的性能监控和预警来提前发现性能问题,一个是通过业务用户在使用过程中的反馈来发现性能问题。

而随着DevOps和自动化运维的思路推进,我们更加希望是通过APM等工具主动监控来发现性能问题,对于APM工具最大的好处就是可以进行服务链间和全链路的性能分析,方便我们发现性能问题究竟发生在哪里。比如我们提交一个表单很慢,通过APM分析我们很容易发现究竟是调用哪个业务服务慢,或者是处理哪个SQL语句慢。这样可以极大的提升我们性能问题分析诊断的效率。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK