25

云上的芯脏病:奇怪的阿里云 RDS 数据库突发 CPU 近 100% 问题

 4 years ago
source link: https://www.tuicool.com/articles/fmA7NzJ
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

最近遇到了奇怪的阿里云 RDS 数据库突发 CPU 近 100% 问题,遇到了3次。

第一次是10月12日(周六)凌晨 3:24 负载极低的时候开始出现,早上发现后进行了主备切换,恢复了正常。

UN7zyif.png!web

第二次也是出现在10月12日,就在主备切换后不久,发现后又进行了主备切换,切换回之前出问题的服务器,恢复了正常。

ANbAju7.png!web

第三次是昨天(10月18日)23:15 开始出现,今天早上(也是周六)发现后,再次通过主备切换恢复了正常。

eUr6byZ.png!web

阿里云 RDS 型号用的是 SQL Server 2016 标准版,是9月份从 SQL Server 2008 R2 升级上来的,配置是 16核CPU,32G内存,比升级之前的配置上了一个档次。

问题非常奇怪,目前还没找到线索,有待进一步观察。

我们没向阿里云提交工单,因为之前每次遇到类似的问题,阿里云都是让我们优化 SQL ,而没有一次是通过优化 SQL 解决的。

非常抱歉,这个突发的云上芯脏病问题给您带来了麻烦,请您谅解。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK