4

如何避免故障

 11 months ago
source link: https://www.barretlee.com/blog/2022/05/13/qek0er/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

如何避免故障

作者: Barret李靖 2022-05-13 02:33:48 分类: 观点和感想 标签: 小胡子哥的碎语 评论数:

刚加入阿里的时候,总听人调侃,“没有经历过故障的人生是不完整的”。最近几年,我感觉把别人一辈子都遇不到的故障都经历了一次,从刚开始的谨小慎微,到现如今还算是胆大心细。

我在 15 年的时候就接手做淘宝 PC 端首页,当时流量最大的时候差不多有 1.5 亿;整个淘宝首页就我一个开发,对接大量三方接口、一堆业务运营,而且连一个测试人员都没有配,全靠自测;最可怕的是,架构组总是拿淘宝首页开刀,做一些尝新的东西,因为淘宝首页做了,那么其他业务开发就没理由不去做。在这个岗位上战战兢兢地干了一年半。

从那个时候开始,我就学会一件事情,叫做小心翼翼。搞得我后续 N 年的工作中都保持着“穷尽一切思考也要找到业务和技术边界 case 以避免故障”的习惯。这两年切换到后端和 SRE 视角以后,这种习惯更甚。

如何避免故障,其实很简单,保持思考周全、小心翼翼;要重视问题,并且能够及时消灭问题。一个小小的隐患,一旦流量被放大,那将会是一场不可收拾的灾难。

当然更重要的是从每一次故障中汲取经验,做到同样的问题不再犯,并且举一反三去解决更多的问题。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK