49

从IT角度看疫情治理

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=Mzg4NjAwMTQzNA%3D%3D&%3Bmid=2247485067&%3Bidx=1&%3Bsn=994a07d9eccf287f4ba05ad595409c75
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

这几天,天天吃瓜,情绪可谓是此起彼伏。 武汉红会,双黄莲,黄冈xxx委员...... 这几天内的热点,都可以顶上大半年的了。

但只是在感性地吃瓜,除了影响自身的情绪,似乎不能带来其它的收获。

作为一个程序员,这段时间在思考,疫情中暴露出来的一些问题,类比到我们的架构设计中,其实也会遇到。

这篇文章,就简单聊聊疫情治理和架构设计之间的一些关联。

资源过载

这次疫情,让我想到的第一点是资源过载。

从疫情分布的情况来看,武汉无疑是中心点,而且感觉已经严重过载。 除了武汉所在的湖北省,其它省份无论是确诊还是疑似,相比都少一个数量级,相信其它省份的医疗资源,治理资源都可以正常应对。

在IT架构里面,遇到过载,我能想到的几个办法是:   分流,流量隔离,资源扩容 , 在这几个措施之后,剩下的就只有 丢弃过载流量 ,要不就会造成系统大崩溃。

这次武汉的情况。

1. 分流(把病人转移到其他城市)不能做,可能会带来副作用。

2. 流量隔离(封城)已经实施,虽然隔离的动作慢了几步,但最终实施后,还是使得疫情的扩散得到有效控制。

3. 资源的扩容,在一般的IT环境下,是增加CPU,内存,磁盘等资源。 就这次疫情来说,一个是火神山和雷神山的建设,这个扩增的是物理资源; 一个是各地的医务人员支援,这个扩增的是人力; 再一个是物资的捐赠,这个扩展的是物品。

4. 丢弃过载流量,这个可以认为是非人为流程的自然处理。 武汉有不少患者得不到及时的确诊和医治就属于这种情况,但这是一个有损的措施。

在IT架构设计里面,过载是最难应对的一个问题,几乎不能完美解决,一旦遇到,就算最终不导致整体性崩溃,必然也是元气大伤。

这点武汉的疫情也是类似,医疗资源过载,治理方面的能力也遇到了瓶颈,除了暴露出的一堆问题,还有一个严重的后果就是一堆人得不到确诊和合理的治疗,代价就是一条条的人命,确实令人嘘唏。

其实过载最好的应对措施,就是让过载不要发生,也就是预防,但要做好预防也不是一件容易的事情,在IT架构里面,需要从这几方面来建设。

发现(预警)机制

在IT架构里面,预警机制的建立比较容易,因为IT系统面对的是确定的程序,程序不会骗人,我们只要监控好对应的请求流量,机器资源,异常问题点,再辅以一定的智能报警算法,就可以比较好地建设预警机制。

但在人文环境中,比如这次的疫情,面对的是人,人的不确定性,比机器要难把控多了。

有各方的利益,想法在里面,比如最初那8个被抓的谣言者,其实他们算是8个预警点,但很可惜,在预警出现的时候,就被直接关闭了,使得预警机制几近失效。

面对这种情况,我们会尝试诉诸 SOP。

SOP

SOP(Standard Operating Procedure)标准作业程序

SOP 是在有限时间与资源内,为了执行复杂的日常事务所设计的内部程序。 从管理学的角度,标准作业程序能够缩短新进人员面对不熟练且复杂的事务所花的学习时间,只要按照步骤指示就能避免失误与疏忽。

这个不但只用于预警,其实也适用于所有的其它流程中。

SOP 针对不确性高的事件,就针对此次的疫情来说,明显缺少了 SOP,又或者是有相关的流程和法律的规定,但实施无法到位。

其实SOP除了制定标准操作流程,还有一个重要的点是要保证在实施的过程中,能够实施到位,这里就涉及到日常的灾备演练了。

灾备演练

灾备演练,在IT系统里面,是较常做的事情。

比如我们的系统,每隔半个月会有小演练,隔几个月会有大演练。 IT系统的演练其实也不容易,也要消耗一定的额外资源。 为此,在架构设计之初,我们就会考虑演练措施的设计,使得演练机制在一开始就可以被支持。

当然,在人文环境中进行演练,我相信付出的代价会更大,不过近几年来,强制执行的消防演练是个不错的例子。

相对疫情,不确定性可能会更大(不能确定瘟疫的具体表现,杀伤力,传染性等),所以实际执行起来估计会更难,但相信有总比没有要好。

相对实际的灾备演练,有个更简单的事情可以做: 科普宣导。

这段时间在看 《血疫: 埃博拉的故事》,里面对微生物做了4个危险等级的划分,每个等级的疫情,其实都可以建立相应的应对措施。

应对措施可以包含两个方面,一个是政府管理者的执行措施; 一个是普通民众的应对措施。

有科学的宣导,可以减少不必要的恐慌; 规范的应对流程,可以防止不必要的内耗和扩散。

最后想到的点是: 区域自治。

区域自治

在分布式系统中,有一个区域自治的概念,这让我想到了社区医疗。

简单来说,就是当故障出现的时候,每个集群中都有自我治理的能力,这种区域自治的能力,极大地提高了集群的健壮性。

本次的疫情,让我想到医疗的社区化。

像科普类工作,体温测量,初级症状的确诊,病情心理的建设等,其实都可以在社区医院完成,但很可惜,国内目前这块建设还比较落后。

如果这块建设得比较完善,不但可以缓解平日的医疗紧张,在出现武汉这种严重疫情的时候,也可以更好地应对。

这部分的建设,和中国人的医疗观念,和中国优秀医疗资源在大医院的聚集都有大的关系,估计还需要等待比较长久的时间。

结尾

以上是这段时间想到的一些点。 我不是专业的政府管理者,我也仅从自己的专业出发,做了类比的思考。

这次的疫情暴露了很多的问题,就像我们每次大故障,都会暴露出一堆问题一样,从客观规律来看,这个其实是正常且不可避免的。

但每次出完问题后,不是结束就可以了, 我们都会进行深刻地总结,并制定详细的改进措施,以期不断完善整个系统。

我相信在这次的疫情过去后,各方面措施的改进,人员的处置,都会发生,希望这次的疫情能促使各方以及整体的改进,这也算是疫情带来的积极一面了。

这段时间,敏感内容写得比较多,为防万一,搞了一个备用号,欢迎大家关注,以防失联。

同时为大家准备了一份干货资料,豆瓣评分高达 9.2 的 《算法导论》,送给大家。

关注公众号 大飞说事, 回复:  算法导论   ,  即可领取!

iymQnyf.jpg!web 大飞说事


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK