5

郑州洪灾,通信网络的容灾机制,发挥作用了吗?

 2 years ago
source link: https://www.huxiu.com/article/442645.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
2021-07-21 15:20

郑州洪灾,通信网络的容灾机制,发挥作用了吗?

本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君,头图来自:视觉中国

这两天,河南郑州等地区遭受罕见的强降雨袭击,出现了严重的洪涝灾害。

洪水造成的城市内涝,给当地居民的生命财产带来重大损失。来自现场的触目惊心的视频画面,牵动着全国人民的心。

85

目前,一线正在进行紧张的抢险救灾行动。我们只能默默祈祷,希望雨早点停,水早点退,灾区的损失不要进一步扩大,灾区人民的生活能尽快恢复正常。

作为通信人,小枣君在关注现场灾情的同时,特别留意了一下通信网络设施的损失情况

根据以往的经验,遇到大灾大害,当地的通信基础设施一定会遭受损坏。而可靠的通信网络,是抢险救灾的重要保障,也是稳定一线灾民情绪的基石。

也就是说,灾害一旦发生,一线通信人必须尽快投入到通信设备抢修和应急保障的工作中。

小枣君的朋友圈里,就已经有河南的通信同行正在加班加点抢修,力求尽快恢复业务。

85

图片来自郑州联通

根据现场同行反馈的故障通知消息来看,这次洪灾确实造成了远超以往的危害。

85

郑州现场的故障通知消息

往常的普通洪灾,一般只会淹没基站和接入机房。更严重一点,也就是各区县的汇聚机房和机楼机房。这次特大降雨造成的内涝,竟然将省会城市部分骨干核心机房也淹了,而且主备机房都发生雨水倒灌。

这种情况,极为罕见。近几十年,国内应该是没有发生过。骨干机房,运行着重要的核心网设备。而核心网设备,是整个通信网络的心脏。

85

核心网机房

目前来看,受影响最大的,是运营商的HLR设备。

HLR,全名是Home Location Register,归属位置寄存器。它是一种用户数据库设备,是核心网关键设备之一,存储着所有本地用户的数据信息,包括用户的基本信息、基本业务信息、补充业务信息,等等。

HLR是2G/3G时代的叫法,现在4G/5G时代,HLR已经改名叫HSS(Home Subscriber Server,归属签约用户服务器),功能和性能上有所升级。

HLR和HSS,作为用户数据库,是整个通信网络的核心。但凡出现重大网络故障,多半和它们有关。要么是数据库误删,要么是传输中断(例如光纤中断),导致HLR(HSS)链路中断。

2017年广西南宁重大网络中断故障,就是运营商HLR的80万用户数据被误删导致的。当时整网业务中断长达8小时39分,影响巨大,责任方被罚5亿元人民币。

这次郑州HLR被淹退服(通信行业术语:退出服务),影响本来也是巨大的。但是从现场情况来看,应该是容灾机制发挥了作用,所以没有造成大面积的通信中断。

首先,提醒一下河南灾区的兄弟姐妹们,最近期间手机尽量不要关机。因为手机开关机都需要联系HLR进行“登记”。

85

正常情况下

在HLR退服的情况下,手机开机,信令消息到不了HLR,就无法得到来自网络的身份确认,也就无法接入网络。

85

HLR退服情况下

一般来说,手机连入网络后,网络也会定期对手机进行“位置更新”。也就是说,每隔一段时间,网络会让手机上报状态信息。这次,在灾情发生的情况下,当地运营商可能已经在网络侧手动修改配置,延长了更新周期,避免位置更新失败。

此外,本次郑州HLR退服,运营商的异城异地备份方案也发挥了重要作用。

在本地主备HLR都受灾的情况下,运营商启用了位于邻近省份省会城市的备份HLR,临时顶替退服的本地HLR,保障业务的实现。

85

这基本上算是最高级别的备份了,专门针对战争、恐袭、地震等极端情况。

85

不同的容灾级别

在极特殊的情况下,用户通话量激增,网络中信令消息太多,超过了网络链路的负荷,网络侧可能会采取取消用户鉴权等手段,尽可能降低网络信令负荷,避免网络彻底拥塞。

本次洪灾,固网宽带接入业务的radius设备离线,就采取了取消鉴权的方法。

Radius,全名是Remote Authentication Dial In User Service,远程用户拨号认证系统。看名字就知道,也是一个对用户进行认证授权的设备。现场radius故障,采用的解决方案,就是直接关闭认证,启用拨号不认证策略,保证所有用户网络畅通。

85

除了HLR之外,根据现场反馈的情况,微波中继线路也有短暂影响,IPTV业务也受影响,这些都不算太麻烦。

目前,现场的通信工程师们正在进行紧张的设备抢修,相信不久之后,核心骨干网络的功能就会恢复。随着洪水的退却,各个站点机房的抢修也会紧锣密鼓地启动起来,老百姓的手机和宽带业务,会逐渐恢复正常。

最后,再次祈祷河南地区的雨早点停,洪水早点退,希望大家都平平安安的,也希望所有一线的通信工程师们能注意安全,不辱使命,抢险成功!

本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK