2

广东电信省级故障上热搜,互联网通信不容崩溃

 11 months ago
source link: https://www.36kr.com/p/2293047835009416
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

广东电信省级故障上热搜,互联网通信不容崩溃

雷科技·2023-06-08 13:05
你的电信卡,能用了吗?

“你的电信卡还能用吗?”

下午两点多,小雷的一句话让半个办公室的人都抬起了头:“啥?”

“我的手机没信号了,你们的正常吗?”,在提出这个问题之前,小雷已经先后检查了手机卡余额、开关了三次飞行模式、重启了一次手机并插拔手机卡一次,最后都没能让我的电信手机卡“复活”。

而且,在用手机里的移动卡拨出电话并接通后,我更是确信我的手机没有问题,难不成是电信崩了?于是,就有了开头的疑问。在小雷提醒后,周围使用电信卡的同事都开始查看手机。

“我也是,怎么有个电话打上X的符号?”“卧X,我的信号也没了”“打下我手机看看?”“我刚刚也看到了,还以为手机坏了。”

v2_59e84d62bde645f4b84cbe20b8862ef2@1547419282_oswg158656oswg1322oswg222_img_000

图源:知乎

连绵的惊呼和吐槽,让小雷确信不是我一个人的电信卡出了问题,悬着的心终于是落下了:“至少可以确定不是我的手机或手机号有问题”。此时,小雷的一些朋友也开始在群里吐槽:“我的电信手机号突然接不到电话了,刚刚点的外卖因为电话打不通,等了一个多小时才拿到”。

小雷的这位朋友与我并不在一个城市,而是远在深圳,直线距离少说两三百公里,那么基本上可以确定,这次故障并不仅局限于小雷周边乃至于广州市,而是一个大范围的网络故障问题。 

v2_f719f129586646619a7853d5e7059077@1547419282_oswg32605oswg300oswg396_img_000

图源:网络

想到这里,小雷打开微博搜索,果不其然发现了大量的吐槽和询问:“你的电信卡能用吗?”

电信,崩了

从微博用户的反馈来看,本次电信的故障问题或许波及整个广东省,深圳、惠州、东莞等地都有朋友向小雷反馈自己的电信卡确实无法拨打电话。以小雷浅薄的电信知识来判断,这次广东电信的故障程度,如果放在互联网大厂中,肯定是达到P0级别的,毫无疑问的最高级别事故。

事实上,这已经不是今年电信的第一次大规模故障,如果你比较常关注互联网新闻,那么或许还会记得3月29日,唯品会、腾讯等公司的线上服务均出现大范围的故障问题,线上商城、微信支付、微信对话、QQ空间、QQ邮箱等多个服务均无法使用。

v2_b69853169e6945cd96c98cadefd58aa5@1547419282_oswg32168oswg600oswg520_img_000

图源:唯品会

唯品会暂且不说,微信和QQ作为国民级的社交应用,几乎每一秒都有大量的用户在使用,所以微信QQ出现故障的相关热搜几乎是以火箭般的速度窜上了微博热搜。在网友的疑问与吐槽中,微信、唯品会等受影响的企业相继发布公告,称此次故障是受机房故障影响,正在全力恢复中。

或许你已经猜到了,没错,出问题的就是电信在南沙设置的一个网络机房,因为冷却系统故障导致机房设备温度快速升高,触发安全保护机制,大批设备被强制下线导致网络服务宕机。按理来说,这是不应该出现的事故,作为重要的网络基础设施,大多数机房都会有一套备份系统,目的就是在主系统出现故障时可以快速接手原先的工作,保证用户的正常使用。

但是,从此次事故来看,备用系统不能说毫无作用,只能说起作用的时间实在是慢了点,备份系统一般被要求在短时间内可以直接上线,但是唯品会和腾讯最终都花了不少时间才重新上线系统(其中唯品会更是花了超过12小时),所以不管电信内部如何问责机房负责人,腾讯和唯品会都先后处理了不少管理层。

v2_120ebcf419634341812607c4bc07f828@1547419282_oswg29699oswg1538oswg201_img_000

图源:百度

其中,腾讯没有公布最终的损失金额,而唯品会则在公告中称,此次故障带给公司的损失超亿元,考虑到腾讯与唯品会的体量差距,腾讯的损失只会更大,如果事故不是发生在凌晨,数十亿人民币损失都是有可能的。

或许你认为我在夸大其词,实际上腾讯此前就公布了2022年的小程序GMV数据,全年GMV高达数万亿元,如果是在使用高峰期宕机,后果不堪设想。

说回今天下午的事故,与网络机房故障不同,本次故障的主要是通话线路,电信的宽带、移动数据网络都没有受到影响,甚至在iPhone上出现了诡异的信号零格,上网正常的情况。甚至因为网络数据还能正常使用,不少人都没发现自己的通话功能出现了问题,只有在点外卖、接收验证码的时候,才会突然发现:“怎么半天都没动静的?”

v2_63da78a0626b400987a89f233931099d@1547419282_oswg87339oswg414oswg271_img_000

图源:雷科技

甚至有不少网友以为自己的手机卡欠费,在充了几百块后才反应过来:“欠费的话应该上不了网啊”,然后上网一看才知道是电信出了问题,还有甚者以为是手机坏了,直接在京东下单了新的手机。

v2_0b035684ebd145d6a5031f2f69795598@1547419282_oswg45668oswg558oswg200_img_000

图源:微博

乐子虽然不少,但是也侧面反映了我们对网络基建的信任,看到手机信号出问题没有第一时间怀疑运营商,而是怀疑是不是自己出了问题。对于多数人来说,虽然现在打电话的机会已经不多,但是通讯电话作为移动网络的核心功能,一旦出现问题,会直接影响到我们生活的方方面面。

比如一些偏远乡村的老人家,基本上不会使用在线社交软件,对外联系只靠电话,如果在通话网络宕机的期间有什么紧急事故发生,他们将无法联系到自己的家人或者同村的朋友,还有诸如110、119、120等紧急电话,如果同样受到影响,后果将不堪设想。

电信,怎么崩的?

关于此次电信的故障,官方暂时还没有给出原因,目前在网上只能看到一些电信员工的回复以及故障通知书,在一则通知中写到,首次故障通报的时间是下午的15时25分,而故障发生时间则是下午14时18分,故障等级达重要B级(现在估计已经提高到了A级)。

v2_d622c8ed77b241b3af92759eadcbdb84@1547419282_oswg311147oswg1033oswg599_img_000

图源:微博

从后续的反馈来看,直到下午的16时30分,受影响的通讯网络才逐步恢复,意味着整个广东省的通讯网络故障超过两小时。基础通讯网络中断两小时,放在哪个地方都是非常严重的一次事故,而广东的电信用户数量更是高达1.88亿(数据来源于网络)。

对于事故的原因,电信暂时没有给出官方的回复,不过各种小道消息倒是在网上乱飞,一些电信行业的从业者也给出了自己的猜测。

比如有人说是电信在中午搞高清通话升级,结果出现了系统故障,导致服务器被“送走”。

v2_cd3884cd8a254859b80050742c9a5ec2@1547419282_oswg19282oswg484oswg78_img_000

图源:知乎

还有人以开玩笑似的猜测是不是电信的工作人员在部署高考信号屏蔽时,不小心点了全局屏蔽。当然,这个就肯定是笑话了,先不说一些地区使用的是信号屏蔽车,而且高考的信号屏蔽是连网络信号都关闭的,并不会出现能上网却不能打电话的情况。

v2_cb363d124a624ec2afe4cb7ea42bfe59@1547419282_oswg26995oswg429oswg264_img_000

图源:知乎

此外,还有一个红客微信公众号说是电信设备爆出了0Day漏洞,导致关键设备被入侵。0Day是网络安全中的一个技术名词,专门用来指代那些危害性极大的漏洞,这些漏洞可以被攻击者直接利用并入侵系统关键区域,一旦在关键系统或是设施中被人利用,轻则系统瘫痪,重则导致重大安全事故。

v2_2c9f14a0e85149d1ace0f5c6475e6eda@1547419282_oswg108205oswg1503oswg247_img_000

图源:知乎

不过,关键设施从硬件到软件一般都经过层层审查,更是基本全部使用国产设备和系统,除非是隐藏得十分深的硬件级0Day漏洞,否则基本上在部署前就会被找到并清除。而且,关键设施基本上都有直接的备份系统,可以短时间内进行切换,所以对于此次故障,不少业内人士都倾向于是系统层面的问题,同时也不排除未发现的0Day漏洞存在。

根据一些身处外省广东电信用户的反映,他们的电信手机卡即使远在北京上海也同样受到波及,有观点认为可能是数据库出现问题,导致广东的电信手机号码被暂时剔除出网络,无法直接获得基站的认证,所以才会出现查无此号等故障返回。

v2_2629d7fc6b864066b2bf8ebaaa86301e@1547419282_oswg41980oswg1360oswg338_img_000

图源:知乎

当然,这些都只是猜测,真正的事故原因还是要等电信的公告或是事故报告才能知晓。不管怎么说,这都是一次非常重大的事故,受影响的广东省不仅是电信最大的用户省份,同时也是国内GDP最高的省份,一次波及全省的通讯中断影响之大,恐怕你我都难以想象。

最后

随着网络在我们的日常生活中重要性日益增长,我想很多人都已经无法想象一个没有网络的世界会是怎样的,这一次故障还只是影响到通讯网络,对于日常使用微信等在线聊天工具交流的人来说影响尚且较小,但是,一旦发生全网络中断,那么恐怕会直接引起社会的恐慌。

对于运营商来说,如今的网络基础设施重要性不言而喻,想必也已经提前准备好了各种预案,即使如此,全省的网络依然中断长达两小时,不管是从危机事故处理还是从容灾能力来看,广东电信这次都算是出了“大洋相”,希望能够以此为契机,优化容灾能力和危机处理速度,毕竟谁也不想未来某天突然被断网几个小时。

本文来自“雷科技”,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK