9

Rogers通信大故障:路由器升级导致BGP中断?

 1 year ago
source link: https://www.eefocus.com/communication/521897
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

当地时间7月8日凌晨,加拿大运营商Rogers发生重大网络故障,导致全网无线、有线互联网服务中断。直到7月9日下午,Rogers才宣布网络和系统已接近全面恢复。

路由器升级导致BGP中断?

“我们在对核心网络进行维护升级后,一些路由器在周五早上出现了故障,并且该故障引发流量过载,导致整个系统关闭和网络无法运行。”

7月9日,Rogers首席执行官Tony Staffieri在道歉信中表示:“问题发生后,我们的技术人员一直通过更换问题软件、设备以及更改网络配置来努力恢复网络。”

forward?url=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FrnZ1Zc6paJelm10v37MTDNYickzlM7x1gH5JEpIfhDAKS3Tib0CEWPAuZ1IlvvHmkicZJfSaXn2uicl9rTJ3UgmS9g%2F640%3Fwx_fmt%3Dpng&s=e5e457

网络中断后到处蹭网的Rogers用户

事故发生后,Cloudflare公司的全球互联网流量监控显示,从UTC时间7月8日08:45 左右开始,来自Rogers AS的互联网流量几乎完全丢失。

数据显示,从08:15到21:45间,Rogers AS多次通过BGP Update消息公布可用路由和撤销路由,直到7月9日01:00之后,Rogers的互联网流量才开始逐渐恢复。

Rogers在17个小时内频繁BGP通告和撤销,意味着其内部核心网络故障一直未能解决。

综合以上信息推断,此次事故原因可能为:

Rogers在对骨干网路由设备进行升级时,负责执行BGP协议的路由器出现了故障,导致Rogers运营的所有网络与互联网失联。

为何故障这么严重?

互联网Internet,实际上是“interconnected network”的缩写,它由不同的网络互联而成。这些组成Internet的“网络”称为AS(自治系统),准确的定义为具有统一路由策略的巨型网络或网络群组。

每一家提供互联网接入服务的ISP运营商都拥有自己的AS和ASN(AS编号),比如中国电信、中国联通等运营商都有自己的ASN。我们的手机、计算机等终端设备要连接到Internet,都需首先连接一个AS。

BGP,Border Gateway Protocol(边界网关协议),指用于不同AS之间实现互联的协议,是目前Internet骨干网上常用的核心路由协议,其最主要功能在于控制路由传播和选择最好的路由。

forward?url=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FrnZ1Zc6paJelm10v37MTDNYickzlM7x1gNsrwg0CA3PGl2bzUj05olHZiaRklmUJfm8w2BLiaZic77wiaEuZbMOppHw%2F640%3Fwx_fmt%3Dpng&s=040176

通过BGP协议,AS之间会不断相互“交谈”,以确定数据在全球互联网上的最佳路由。

然而,当Rogers的骨干路由器在升级时出现故障后,相当于其AS采用BGP协议告诉全球互联网:“您好,我们不存在了,请绕着我走,不要跟我说话!!!”

然后,所有互联网流量都无法进出Rogers拥有的任何网络。也就是说,所有Rogers网络下的终端设备与互联网隔离了。

同样不幸的是,BGP协议和AS互联相当复杂,BGP管理的路由信息非常庞大且来源复杂,路由更新和传播慢,如果出了大问题,恢复起来往往需要数小时甚至数天。而Rogers在Internet上只注册了一个AS。即使有两个AS,尝试转移到另一个AS也可能需要很长时间,并且可能会导致其他问题。

一些疑问?

为提供连续、稳定的互联网连接服务,按理说,如此重要的网络节点都会采用冗余备份架构,如此重要的网络升级也一定有周全的回退方案。

但Tony Staffieri在致歉信中表示“我们断开了特定设备的连接,并重定向了流量,这使得我们网络和服务随着时间推移而逐渐恢复”。

这让人感觉此次故障并没有回退或切换到备用的可能性,以致于他们宁可断开设备,让全网终端无法接入互联网。

此次升级应该也没有类似A/B测试的先小范围测试验证、再整体升级的机制,否则,不至于造成全网范围大故障。

此次事故也引发了行业人士热烈讨论。

一位加拿大网友留言道:

AS的外围和网络内部都有路由器,当发生链路增加、减少、拥塞等情况时,它们会相互告知,并决定替代路径。如果你对你自己的AS知之甚少,可能会将BGP错误配置为发送本不该发送的更新,停止侦听本该获取的更新,或者接受本不应该接受的数据包,等等。这需要通过配置ACL(访问控制列表)、地址前缀列表等来防止错误信息在网络传播。Rogers可能没有做好配置和控制好更新。

之所以会出现这样的问题,据我所知可能是因糟糕的架构设计、维护经验不足、运维费用低、以及没有完善的流程与机制等原因造成。

也有网友评论:

可能是对来自单一供应商的设备打补丁时,导致主设备和备份设备都出现了问题。为什么Rogers不采用两家或多家供应商设备呢?这样不仅不用担心主备都挂了,而且还能通过加大竞争提升产品和服务质量。

“以后我们将增加网络和系统冗余,继续对网络进行重大投资,加强技术系统和测试,以提升网络稳定性。”对于这些疑问,或许从Tony Staffieri的致歉信中能找出些答案。


版权声明:与非网经原作者授权转载,版权属于原作者。文章观点仅代表作者本人,不代表与非网立场。文章及其配图仅供工程师学习之用,如有侵权或者其他问题,请联系本站作侵删。 侵权投诉


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK