22

因 BGP 配置错误,美国网络大瘫痪:全球 web 流量下降 3.5%

 3 years ago
source link: https://www.anquanke.com/post/id/216098
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

vqYnquf.jpg!mobile

CenturyLink的一个BGP路由错误已引起整个互联网出现连锁反应,导致无数与互联网连接的服务瘫痪,比如Cloudflare、AWS、Garmin、Steam、Discord和Blizzard等众多服务。

这些故障从美国东部标准时间上午6点左右开始,当时客户们开始报告美国发生了影响CenturyLink服务的大规模故障。

RnArmyz.jpg!mobile

在Twitter上搜索一番,可以发现突然大量用户纷纷吐槽,抱怨无数联网服务不是性能低下就是完全中断,比如Blizzard、Steam、Discord、Roblox、Cloudflare、Hulu、Slink、Reddit和Amazon AWS等众多服务。

myiye2a.png!mobile

qQnmimv.png!mobile

CenturyLink声称,其Level3 CA3数据中心导致了这起故障,正在调查此问题。

CenturyLink的状态页面显示:“我们的技术团队正在调查影响CA3数据中心一些服务的一个问题。确保我们服务的可靠性是我们的重中之重。随着这起事件不断进展,我们会继续提供状态更新。如果您需要进一步的支持,可以通过[email protected]联系我们。”

此后该故障已得到了解决,服务在缓慢恢复,一些地区恢复所花的时间比其他地区要久。

QJfqeez.jpg!mobile

AWS 恢复消息

BGP路由问题导致故障

据受影响客户的无数报告显示,今天的问题是CenturyLink的BGP路由问题引起的,CenturyLink的路由没有正确地传输互联网的一些部分。

为了使互联网正常运行,互联网服务提供商(ISP)、数据中心和网络提供商通过BGP路由协议来通告它们路由和管理的IP地址。

由于这主要是一种基于信任的系统,大型ISP开始通告它们并不管理的IP地址范围的路由时,会导致全球性故障和性能问题。

CenturyLink似乎在BGP路由方面犯了一个错误,从而导致了当今的大范围故障。

r6JvUbm.png!mobile

大概10分钟前Centurylink似乎撤回了无效的BGP路由,并修复了其网络问题。作为一项防范措施,我们暂时任由我们的AS3356会话处于宕机状态,以防Centurylink又出问题。我们会继续全天密切关注事态。

b6JzIbq.png!mobile

2020年8月30日10点04分GMT,CenturyLink发现一个问题影响多个市场的用户。IP网络操作中心(NOC)参与其中,初步研究发现,一个存在问题的flowspec通告阻止边界网关协议(BGP)跨整个CenturyLink网络的多个网络单元建立起来。IP NOC部署了全局配置变更,以阻止存在问题的flowspec通告,这让BGP得以开始正确建立起来。变更实施到整个网络中后,IP NOC观察到引发警报的所有相关服务解除警报、服务回到稳定状态。

CenturyLink中断导致全球Web流量下降了3.5%。

本文转载自: 云头条

如若转载,请注明出处: https://mp.weixin.qq.com/s/4BoJq3clB9fxiLc7Z4XQZA

安全客 - 有思想的安全新媒体

安全资讯


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK