43

谷歌云又瘫痪：因新功能 bug 被触发

6 years ago

source link: http://www.10tiao.com/html/554/201807/2654692592/1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

neoserver,ios ssh client

由于谷歌云平台出现了问题，昨天多个热门在线服务遇到了停机或响应缓慢的现象。经谷歌确认，它的许多工具出现了问题，而Discord、Spotify和Snapchat等知名网站和服务依赖这些工具才能正常运行。

谷歌云平台的状态页面上的一则通告声称：“我们正在调查谷歌云全球负载均衡系统（Global Loadbalancers）的问题，该系统为许多服务返回502出错消息，包括AppEngine、Stackdriver和Dialogflow等服务，此外客户全球负载均衡系统也出了问题。”

一些受到影响的第三方服务包括下列：

Snapchat
Pokémon Go
Faceit
Discord
Spotify

今日谷歌云对外公布了调查结果，根本原因如下：

谷歌的全球负载均衡系统基于谷歌前端服务（GFE）的双层架构。GFE的第一层尽量靠近用户来响应请求，以便在建立连接的过程中为用户最大限度地提高性能。这些GFE将请求路由到GFE的第二层，而这第二层的位置靠近请求所使用的服务。这种类型的架构让客户得以在世界上任何地方都拥有低延迟连接，同时又可以充分利用谷歌的全球网络为后端处理请求，无论客户在哪个地区。

GFE开发团队当时正在为GFE添加一些功能，以提高安全性和性能。这些功能被添加到了第二层GFE代码库，但尚未投入使用。其中一个功能含有一个会导致GFE重启的错误（bug）；不过无论在测试阶段，还是在初始部署阶段，工作人员都没有发现这个错误。事件开始时，生产环境的一个配置变更间歇性地触发了该错误，结果导致受影响的GFE一再重启。由于重启不是瞬时的，可用的第二层GFE容量因此减少。虽然一些请求得到了正确响应，但GFE重新上线时，其他请求却由于容量暂时不足而被中断（导致连接重置）或被拒绝。

这个说法有木有很耳熟？与 6 月 27 日阿里云故障，如出一辙：

相关阅读：

阿里云因 bug 禁用内部 IP 导致链路不通，造成大规模故障

谷歌：未来十年的网络挑战

谷歌云因重复分配 IP 地址......一大堆虚拟机瘫痪了

Gartner：2018 年 IaaS 魔力象限：只剩下 6 家，AWS、Azure、谷歌、阿里云、Oracle、IBM

谷歌云的自动重启机制失灵，导致网络和 ComputeEngine 宕机 93 分钟！

谷歌云又宕机了两个小时

谷歌云负载均衡系统瘫痪18个小时

谷歌的一名工程师搞砸了BGP通告，导致日本互联网陷入瘫痪

谷歌在云计算平台上投资300亿美元了！

谷歌遇到了金丝雀问题：超时问题搞砸了云；集中式很危险

两个bug导致谷歌云全球性瘫痪

Recommend

58
- blog.51cto.com 6 years ago
- Cache
服务器断电瘫痪数据丢失后恢复数据的过程-SUN
一、服务器数据恢复故障描述机房突然断电导致整个存储瘫痪，加电后存储依然无法使用。经过用户方工程师诊断后认为是断电导致存储阵列损坏。整个存储是由12块日立硬盘（3TSAS硬盘）组成的RAID-6磁盘阵列，被分成一个卷，分配给几台Vmware的ESXI主机做共享存储。整个...
54
- 新浪科技 tech.sina.com.cn 6 years ago
- Cache
摩拜单车App大范围瘫痪网友：月卡能退吗
中新经纬客户端7月19日电(万可义)今早，有网友在微博上反映，摩拜App出现服务器瘫痪情况，导致大量用户无法使用。据悉，这样的情况从今日(19日)早间一直持续，尚未解决。有不少网友反映摩拜单车打不开锁，用户扫描二维码后，提示服务器连接超时。
45
- tech.qq.com 6 years ago
- Cache
200名儿童瘫痪， “卡特事件”如何推动美国疫苗机制建立？
腾讯《深网》纪振宇 7月23日发自硅谷 1955年，美国中西部五个州的约20万名儿童接种了脊髓灰质炎疫苗，随后发生了多起接种疫苗的儿童瘫痪事件。调查最终追溯到这些疫苗的生产商，位于加州伯克利的一家家族医药企业Cutter Labor...
53
- www.huxiu.com 6 years ago
- Cache
200名儿童瘫痪、10名死亡，“卡特事件”如何推动了美国疫苗机制的建立
疫苗一度濒临成为首个在美国医疗市场上“灭绝”的产品
76
- network.51cto.com 6 years ago
- Cache
网络瘫痪了！到底哪里出问题了？十几年网工网络故障排查经验总结
对于故障管理，十几年网工生涯帮我积累了非常重要的网络故障排除经验。结合理论和实际工作经验可以分为三种方法：分层诊断、分段诊断和“望闻问切”仿中医诊断。
48
- netsecurity.51cto.com 6 years ago
- Cache
一铲子下去，服务器全瘫痪......
日前，大量用户反馈腾讯旗下诸多服务出现服务器未响应问题。受影响的腾讯服务包括腾讯微云、腾讯游戏、QQ安全中心等。
26
- network.51cto.com 5 years ago
- Cache
网络突发瘫痪！三招教你摆脱烦恼
错误提示页面抱歉，出错啦！页面不存在或者已被管理员删除！返回首页
32
- www.tuicool.com 5 years ago
- Cache
Cloudflare 7.2 全球瘫痪罪魁祸首：.*(?:.*=.*)
Cloudflare7月12日发布了一份详细如实的报告，披露了本月初那次故障的根本原因，当时其系统出岔子后，互联网上的一大批系统和服务随之遭殃。持续30分钟的全球性故障是该公司用于快速推送软件变更系统中单单一行代码的错误引起的...
41
- 微信 mp.weixin.qq.com 4 years ago
- Cache
零售瘫痪、5G反攻计划受阻，苹果最艰难时刻尚未到来？| 深网
作者 | 马关夏编辑 | 康晓...
7
- www.hawu.me 3 years ago
- Cache
SwiftUI Bug – PlainButtonStyle Button 触发次数异常
开发 SwiftUI Bug – PlainButtonStyle Button 触发次数异常 ...

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK