3

Facebook宕机事故,暴露了上云不是唯一的答案

 2 years ago
source link: https://www.pintu360.com/a70448.html?s=8&o=0
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Facebook宕机事故,暴露了上云不是唯一的答案

摘要:当国内人民欢度假期的时候,互联网巨头Facebook却收获了“负面新闻大礼包”。

负面之一,就是长达6小时的全球大宕机。

据说,这是Facebook创办以来最严重的一次网络访问事故,除了Instagram、Whatsapp、Messenger这几大海外冲浪必备平台,虚拟现实平台Oculus的游戏,部分企业端服务以及很多需要Facebook账号登录的平台都上不去了,就连Facebook公司的内网也受到影响。要知道,这里可汇聚了全球最厉害、薪酬最高的一大批程序员啊!

互联网公司宕机,并不是一件很稀奇的事。

今年早些时候,国内某视频平台就因为服务器突然故障,一度崩溃,大量用户“流浪”到其他网站,巨大的流量洪峰又让其他平台也连锁式瘫痪了,各厂程序员们都感受到了被宕机统治的恐惧,一度登上微博热搜,被网友戏称为——互联网内卷之《谁也别想睡觉》。

5dcda6ee-748b-8d5b-f7d2-c103e99e6b66.jpg

同样是宕机,为什么Facebook就面临着“非死不可”的吐槽声,而不是一笑了之呢?

这可能是因为,Facebook庞大的产品生态,已经不再是娱乐冲浪的一部分,而成为了数字生活的基础设施。

尤其是在疫情之后,许多企业服务、办公教育等都依赖互联网来完成,服务中断会直接导致严重的经济损失。

在WhatsApp(Facebook旗下一款类似微信的软件)的官网就显示,巴黎的医疗人员会在WhatsApp 群组内更新医院病床、资源等信息;印度企业依靠WhatsApp售卖产品;巴西政府、医疗和教育系统都通过WhatsApp提供C端服务,比如接收考试成绩、远程预约挂号等等。

可想而知,作为数字化底座的互联网服务,一旦中断,将连带产生不少次生灾害。

而面对宕机,我们第一时间总会想到云服务商,云中断导致的问题,互联网企业自然也是受害者。

不过,像Facebook这样的巨头,往往核心业务和数据都放在自家数据中心的服务器上。这次宕机之后,就有不少工程师“打飞的”到位于加州的主数据中心参与维修,科技媒体The Verge还曾爆料,因为门禁卡失效,工程师们使用切割机,锯开了数据中心的服务器铁笼。

Facebook面临的挑战,也是许多互联网巨头的缩影:一方面,作为数字化底座,最大程度地保证基础设施的稳定性、可靠性,是巨头们应尽的社会责任;同时,又不能将希望全部都放在云服务上,增加了IT系统的复杂度和运维难度。

这次大型宕机事件也掀开了全面上云的另一面,为什么互联网巨头们都没有把鸡蛋放在一朵云上?

不是唯一的答案:云服务的另一面

互联网公司,可谓是云服务的先遣部队。在传统行业还不知道什么是互联网浪潮、什么是云的时候,互联网公司就成了云厂商的高价值客户。

常规情况下,互联网企业会将移动应用、电商之类前端流量业务放到云上,以节省自建机房的高昂成本。

不过,别看互联网企业上云这么积极,它们可是“狡兔三窟”,一边迁移上云,一边也有本地数字基础设施。2018年,Facebook斥资10亿美元在新加坡打造了亚洲首个数据中心,这也是它在全世界的第15个数据中心。相当于一边从发电厂买商业用电,但也在造自己的发电机。

这两年来,上云浪潮如火如荼,出现了一些观点,认为云服务会彻底消除数据中心,但事实上,越来越多的企业在尝试让部署数据中心上的旧应用升级,而不是将一切业务都云化。

甚至有企业IT人员告诉我,他们可能会让自家的数据中心永远运转下去。

68545227-0565-10da-f799-11251ff87ad1.jpg

要知道,数据中心几乎占据了企业网络支出的最大组成部分,每年需要支付不小的租金和改造、维护费用,这无疑会增加额外的成本,为什么互联网企业依然坚持这么做呢?

第一,传统机房可能会宕机,但上云也未必完全稳定。

云服务虽然不需要维护传统机房,数据存储、计算都在云端,但几乎没有哪个云服务厂商实现过100%的连续性,都出现过计划外的停机。2017年,IBM、AWS、谷歌、苹果等主要云服务提供商也都经历过云中断,将Netflix、Quora、Reddit和 Foursquare等热门应用“一波带走”,影响了大大小小的企业。

第二,成本效益很重要,但数据资产安全更重要。

云服务能够避免维护机房带来的麻烦,但除非付费搭建私有云,否则依然要与其他云用户共享硬件资源,这就使得企业无法对远程硬件拥有足够的控制权。任何拥有凭据的人可以从任何有网络连接的地方访问云端数据,也意味着广泛的接入点,如果不能在每个位置都部署安全措施,那么传输的数据风险也很大。

要论最安全、最可控,还是要属自建数据中心,只允许拥有凭证和设备的人才能访问本地网络,可以让企业完全控制数据,以及基础硬件,更适合那些业务复杂多元的组织。

第三,多云/混合云有帮助,但无法彻底解决顾虑。

既然这样,不把鸡蛋放在一个篮子里,一次用两个甚至两个以上的云,不就可以在出现故障时快速启动“备胎”吗?道理虽然如此,但多云部署的成本很高,并且依然不能完全防止短期终中断,有时还需要人工参与,并不像我们想象的那样能够瞬间丝滑切换。

比如Gov.uk 就在亚马逊的 CloudFront服务上运行了备份 CDN, 但需要人工干预才能切换到备份。

60e5989e-5b83-2148-41a7-59e6784c8215.jpg

而适合建设云基础设施的环境也常常会出现扎堆的情况,从而导致几家云服务商要停机就一起停的尴尬。此前,亚马逊和微软在爱尔兰都柏林的云基础设施,就因为遭遇雷暴天气,让使用亚马逊EC2和微软BPOS服务的客户都宕机了。

另外,并不是所有的云都是完全开放、可互操作的,这时候为了用好每一个云平台,企业还需要通过多个系统来配合,增加了额外的支出和运维难题。

所以说,只有足够可靠的云服务,才能打消客户的顾虑,从本地容灾备份、混合云等其他方案,转变为全面依赖云,并且只依赖某一朵云。

当许多人呼吁着,把云看作万能神药的时候,必须考虑一个前提:云服务怎样才能变得足够稳定和安全?而这一点,似乎跟现实还有点距离。

安全力Max:Facebook的冗余启示录

归根结底,想要业务更可靠,每个组织都没有“一刀切”的解决方案。

公共云、私有云、混合云或传统数据中心,如何选择应该按照不同企业、不同数据隐私敏感度、成本预算等来综合考量。

简单来说,传统数据中心成本高,控制强,很适合那些已经在IT方面进行了大量投资,对数据隐私要求谨慎的组织,所以像Facebook这样涉及到全球几十亿用户信息的互联网企业,数据中心是必须配置的。

而大多数企业,完全没有必要自己搭建服务器。直接上云省心又省力,可以快速搭建起网络业务,但过程中必须对隐私访问进行密切监控。

而即拥有IT 基础设施的大型组织,但也希望开始云之旅的大型企业和组织,可以同时尝试混合云,将云平台的所有优势都“一网打尽”。不过,跟踪多个云可能会比较棘手,往往需要第三方仪表板等协助。

a87add3d-58b5-a697-29e4-3f4ce188cb6c.jpg

看到这里,你可能会发现数字时代业务安全的核心密码:冗余思维。分别来自:

硬件的冗余,有充足的服务器保障,如果整个数据中心受到冲击,数据可以复制到其他地理位置的数据中心上;

服务的冗余,利用多个云服务商的服务耦合,比如主要云服务商停电期间,二级供应商的云服务可以作为补救措施,确保业务继续;

视角的冗余,更多数据源头也被纳入考量中来,比如工业部门常见的边缘设备,传感器、监视器和控制/驱动设备等,就正在成为云时代的“新数据源”,需要被纳入到主动管理中来,比如增加DNS(域名解析服务)解决方案,避免单一DNS中断或减速。

VMware的一些统计数据表明,未来五年内,许多组织的工作负载将按 30% 数据中心、40%公有云,以及 30% 的边缘计算来分布。

1f70cdf0-5886-1f22-82ad-aed5af77fd78.jpg

从这个角度来说,云市场还有不少空间可待挖掘,厂商之间的明争暗斗还将持续一段时间。

而企业在数字化过程中考虑云服务时,也需要重视三个基本前提。

1.将云安全作为优先事项。互联网充满了机会,也意味着无法继续躲在防火墙背后得到充分的保护,因此安全必须作为重中之重。

2.引入多云和混合云策略。如果对云端安全不了解,那么引入多个云供应商可以有效降低被单一云锁定的风险,为云策略的后续优化留下空间。

3.优先将前端流量处理业务迁移上云。尤其是大量视频和音乐流量的业务,可以迁移到云上,灵活扩展带宽,避免网络使用高峰时响应不及时的情况发生。而一些放在原本数据中心的应用,仍然留在本地设施上。

Facebook的故事背面,是互联网巨头托举起国家和社会服务的现实景象,这也使我们反思,一味强调云,是不是将数字化想得过于简单。

云服务产生的变革固然让人兴奋不已,但这并不代表,云就会干掉传统数据中心,或者某朵云“独霸天下”。

容纳共存,在这个基础上重新定义云和网络服务,或许会帮我们看清新信息技术的新模式,以及云市场的新机会。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK