55

阿里云再现宕机惊魂夜

 5 years ago
source link: https://news.newseed.cn/p/1352595?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

随着上云企业的越来越多,云服务宕机带来了潜在风险也越来越大。

昨天(3月3日)凌晨,没有任何征兆,阿里云出现大规模宕机故障,华北地区很多互联网公司都受波及,一大波 程序 员、运维专员都从睡梦中被叫醒跑去办公室干活。对此,阿里云官方回应称,宕机原因为,华北2地域可用区C部分ECS服务器等实例出现IO HANG,后经紧急排查处理后逐步恢复。

此次宕机事件,不少企业将搁置很久的“多云战略”方案再次提上了议程,网络上与企业间有关“多云战略”的讨论也再次活跃起来。面对越来越明显的“多云战略”趋势,未来的云服务市场将会呈现出怎样的变化,技术在未来的云服务竞争中又将扮演怎样的角色呢?

鸡蛋不能放在一个篮子里:云服务宕机事故频发

云服务发展到现在,随着市场规模的扩大,云计算的技术和云服务的模式也都趋成熟,但公有云服务的故障却仍然没有停止过。在过去不久的2018年,全球主流云计算厂商发生的大规模宕机事件不下数十起,个别厂商一年内甚至还出现了多次宕机故障。故障原因多种多样,亚马逊AWS称因数据中心硬件问题,微软Azure数据中心则因高 温和 打雷,腾讯云因运营和硬盘故障,谷歌则因自动化失效。

1月18日,谷歌云因自动化机制失效,导致其us-central1和europe-west3两大可用区中的计算引擎停运 93 分钟。

5月31日,AWS北弗吉尼亚地区的数据中心出现硬件故障,导致AWS的核心EC2服务,Workspaces虚拟桌面服务以及Redshift数据仓库服务均受到影响。

6月17日,因爱尔兰数据中心的恒温系统出现问题,微软Azure被高温影响导致存储和网络中断;9月4日,微软Azure美国中南区数据中心因雷击影响冷却系统的电压,导致多个Azure服务出现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括Office365、Active Directory、Visual Studio Online、Visual Studio Team Services等。

腾讯云则因硬盘故障导致一家初创公司近千万元级别的平台数据丢失,且不能恢复。直至腾讯云提出“赔偿+补偿”方案,并承诺会帮助这家初创公司进行业务恢复,这才将事件平息。

从上述的诸多案例可以看出,随着越来越多的企业和机构将数据上云,云服务的稳定、安全和可靠变得越来越重要,即便只是一个小小的宕机,对于用户来说都有可能引发一场灾难。

站在企业用户的角度,“多云战略”不光是趋势,也是在技术架构下,消除单一云数据存储风险,解决云热迁移、故障迁移的技术途径。这也意味着,在未来的云服务竞争中,云服务供应商的技术能力仍将是决胜关键。

“多云战略”时代,长期多家巨头共存成定局

随着云服务市场逐渐进行“多云战略”的下半场,新的市场格局也逐渐显露出来,云计算的属性决定未来将长期存在多家巨头瓜分市场的局面。

1

云服务技术代差形成“马太效应”,多云时代将只剩巨头玩家

相比其他类型的互联网服务,云服务对厂商的资金投入和技术实力都设置了一道门槛。首先在云服务最核心的底层基础设施建设上,从网络到数据中心再到存储硬件等的建设都需要极大的资金投入,这就决定了云服务必定是一项“有钱人”的游戏。因而在行业起步阶段,在国外是由亚马逊、微软、谷歌这样的巨头率先起步;在国内则是由阿里带头,腾讯、百度、华为、金山等巨头随后跟进。由于云服务的特殊性,由此形成了资本层面的头部玩家。

在硬件之外,云计算技术架构能力会随着使用者的增加而快速提升,每一个新进的参与者都能对这种进化有所贡献;一旦积累用户数量的过程足够多,就会促成技术的质变,形成其他厂商难以企及的技术差距,带来不可逆的技术优势。

比如在AI领域,阿里云的ET城市大脑已经投入到多个 智慧 城市建设;百度智能云则在去年发布了业界唯一为企业级市场量身打造的AI to B平台,批量输出可调用的AI能力,为企业提供完整的一站式AI解决方案;腾讯云作为腾讯先进技术的重要出口,占据“智能+”时代重要的突破口,除了游戏、视频客户之外还在金融、智慧零售等领域为用户提供的解决方案。

在实际案例中,那些普通网站模式级别的云服务,和BAT们多年“进化”形成的千万级架构,在技术成熟度及服务输出上(不仅是硬件)完全不可同日而语,在目前的云服务竞争中,中小型云服务供应商已经开始掉队,在未来的“多云战略”时代,除了基础服务稳定性和安全性之外,市场也将向服务商是否有AI能力,是否能够提供定制化解决方案等方面倾斜。由技术代差形成的“马太效应”将推动云服务头部玩家强者恒强,赢家通吃。

2

云计算规模带来的经济效应,让头部玩家更具竞争优势

经典理论认为,规模能够带来经济效应,更容易形成“赢家通吃”。这句话可以进一步诠释:规模能够带来的经济效益越强,就越容易“赢家通吃”,形成的速度也就更快。

在很多行业中,规模对于企业降低成本有着非常显著的作用。比如电商行业、物流行业、出行市场等,随着规模的扩大,这些行业新用户的服务成本将越来越低,不同规模的企业,其服务成本可能天差地别。

在云计算行业中,因规模导致的经济效应在基础设施及相关投入被规模覆盖后,虚拟化硬件服务的边际成本甚至可能接近于零。在“多云战略”时代,BAT们的云计算跨过了规模化的关口,其边际成本具有极大的竞争优势,直接关闭了中小厂商这类追随者的机会窗口。

3

普及多云战略,只有头部玩家有能力将用户带出“恐慌区”

在人类的认知世界中有三个区:舒适区、学习区、恐慌区。

在舒适区我们得心应手,每天处于熟悉的环境中;学习区里面是我们很少接触甚至未曾涉足的领域,充满新颖的事物,在这里可以充分的锻炼自我,挑战自我;恐慌区,顾名思义,在这个区域中会感到忧虑,恐惧,不堪重负。

云服务市场也有着同样的三个认知区域,在走向“多云战略”时代中,大量企业陷入“恐慌区”难以走出。此时,头部玩家的实力和价值在此得以体现。

一般情况下,小型企业受限于资金或技术能力等因素,可能会将所有服务放在同一品牌的云服务上;多数中型企业,会选择多个厂商同时服务,即我们所说的“多云战略”。但是,不同厂商间的产品属性存在差异化,可能会导致数据无法同步等情况出现,这对企业和云服务厂商的技术都提出了一定的要求。

由于用户自身的技术能力有限,使用单一云时提心吊胆,时刻担心宕机事故对自身业务造成不可逆的影响;采用“多云战略”时,又难以整合多方云服务资源,陷入恐慌。

在“多云战略”时代,带领企业走出“恐慌区”,扩大“学习区”是关键。云服务头部玩家首先要主动参与到“多云战略”的项目中去,参与大型的具有标杆意义的“多云战略”,增强行业对“多云战略”的信心。其次,云服务头部玩家要利用自身的技术优势普及“多云战略”,在行业竞争中不断创新,找到核心竞争力,让自己“学习区”面积最大,消除企业对新技术的恐慌。

多云战略时代,技术之外开放协同的心态更重要

可以预料,在未来的“多云战略”时代,云服务除了技术层面的竞争外,云服务厂商在服务、价格上的竞争将更趋白热化。虽然市场依然由头部玩家把持,但仍将经历一次全面洗牌的过程,各家市场份额的座次或将重新排位。

由于企业对多云服务需求的增加,市场规模也将随之扩大,其中的市场增量将由现在份额较少的头部厂商补位,各厂商之间的市场份额差距将被大大拉近。作为企业方来说,“多云战略”下,拥有了对不同云服务厂商的调配空间,在生态圈中的声量也将大大高于现在,云服务厂商的心态或将因此产生变化。

站在商业的层面,无论市场如何变化,云服务厂商为客户提供优质服务的内核都不应受到任何影响。在更为复杂的和多元化的云服务方案中,相比现在云服务厂商只与企业对接,未来将不可避免的与同行、友商们站在同一“战壕”,协同作战。这就要求,云服务厂商除了有过硬的技术能力随时帮助企业解决问题之外,还应放弃门户之见,以更为开放的心态与同行合作,服务企业。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK