别人的宕机时间是AWS的七倍,aws云主机时快时慢怎么处理-ESG跨境

别人的宕机时间是AWS的七倍,aws云主机时快时慢怎么处理

来源网络
来源网络
2022-07-05
点赞icon 0
查看icon 624

别人的宕机时间是AWS的七倍,aws云主机时快时慢怎么处理别人的宕机时间是AWS的七倍北京时间2020年12月14日晚间,由于内部技术故障导致大面积宕机,谷歌多项服务均无法提供服务,类似的宕机新闻时有发生,每次的主角都可能都不一样,到底谁的宕机次数和宕机时间更少呢市面上有一些公开的监测数据,比如来自downdetect......

别人的宕机时间是AWS的七倍,aws云主机时快时慢怎么处理




别人的宕机时间是AWS的七倍

北京时间2020年12月14日晚间,由于内部技术故障导致大面积宕机,谷歌多项服务均无法提供服务,类似的宕机新闻时有发生,每次的主角都可能都不一样,到底谁的宕机次数和宕机时间更少呢

市面上有一些公开的监测数据,比如来自downdetector.com和cloudharmony.com的数据,也有厂商比较自豪说自己宕机时间比同行老伙计时间短的,比如在2018年,亚马逊云服务(AWS)表示第二大云计算公司的宕机时间是AWS的7倍。

AWS坐拥全球近一半的云市场份额,理论上规模越大越容易出错才对,AWS为了减少宕机时间都做了什么呢

在亚马逊re:Invent大会,AWS全球基础架构和客户支持高级副总裁Peter DeSantis介绍了基础设施层面上方方面面的创新,包括如何减少宕机,如何降本增效等等。

在减少宕机时间,在提升服务连续性方面,AWS有挺多的有意义的做法,AWS大中华区产品部计算与存储总监周舸向中国媒体介绍了其中几点。

AWS数据中心电力冗余设计简介

发电机组

从电力供应开始说起,周舸介绍了柴油发电机,介绍了配电室(Ehouse),UPS备用电源等方面。

Ehouse

令人印象深刻的是,为了减少可能发生的故障,AWS在采用现有商用方案(一般是嵌入式系统)的基础上,舍弃了许多原有的东西,自己设计了控制电路的代码。

AWS对基础架构的控制能力可见一斑。

原装设备控制电路存在的问题

在AWS看来,这些控制软件有可能有Bug,如果Bug发生,厂商无法在短时间内完成修复,而如果这些软件本身就是自己写的,那么就可以很快进行修复。这种对于现有服务方案的“不信任”贯穿着AWS架构设计的方方面面。

AWS CTO Werner Vogels曾说过,”Everything fails,all the time”,也就是说,所有东西都可能会坏掉,既然无法避免会坏掉,那就坦然接受,但一定要尽量减少坏掉造成的影响,要能预测什么时候会坏、怎么坏的,提前做出防范和应对。

比如,为了保障电力供应,AWS会在有外部电网供电和内部发电机组的基础上,再加一组发电机,采用冗余的供电方式,冗余设计是贯穿整体架构设计的方方面面,但这会大大提升复杂度,越复杂就越危险。

在2020 re:Invent大会上,Peter DeSantis张贴了这样一张图,横轴表示系统复杂度,纵轴表示故障造成的伤害(爆炸半径),原本的Switch Gear(配电控制系统)和UPS系统处在较为危险的位置。

在Switch Gear(配电控制系统)系统的优化改造中,AWS通过自己写软件控制系统,删除一些没用的、添加部分对AWS有用的功能后,降低了系统复杂度,提升了系统的可靠性和安全性。

使用Rack Level小电池块的UPS

在UPS系统改造中,除了软件层的改进,还使用小容量(Rack Level电池)的电池,而不是以前超大容量的电池,从而降低电池爆炸造成的伤害,从而远离了爆炸半径。

AWS数据中心级别的高可用设计简介

2000年左右,那是一个还没有AWS的时代,Amazon在美国西雅图有一个数据中心,随着业务规模的扩大,亚马逊开始意识到海啸和地震的潜在风险,不能把所有东西都放这里,于是就想在没有地震海啸威胁的美国东海岸建一个数据中心。

东西海岸70ms的超高延迟是绝对不能接受的

各种自然灾害的影响范围与距离造成的延迟

两个数据中心放的太近,可能遭受同一个自然灾害的侵袭,如果离得太远,延迟会带来数据同步的问题也同样不可接受,美国东西海岸的距离就会造成这一问题。所以,数据中心之间需要保持一定的安全距离,而且要保证一毫秒以内的延迟。

类似的,AWS强调多AZ(Avaibable Zone)与多机房的概念不一样,AWS每个Region有至少三个AZ,AWS认为多个AZ相互间要有一定的安全距离,以此来降低外部环境同时对多个AZ造成影响,来提升服务的可用性。

从Region的角度看,AWS为了减少Region间可能造成的干扰,设计原则上是将各个Region独立运作,一个Region出的问题不会传递到别的Region,在Region的级别提供冗余。

AWS供应链保障

2020年是黑天鹅满天飞的一年,突如其来的疫情,急剧增长的在线业务量,逼着所有云厂商在加班加点忙着扩容资源,AWS也不例外,就AWS的规模来猜测,扩容规模要远大于大部分云厂商。

2015年,AWS供应链概况

为了保障扩容的顺利进行,AWS在供应链采购管理上采取了多元化策略,供应商的数量,供应商覆盖的国家和地区在数量上有了很大提升。如今,AWS的供应链系统覆盖7个国家,86家供应商,以此来暴涨供应链的稳定。

2020年,AWS供应链概况

在疫情在全球爆发的2020年,多元化管理策略确实挺有价值,疫情的不确定性给供应链带来很大挑战,许多国家的生产环节和清关效率都出了很大问题,对此,周舸表示深有体会。

写在最后

在可用性方面,公有云作为公开可见的服务,更容易受到公众关注,造成公有云更容易出故障的印象。

抛开客观感受不说,由于公有云作为一种服务,而不是一个个onpremise产品盒子,要考虑的内容更多一些,比如供电,比如网络,比如运营能力等,确实非常考验云厂商的综合实力,需要有数不清的技术创新来打造更高的可用性和业务连续性。

随着一步步迭代和发展,技术只会更成熟,运营经验会更丰富。


文章推荐
Wish平台怎么屏蔽部分国家的物流
Unity Ads如何复制已经存在的项目,unity ads 属于什么平台
避免5个不良的谷歌SEO内容策略,谷歌seo分析案例
阿里云服务器FTP设置,阿里云服务器ftp设置公网地址


特别声明:以上文章内容仅代表作者本人观点,不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。

搜索 放大镜
韩国平台交流群
加入
韩国平台交流群
扫码进群
欧洲多平台交流群
加入
欧洲多平台交流群
扫码进群
官网询盘
加入
官网询盘
扫码进群
美国卖家交流群
加入
美国卖家交流群
扫码进群
ESG跨境专属福利分享群
加入
ESG跨境专属福利分享群
扫码进群
拉美电商交流群
加入
拉美电商交流群
扫码进群
亚马逊跨境增长交流群
加入
亚马逊跨境增长交流群
扫码进群
亚马逊跨境增长交流群
加入
亚马逊跨境增长交流群
扫码进群
拉美电商交流群
加入
拉美电商交流群
扫码进群
《TikTok综合运营手册》
《TikTok短视频运营手册》
《TikTok直播运营手册》
《TikTok全球趋势报告》
《韩国节日营销指南》
《开店大全-全球合集》
《开店大全-主流平台篇》
《开店大全-东南亚篇》
《CD平台自注册指南》
《开店大全-俄罗斯篇》
通过ESG入驻平台,您将解锁
绿色通道,更高的入驻成功率
专业1v1客户经理服务
运营实操指导
运营提效资源福利
平台官方专属优惠

立即登记,定期获得更多资讯

订阅
联系顾问

平台顾问

平台顾问 平台顾问

微信扫一扫
马上联系在线顾问

icon icon

小程序

微信小程序

ESG跨境小程序
手机入驻更便捷

icon icon

返回顶部