如何构建可靠云服务：亚马逊云科技的云端韧性之道_财富号

“控制面和数据面的隔离，类似于叫车软件和打车，两者其实是相对独立的。当你坐上车以后，如果一段时间叫车软件没有信号无法响应了，也不影响司机将你送到预定的目的地。很多故障失效的情况，关键在于没有把数据面和控制面做到很好的隔离。”谈到云服务的故障问题时，亚马逊云科技大中华区解决方案架构总经理代闻给出了这样的比喻。

为什么云服务需要韧性

从云计算技术诞生至今，云服务对于广大企业来说，已经成为了像水、电、煤气一样不可或缺的基础服务。然而也正是因为如此，每当云服务出现故障时，也动辄会给企业带来难以估量的重大损失。回顾近年来多家云服务商的宕机事件，类似的惨痛教训可谓不胜枚举。

作为全球云计算技术的开创者和领军者，亚马逊云科技在2006年开创性地发布了第一款云服务。在过去的18年中，亚马逊云科技通过持续不断的研发与创新，迄今为止已经提供了超过240种功能全面的服务，在全球拥有数百万家客户，并且已经连续13年蝉联Gartner云基础设施和平台服务魔力象限领导者。

“亚马逊云科技去年每天稳定启动的Amazon EC2实例超过1亿，每秒API请求数高达100万亿。正是因为做对了很多事情，才有今天全球数百万客户的选择和信任。”代闻介绍道。

从云计算技术的原理来说，云服务本身就是根据客户实际需求提供的弹性基础设施服务，那为什么还会出现如此诸多的宕机故障？

在代闻看来，云服务系统故障的原因主要可以分为三类：一是基础设施层，包括数据中心、主机、机架、网络故障或是自然灾害导致的损坏；二是架构设计层，包括数据状态、应用程序状态异常、依赖项失效等；三是运营机制层，包括由运维操作、代码部署、配置错误等引起的故障。因此在云计算的韧性技术实现中，亚马逊云科技最关注的就是基础设施、架构设计和运营机制等三个方面。

如何构建可靠的云服务

既然云服务对于企业用户如此重要，那么应该如何构建可靠的云服务？亚马逊云科技对此又有着怎样的心得体会？

代闻给出的回答是，亚马逊云科技的云端韧性之道，就在于基础设施韧性、韧性技术架构和卓越的运营机制。

一、基础设施韧性

亚马逊云科技在全球范围内构建了强大的基础设施，确保其云服务的高度可靠性和低延迟。其在世界各地聚集数据中心的物理位置称之为区域，区域下面的每个逻辑数据中心组称为可用区，每个区域由三个或更多可用区组成，每个可用区又由多个或单个超大数据中心连接组成，具备独立的电力、制冷和物理安全设施。为了防止单一故障点的影响，同一区域内的可用区相距约100公里，确保在一个可用区发生电力中断或自然灾害时，其他可用区不受影响。这种设计还能实现毫秒级延迟的同步复制，提高数据的可用性和一致性。

在基础设施网络设计方面，亚马逊云科技还采用了高可用、低延迟的架构。在可用区内部，数据中心之间通过冗余链路互联；在可用区之间，则通过传输中心实现多条冗余链路的连接；而在区域与区域之间，通过冗余的连接中心站点和分布的冗余链路实现互联。这些设计共同构成了坚实的基建骨干网络。截至目前为止，亚马逊云科技在全球34个地理区域运营者108个可用区，能够帮助中国出海企业以更低延迟构建和运行应用程序，从而更加接近最终用户。

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-