|
|
51CTO旗下网站
|
|
移动端

「三地五中心」虽然厉害,但是咱公司还是别考虑了

作者:阿郎来源:CIO进化论|2018-09-29 13:47

【51CTO.com原创稿件】上周,蚂蚁金服副CTO胡喜做了一个实验,把支付宝两个机房的网线切断,会发生什么。两名支付宝工程师在现场同时剪断了支付宝两个模拟机房的网线。系统显示,仅在26秒后,运行在上面的支付宝虚拟账户便恢复了正常运转。原理就是蚂蚁金融的“三地五中心”容灾系统。可是“两地三中心”都没普及呢,谈“三地五中心”真的好吗?

图片来自包图网

1、什么是“三地五中心”

其实,“三地五中心”就是在“两地三中心上”加了“一地”、“一中心”。但是这在BCP(业务连续性计划)上确实先进很多。但是这再者又不尽相同。两地三中心的原理是本地主存储随时将信息同步到辅存储,保证这两个存储数据完全一致;再定期“异步复制”到远程容灾机房上。如果主中心出现故障,迅速把业务切换至辅机房,并把数据从辅机房异步复制到容灾机房。如果主辅中心同时不能运行业务,就需要容灾机房运行业务或恢复业务(根据实现方式选择)。这里就暴露了两地三中心的缺点,如果主辅中心同时不能正在运行时,容灾机房需要恢复时间才能运行,而且会丢失数据。

三地五中心刚好能弥补这个缺点。它是在第三个地点加上一对主辅中心,且这两对主辅中心之间是随时保持信息同步的,然后再定期异步复制到第五个中心——容灾机房。当一个地域的主辅助机房都不能正常运营时,会迅速把业务转移到另一个地区的主辅机房,反应快,而且数据也不会丢失。这就是文章开始说的实验,同时毁坏一个地区的主辅中心,能在26秒内恢复正常运转,而且不会丢失数据。

2、成本高昂

两个地区的数据中心同时出现故障的概率可以忽略不计。这么好的容灾方案,为什么不取代两地三中心容灾呢?最大的原因应该就是成本问题。任何一个灾备项目,目标、规模、风险、成本这几重因素总是紧密关联在一起的。而成本是被故障可能造成的损失所决定的,成本预算一旦超过损失预估,肯定是不能通过的。而数据中心的成本又非常高昂,可不简单地是硬件的成本。包括以下四个方面。
数据中心的成本

  • 场地费用

包括灾备机房基础设施费用,灾备中心人员费用等。

  • 设备费用

包括购买的灾备存储、交换机、路由器、协议转换器、主机等各种设备的费用。
传输网络费用

这一部分费用随着灾备技术路线的不同更是差距明显。

  • 运维费用

这部分的费用包括向厂商购买的每年服务和应急的专业服务费用,还包括高级别的系统维护人员的费用。

三地五中心比两地三中心多的不仅仅是一个中心的费用,还有额外的高昂的传输网络费用。两地三中心灾备中,远程的容灾中心是异步复制的,为什么不做成同步复制呢?那样就不会有数据丢失的情况了。原因只有一个字——贵。同步复制可以保证数据完全一致,但是对数据传输带宽和时延要求都很高,成本昂贵,一般只用于近程。另外,技术路线的不同,导致的带宽也不同,可以相差达到40倍的带宽差异。

例如,采用不同的技术,也可能只需要每年支付20万的传输网络费用,也可能需要支付每年200万的网络费用,而实际效果却完全相同。三地五中心灾备解决方案中两座城市的四个机房需要实时同步数据,既需要远程同步,又要好的技术支持。一年的带宽成本可能足够建一个小型的数据中心了。有人说两地三中心的一大缺点是成本高,但是和三地五中心的成本比起来,只能算是小巫见大巫。

3、金融行业专属


2013年8月16日,Google在全球范围内发生了五分钟的宕机——搜索服务、YouTube、Gmail全部崩溃。事后,有第三方数据显示,在这五分钟时间内,全球互联网流量雪崩了40%。对于互联网巨头来说,三地五中心确实是值得投资的。但是这些企业实在太少了,一般的企业要不要上两地三中心都要好好计算计算。但是对于另一个行业,三地五中心也是好的选择,那就是金融行业。

金融行业本来就“有钱”,而且担心系统故障,更担心数据丢失。如果几分钟的数据丢失,可能就会造成巨额的损失。投资三地五中心灾备是值得的。再回到文章开头那个实验,蚂蚁金融的三地五中心是基于阿里金融云的,其实早在2015年就建成了。单看名字就知道什么企业会用到。而且金融行业一直以来都是IT投资的大户,近年来灾备投资也逐年提升。


但是,如果企业不属于金融行业,数据不需要那么及时的话,CIO还是要劝经营层不要考虑“几地几中心”了。咱家数据金贵,建个数据中心投入也不小不是,还是先考虑下这几个方面:

  • 是否是低带宽特征,如果是则需要考虑具有带宽优化的技术实现
  • 是否是异构系统,如果是则需要考虑异构的灾备体系
  • 成本。权衡和比较不同灾备实现的成本,这里会产生很大的差异
  • 灾备系统是否对于生产系统产生很大的变动,有时候,这往往是致命的
  • 灾难的防御范围。除了人们已知的各类自然灾害、设备故障外,是否需要防范人为的数据篡改或丢失,如果是,所采用的技术就需要更为全面、功能覆盖面更为广泛
  • 工程实施过程。实施是否简单、维护过程是否简单往往决定了系统今后的维护、运营成本和对生产系统的影响

扫码查看更多CIO文章
 
加入【CIO & IT经理精英汇】微信交流群请联系群管理员(群管理员ID:CIOAge)。 申请入群请注明所在公司+职位。
 

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

【责任编辑:张昂 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

征服Python—语言基础与典型应用

Python是目前流行的脚本语言之一。本书由浅入深、循序渐进地讲解如何使用Python进行程序开发。全书内容包括Python安装、开发工具简介、Pyth...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊