灾备技术是指在一个数据中心发生故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,达到互为备份的效果。灾备是一项综合系统工程,需要异地寻址建设数据中心,涉及到供电、网络、存储、服务器等多种不同技术,系统建设复杂程度高、成本高昂,一般只有在大型企业和金融行业应用较多。随着云计算的发展,用户不再需要自己建设灾备数据中心,而是利用公有云的数据中心来建设云灾备,可以大规模降低建设成本,是灾备方案建设的一条新思路。云灾备也有一个专门新名词 DRaaS (Disaster Recovery as a Service),这也是公有云服务的一个重要应用场景。
随着公有云服务 VMware Cloud on AWS (VMC) 逐渐在 AWS 全球数据中心落地,VMware 也推出了云灾备服务 VMware Site Recovery (VSR),这是基于 VMC 云端的灾备解决方案。它可以帮助用户在私有云和 VMC 公有云之间同步应用和数据,当受用户的私有云发生灾难时,自动在 VMC 云端恢复受保扩的应用。
在设计灾备系统时经常涉及到 RTO 和 RPO 两个指标,VSR 可以做到 RTO 目标可预知,RPO 目标最高可缩短到5分钟。
- RTO (Recovery Time Objective) 就是企业能容忍的恢复时间。灾难发生后,从 IT 系统宕机导致业务停顿,到 IT 系统恢复至可以恢复业务运营之间的时间。
- RPO (Recovery Point Objective) 可简单地描述为企业能容忍的最大数据丢失量。假设系统一天做一次备份,如果第二天出现错误,那从备份完成后到错误出现时所写入的数据都无法挽回了,从上一次备份到发生错误之间的时间就是 RPO。
VSR 的工作原理
VSR 灾备的工作原理是主备环境之间的数据同步,受保护的应用在主环境 (私有云) 中运行,备份环境 (VMC 公有云) 负责保存受保护应用的数据备份,VSR 负责主备环境之间的数据同步,这个数据同步的间隔就是 VSR 灾备所能实现的 RPO 目标。当主环境发生故障或灾难时,VSR 利用在备份环境中最新的备份数据来启动受保护应用,从而起到灾难保护的目的。VSR 利用了 VMware 在私有云中成熟的灾备技术 Site Recovery Manager (SRM) 和 vSphere Replication 来实现云灾备:
- Site Recovery Manager (SRM): SRM 是一个由 VMware 预先封装好的 Virtual Appliance,分别安装运行在用户的数据中心和 VMC 云端环境。SRM 负责制定灾备计划,并且可以进行非破坏性的灾备方案测试,在灾难一旦发生的情况下在备份环境中按灾备计划自动恢复所有受保护的应用。
- vSphere Replication: vSphere Replication 也是一个由 VMware 预先封装好的 Virtual Appliance,由它来完成主备环境之间的数据同步。注意,虚机只需要在开始的时候做完全同步,后续只需要同步虚机中变化的内容。
利用 VSR 来配置灾备方案非常方便,只需要指定受保护的虚机、数据同步等参数,就定义好了一个灾备恢复计划 (Recovery Plan)。执行这个恢复计划,VSR 就会在灾难发生时根据灾备恢复计划来进自动恢复。VSR 提供了一个非常详细的恢复步骤 (Recovery Step,见下图),管理员只需要修改其中的某些参数以适应自己的环境和应用需求就行了。例如,VSR 把虚机分为5个优先等级,VSR 会首先启动所有 Priority 1 的虚机,然后再启动下一优先等级的虚机;在同一优先等内部,虚机之间还可以指定依赖关系,以确保某些提供基础服务的虚机先于其他虚机而启动;用户可以通过指定虚机的优先等级和依赖关系来确保虚机启动时的先后顺序。
VSR 的特点
虽然是新推出的一个云灾备方案,但是因为 VSR 是基于 VMware 在私有云中的成熟灾备技术而构建的,VSR 在诞生之时就能为用户提供完善可靠的云灾备解决方案,具有以下特点:
- 非破坏性测试:传统的灾备方案通常只能在模拟环境中进行测试,所以很难评估生产环境是否真能达到设计的 RTO 指标 (即多少时间内能恢复服务);而且灾备方案的测试成本很高,一年中往往只能做一到二次,IT 运维团队大部分时候对于灾备方案是否能满足业务要求是心中没底的。VSR 的非破坏性测试功能让灾备测试想做多少次就做多少次,更多的测试让运维团队能够及时发现和修复灾备方案中的问题,从而对灾备方案所能实现的 RTO 目标更有信心。
- 自动 Failover:当受保护站点发生灾难时,VSR 能够根据在 VMC 云端保存的数据快像备份来启动受保护的虚机,从而恢复受保护的应用。
- 自动 Failback:当私有云环境得到恢复后,因为灾备切换到 VMC 云端的应用重新处于受保护状态,只不过这种保护是逆向的,虚机数据从云端向私有云同步。然后 VSR 反向执行恢复计划把受保护的应用从 VMC 云端自动迁移回原始站点,这个叫作 Failback。
- 详细的报告:VSR 能够生成详细的报告,里面记录了灾备恢复的整个工作流程,这些信息对于某些特定行业的用户是非常重要的,以满足审计和合规的要求。
VSR 的主要应用场景
VSR 能够提供的灾备方案,还可以是从公有云到私有云的灾备保护,也可以是 AWS 不同 Available Zone 或数据中心之间的灾备保护,用户可以根据自己的业务需求来灵活应用 VSR 灾备保护方案。除了灾难恢复之外,VSR 还可以用于私有云向公有云计划性的虚机迁移,主要应用场景包括的负载均衡和硬件系统维护等等。VSR 所提供的灾备方案也可以是站点之间双向的,可以实现单活、双活等多种灾备方案。
扩展阅读
VMware 和 Intel 携手帮助用户向公有云转型,让他们更有信心把公有云纳入 IT 战略规划,再也不要为了信息安全、应用性能、可预见性和敏捷性而进行妥协。VMware 行业领先的软件技术和 Intel 硬件技术帮助用户充分利用混合云的优势,在私有云和公有云之间灵活地迁移工作负载,以充分实现混合云技术所带来的计算、容量、可见性、灵活性方面的好处。VMware Cloud Foundation、VMware Cloud Services 和 Intel 领先的处理器、全闪存储、硬件加速卡和高速网络等给企业带来更多的选择,让他们能够灵活地构建、运行和管理任何类型的云计算环境。利用这些私有云、公有云和混合云解决方案,企业可以轻松地实现各种云平台,规划好支撑业务发展的云战略,让IT更好地为业务服务。