VMware Cloud Foundation 是 VMware 的全栈云平台,是 VMware 过去十多年中在软件定义数据中心领域最佳实践的总结,包含了计算 (vSphere)、存储 (vSAN) 和网络 (NSX) 虚拟化方案和云管平台 (Aria),帮助用户实现数据中心资源的池化管理和云化调度,是用户搭建企业级云平台的理想选择。
软件定义的数据中心
在大家的直观印象中,数据中心是由各种硬件构成的:服务器、存储、交换机、防火墙、路由器、负载均衡等等。软件定义数据中心 (Software Defined Data Center,简称 SDDC) 就是在这些硬件上通过软件构建出一个虚拟化的基础设施层,通过这个基于软件的架构来提供计算、存储、网络等服务功能。
软件定义数据中心实现了硬件资源的池化管理,分布在各个硬件中的计算、存储、网络资源可以被虚拟化软件集中起来,成为一个共享使用的资源池,各个应用按需申请和使用这个资源池中的资源,从而大大提高了数据中心资源的利用率。
VMware Cloud Foundation 就是一个能够帮助用户轻松实现软件定义数据中心的基础架构平台,其中的 vSphere、vSAN、NSX 分别实现了计算、存储、网络资源的虚拟化并形成资源池,该资源池通过云管平台 Aria 来进行统一管理和调配,并为使用者提供自助式的服务界面来实现私有云的功能。
1. 运维管理上的便利
基于 VMware Cloud Foundation 的软件定义数据中心首先带来的好处就是运维管理上的灵活和便利,提高了数据中心资源的利用率。
VMware Cloud Foundation 通过虚拟化把应用和底层的硬件彻底隔离开来,带来管理上的便利:
- 服务器:在 vSphere 的虚拟化环境中,硬件的更换和升级维护,都不会影响虚机的正常运行。虚机可以被动态迁移 (vMotion) 到其他主机,原有的主机空闲下来后就可以很方便地进行硬件升级、维护操作,完成后再加回到资源池中共享使用。
- 存储:分布式存储平台 vSAN 提供了基于存储策略的存储管理 SPBM (Storage Policy-Based Management),管理员可以定义多个存储策略,来指定数据是否需要冗余保护机制 (无、Raid-1/5/6)、是否需要跨站点保护等,虚机只需要根据自身的重要性等级来选择适用的存储策略即可,而无需关心数据具体存放在哪里。
- 网络:网络虚拟化方案 NSX 让管理员不用关心底层的网络到底是哪些厂商的网络设备,可以直接在 NSX 虚拟化网络层为应用调配各种网络设置和参数。 尤其是 NSX Firewall 所提供的分布式防火墙,可以为每一个虚机提供基于软件的防火墙保护,这是物理防火墙不可能做到的。
2. 提高运维服务等级 SLA
软件定义的数据中心可以帮助 IT 运维团队显著提高基础架构的运维水平,并进而提高整个数据中心的服务等级 SLA。VMwae Cloud Foundation 为运维团队提供了专用的工具 Aria Operations 来及时发现并解决数据中心内的各种问题,从而提高运维效率和质量。
现代的数据中心有数以百计的服务器,上面运行着上千个虚拟机,还有各种网络设备和存储,管理运营数据中心是一个巨大的挑战:需要监控的对象超出人力所及的范围,需要分析的报警数据根本来不及处理。在这样的压力下,用人工方式来管理肯定是行不通的。Aria Operations 会代替管理员监控数据中心内的所有设备 (不管是安装了 vSphere 的服务器还是第三方的网络设备),而且24小时不间断,不会漏掉任何报警信息。但是它不会简单地把收到的信息直接呈现给管理员,而是经过整理和分析之后进行总结,过滤掉关于同一故障的大量冗余信息,最后以三个非常简单的超级指标形式展现:健康状况、系统风险、运行效率。管理员可以通过 Aria Operations 及时发现和解决问题,采取措施预防潜在风险和提高运行效率,来保证整个数据中心的服务质量等级 SLA。
在一台虚拟化的服务器上,可能会有成百上千个软件在运行,每个软件都会产生日志,很多软件还会产生不止一个日志。日志管理工具 Aria Operations for Logs 可以帮助管理员来更加高效地管理这些日志,主要体现在以下两个场景:
- 定位故障原因和性能瓶颈:当系统发生故障或出现性能瓶颈时,管理员就需要去分析各种日志来定位故障原因,或是找出导致系统工作异常的线索。因为日志文件很多又很分散,没有工具帮助的话定位问题就象是大海捞针一样困难,Aria Operations for Logs 把所有的日志信息都汇总在一起,可以很方便地对日志进行过滤,从而很快地找到导致故障的根本原因。
- 系统监控:日志也详细记录了系统和应用中发生的所有事件,Aria Operations for Logs 能够帮助管理员来监控某些特定的事件,一旦在某个日志中发现相关的事件,就会根据预先的设定来通知管理员或是 Aria Operations 来采取进一步的纠错行动,从而防患于未然、保证系统服务质量。
3.高效利用资源
VMware Cloud Foundation 也为软件定义数据中心提供了智能化的运维平台 Aria Operations ,来帮助用户来高效充分地利用资源 。
在传统的数据中心中,资源的分配不当是一个非常常见的问题。在项目开始的时候,因为无法准确估计资源 (CPU、内存、存储) 用量,超量申请是一个常见的情况;而项目结束后,又有大量的虚机没有及时注销,造成资源的浪费。在 VMware Cloud Foundation 环境中, Aria Operations 监控着软件定义数据中心中所有资源的使用情况,它会以报表的形式来展示各个虚机的资源分配是否适当,对于空闲的虚机或资源超配的虚机,可以及时提醒是否要回收这些空闲的资源,在管理员确认后可以自动回收,从而保证整个数据中心内资源的充分利用。Aria Operations 也会及时发现资源分配不够的虚机,管理员可以根据需要随时动态添加资源,来保证虚机上应用的正常运行和性能表现。
Aria Operations 可以跟 vSphere 相配合来实现虚机的调度,以保证虚机在最适合的硬件平台上运行,并使资源的利用最大化。vSphere 中的虚机调度功能是 DRS (Distributed Resource Scheduler),用于在 vSphere 集群内部保持负载均衡,如果有服务器过于繁忙的话,就把它上面运行的部分虚机迁移到其他比较空闲的服务器上去,从而使整个集群内的服务器都运行在一个工作负载和资源消耗比较均衡的状态。Aria Operations 中的虚机调度能力称之为“Workload Placement (工作负载放置)”,它也是利用 DRS 来实现的,区别在于 Workload Placement 则是更高一级的调度功能,它可以跨集群来迁移虚机,实现多个集群之间的负载均衡。利用这一功能可以把虚机分布在每一台服务器上,让每一台服务器都均衡地承担工作负载,这样不容易造成资源申请的竞争,从而保证每个虚机的性能;也可以做到把关键应用自动地调度到配置最高的服务器上去运行,以保证关键应用的性能表现。
4. 基础架构内生的安全保护机制
VMware Cloud Foundation 在软件基础架构中内置了完善的安全机制,使得软件定义的数据中心比传统数据中心有着更高的安全性,可以充分保护用户应用和数据的安全。
首先在底层架构上,vSphere 提供了完备的安全机制,包括:ESXi 服务器安全启动和虚机安全启动,支持物理 TPM 和为虚机提供 vTPM,支持微软基于虚拟化的安全 VBS 机制、Intel SGX 安全机制,并且从根本上建立了完备的可信计算体系 Trust Authority。
在数据层面, vSphere 和 vSAN 都提供数据加密功能,采用对称加密算法 XTS-AES-256 来对虚机进行加密。即使是 vMotion 在物理服务器间动态迁移虚机时,也会对网络上传输的虚机数据进行加密。
在网络层面 ,传统的数据中心一般把物理防火墙部署在数据中心的出口处,称之为边界防火墙 (Perimeter Firewall),来控制数据中心对外的网络通信。边界防火墙虽然能够很好地控制来自于外部的南北向流量,但是对于数据中心内部的东西向流量却没有任何的防范措施。信息安全要求采用零信任 (Zero Trust) 机制,假设安全威胁无处不在,即使是在数据中心内部。NSX Firewall 所提供的分布式防火墙使得东西向流量的控制成为可能,它能够对每一台虚机提供防火墙服务,并且根据业务需要来划分网络“微分段 (Micro Segmentation)”。可以利用微分段在数据中心内部对虚机进行隔离,把不同业务部门的虚拟服务器分隔在不同的微分段里,跨微分段的访问是绝对不可能发生的;在同一微分段内部,还可以根据业务需要在虚机之间设立防火墙,确保虚机之间只有进行必需的网络通信,从而最大限度地提高了虚机的安全性。
5. 为关键应用提供高可用方案
在数据中心中,有很多应用支撑着企业的的关键业务,它们是不能够随便停机的,需要为这些关键应用提供高可用 HA (High Availability) 方案。软件定义数据中心因为已经把资源虚拟化了,在高可用方案设计上比之传统的数据中心有着更多的优势。
首先 vSphere/vSAN 集群就是一种天然的高可用平台,虚机和数据都存放在 vSAN 所提供的分布式共享存储里,并且有数据冗余备份。如果某一台服务器宕机了,它上面的虚机就可以在另外一台服务器上重新启动起来,在短时间重新恢复应用服务。这个时间间隔就是 RTO (Recovery Time Objective) 指标,它定义的是能容忍的恢复时间。
如果要求 RTO 为零, vSphere 还有一个零宕机的功能叫 Fault Tolerance (FT)。FT 技术的工作原理是把需要保护的虚机和备份虚机运行在两台服务器上,通过 vLockstep 技术来保证两台虚机的同步运行,可以实现主备虚机的数据和运行状态的完全一致。当主服务器发生故障时,备份虚机可以马上接管,从而实现 RTO和 RPO (Recovery Point Objective,能容忍的最大数据丢失量) 目标都为零的最高可用等级。
上面两种是主机级的 HA 方案,VMware 还有站点级的高可用方案 (通常叫灾备方案)。
最基本的灾备方案是 LSR (Live Site Recovery,原来叫 Site Recovery Manager),它可以把受保护的虚机实时备份到另一个站点,当受保护站点发生灾难时,在备份站点可以把备份虚机启动起来,实现应用的不间断。这种方案最高可以实现 RPO 目标为1分钟的灾备。
另外一种更加高级的灾备方案是利用 vSAN 延伸集群 (Stretch Cluster) 来实现双活数据中心。在位于两个站点的数据中心内分别部署一套 vSAN 集群,然后把这两个集群配置成一个 vSAN 延伸集群。可以为关键应用定义最高等级的存储策略为跨站点数据保护,即关键应用的数据同时保存在两个站点。两站点平时都可以正常运行各种应用,实现双活;当任一站点发生灾难时,另一站点可以利用备份数据快速启动受保护的关键应用。
在上述 HA 方案中,当应用故障恢复 (failover) 时,需要保持网络的连通性以让它继续对外提供服务。NSX 虚拟化网络为受保护的应用提供了独立的 IP 地址空间,应用的 IP 地址空间可以跟随着应用走,备份虚机恢复后,NSX 会自动为它配置所需的 IP 地址。除此之外,NSX 也为应用提供了全局的网络配置,包括:防火墙规则、路由表等等,这些网络配置也会跟随着应用一起迁移到新的运行环境。再配合软件定义的负载均衡 ALB (Avi Load Balancer) 所提供的全局负载均衡 GSLB (Global Server Load Balancing) 功能,可以把所有的服务请求自动转发到新的运行环境中来,对于应用客户端而言实现无缝切换。
6. 快速响应业务需求
传统的数据中心中的基础架构由 IT 运维团队负责,业务团队需要申请资源或其他的变更时,需要填写电子工单来申请,经过审核批后再分配给具体的运维人员来手工实施,整个流程往往需要几天的时间。基于 VMware Cloud Foundation 的软件定义数据中心可以通过 Aria Automation 所提供的自助式服务来更加快速地交付这种服务请求,被加速的部分是实施部署阶段的工作,把原来手工完成的工作用 Aria Automation 来自动化完成,不但速度快,而且还可以避免手工操作过程中的错误。
Aria Automation 使用应用蓝图 (Application Blueprints) 来描述应用部署的拓扑结构,并按照应用蓝图描述来把应用部署到 IT 运行架构上去。手工部署应用经常因为运行环境的不同而产生问题,管理员需要花比较多的时间来排错,自动化部署避免了手工部署的这些问题,同一个应用蓝图可以被迅速地部署到任何一个云计算环境中。Aria Automation 的应用部署自动化对于复杂的多层架构的应用特别有帮助,可以很好地支持 DevOps,自动化部署可以保证应用在整个开发、测试、生产过程中的一致性,避免任何运行平台的差异、应用配置的错误或其他手工操作的出错,从而帮助应用的持续集成和交付以更好地应对业务需求的变化。
VMware Cloud Foundation 产品
通过上面的介绍可以看到,软件定义的数据中心可以为我们带来诸多的好处和便利,VMware Cloud Foundation 把 VMware 在软件定义数据中心实践中发展起来的各种工具和方案整合在一起,作为一个整体平台来提供给用户。用户可以通过购买 VMware Cloud Foundation (简称 VCF) 的订阅许可来获得这一全栈云平台,其中主要包含以下组件:
- vSphere 企业增强版:这是 VMware 的企业级工作负载平台,内含 VMware 的容器应用平台 Tanzu Kubernetes Grid (TKG) 和 vCenter Server 的许可。
- vSAN 企业版:提供分布式存储服务功能,利用每台服务器上的存储来构成一个虚拟化的存储资源池,并为整个集群中的虚机提供存储服务。vSAN 是按存储容量来计算许可数量的,VCF 每 Core 的许可中包含了 1TiB 的 vSAN 容量许可,是用户搭建超融合系统的理想选择。
- NSX Networking:网络虚拟化产品 NSX 分为两部分:NSX Networking (虚拟化网络) 和 NSX Firewall (防火墙),NSX Networking 包含在 VCF 中,所有的安全相关功能都归在NSX Firewall中,以附加功能 (Add-on) 的形式提供。
- Aria Suite 企业版:VMware 的云管平台,主要由运维工具 Aria Operations 和 IT 自动化工具 Aria Automation 两部分功能组成。
- Aria Operations for Networks 企业版:网络和安全分析工具,提供全面的网络可视化、流量分析、安全策略优化等网络管理功能。
- HCX 企业版:工作负载迁移工具,可以把虚机批量地迁移到另一个 vSphere 集群,目标集群可以是在另外一个数据中心。
- Data Service Manager (DSM):数据库管理工具,支持 PostgreSQL 和 MySQL 这两种数据库系统的自动部署和管理,提供数据库服务的高可用性、生命周期管理和内置监控等功能。
- SDDC Manager:它是 VMware Cloud Foundation 软件定义数据中心的核心管理平台,对私有云中的所有软硬件资源实行统一管理,能够自动化实现从私有云的部署到日常维护的所有操作,包括系统补丁和软件升级等。
以上是 VMware Cloud Foundation 产品的基本核心组件,其他的功能都以附加功能 (Add-on) 的形式来提供,主要的附加功能有以下几种:
- vSAN 容量:VCF 每 Core 许可都配有 1TiB 的 vSAN 容量,如果要超出该容量的话,可以购买额外的 vSAN 容量许可。
- NSX Firewall:包含了网络虚拟化产品 NSX 所有的安全相关功能,如分布式防火墙 DFW (Distributed Firewall)、网关防火墙 GFW (Gateway Firewall)、容器安全机制 Antrea 等。
- VMware Live Recovery:包括了本地跨数据中心灾备工具 LSR (Live Site Recovery) 和云端灾备工具 LCR (Live Cyber Recovery)。
- Avi Load Balancer (ALB):VMware 软件定义的负载均衡器,用软件来实现传统硬件负载均衡器的功能。
- Tanzu:Tanzu 系列工具主要用于支持现代应用开发和部署,包括 Kubernetes 集群管理平台 Tanzu Mission Control、新一代 PaaS 平台 Tanzu Application 等。
限于篇幅,这里只是介绍了 VMware Cloud Foundation 的一些主要的功能和应用场景,如果您对 VCF 有更多的问题和需求,请填写线上调查问卷,留下您的联系方法,VMware 会有专人跟您联系的。