云计算管理平台

智能运营专家 vRealize Operations

现代的云数据中心有数以百计的服务器,上面运行着上千个虚拟机,还有各种网络设备和存储,管理运营数据中心是一个挑战:需要监控的对象超出人力所及的范围,需要分析的报警数据根本来不及处理。在这样的压力下,管理员疲于奔命,被动式地响应服务请求,累得跟狗一样还总是有人报怨故障解决得太慢,IT 民工咋那么命苦呢?别着急,vRealize Operations 就是改变广大运营维人员命运的一款神器。

 

保证服务质量

vROps 会代替管理员监控数据中心内的所有设备,而且是24小时不间断地,不会漏掉任何报警信息。但是它不会简单地把收到的信息直接呈现给管理员,而是进过整理和分析之后进行总结,过滤掉关于同一故障的大量冗余信息,最后以三个非常简单的超级指标形式展现:健康状况、系统风险、运行效率。管理员通过 vROps 及时发现和解决问题,采取措施预防潜在风险和提高运行效率,来保证整个数据中心的服务质量等级 SLA。


vROps 会根据历史数据进行分析,对系统的性能和风险作出智能预测,最后通过超级指标提示管理员。神奇的是,vROps 不但通能指出问题所在,而且能进一步给出整改意见。

举个例子:在下图中,vROps 显示“健康”和“风险”这两项指标都有问题,管理员就应该看一下每个指标下的详细信息。“健康”指标下的第一条警告显示有些虚拟机由于快像太多而导致磁盘 I/O 延迟问题,点开后就可以看到进一步的详细指示:删除多余的快像,把多余的快像合并成一个。管理员按照指示采取相应的操作之后,就可以消除这一系统性能问题。

小知识:虚机的数据存放在虚机的镜像文件中,虚机的快像 (snapshot) 实际上是把虚机目前的状态跟原镜像之间的差异保存在一个 delta 文件中。当虚机有多个快像时,就有多个对应的 delta 文件存在,每个 delta 文件记录跟前一个虚机状态之间的差异,虚机当前的数据是由所有这些 delta 文件和原镜像叠加计算出来的。所以虚机的镜像不宜太多,不然会严重降低系统性能,删除一些不必要的快像可以减轻文件读写负担,提高系统性能。

 

提高运营效率

从上面的例子可以看到,vROps 不仅可以帮助快速定位问题,还能指导管理员迅速解决问题。据统计,vROps 可以减少大约 50% 的排错时间,从而大大减少管理员的工作负担,好让他们也有时间去陪妹纸呀。

为了防止容量不够而引起故障,应用部门在申请虚机容量时往往向上靠,又导致了容量的过量分配。尽管 VMware 也提供了 Thin Provision 的虚拟硬盘分配选项,但是在服务器中经常选择性能更优的 Thick Provision,过量分配就会占用大量的硬盘空间。另一方面,有些虚拟机用完以后也没有被及时注销,数据中心每隔一段时间就会出现僵尸虚机,也占用着宝贵的内存和存储空间。

vROps 提供了容量分析工具来让管理员定期检查系统资源的使用情况,一旦发现资源不足(超出警戒线)或是过量分配的情况,就能及时采取措施,来化解资源短缺的险情,回收过量分配的资源。这么做一方面可以有效防止因为资源短缺而引起的故障风险,另一方面也可以有效利用现有的硬件资源,降低数据中心的硬件采购成本。

在启动新项目之前,管理员可以使用 vROps 来针对容量进行 What-If 假设分析,看看现有的容量是否能满足新项目的需求。如果容量不够的话,可以规划一下需要加入多少新的服务器或存储才能满足新增需求;也可以查找可回收的资源,计算一下这些资源回收以后能否满足需求。


小知识:vSphere 在创建虚机时虚拟硬盘有三种格式可以选择:

  • Thick Provision Lazy Zeroed
    一开始就分配足额空间给虚拟硬盘,但是等真正写入数据时才初始化(写 0);
  • Thick Provision Eager Zeroed
    一开始就分配足额空间给虚拟硬盘,并且完全初始化(写 0),性能最优;
  • Thin Provision
    根据虚拟硬盘的实际使用来分配空间,但在性能上要比上面两种差一些。

 

控制和合规

出于安全、性能和管理等方面的要求,每个数据中心都有一系列的规章制度。举个栗子:DCUI (Direct Console User Interface) 是 vSphere 在每台物理服务器上的管理界面,它有一个 Login Idle Timeout 参数一定要设置(建议设成10分钟),不然管理员忘记 Logout 就走开了,碰到恶意搞破坏的坏人就会有安全隐患。

类似这样的安全强制条例可能有上百条,数据中心的每一台设备都要求符合这些规定。让管理员一台一台去检查吗?别逗了,那别的工作什么都不用干了。vROps 可以自动检查数据中心里所有设备的合规性 (Compliance),把不合规的情况一条条列出来,管理员可以随后手工改正这些问题,也可以让 vROps 强制自动修正。

 

vRealize Operations 和 vRealize Log Insight

大家可能也听说过 VMware 的另一个监控工具 vRealize Log Insight,vROps 跟它是什么关系呢?vROps 跟 Log Insight 是这样分工的,vROps 负责收集和监控结构化的数据,包括各种系统指标、告警、事件等;Log Insight 负责收集和监控非结构化的数据— 所有的文本日志,这些日志分布在多个设备和服务中,由 Log Insight 来把它们收集到一起,这样管理员就可以在一个地方看到所有的日志。两个工具一起协作来共同支持数据中心中的运营管理工作,实际上 vROps 和 Log Insight 也是所有 vRealize 套件产品中的基础组件。

通过上面的介绍大家可以看到 vROps 有这么强的管理功能,有了这样一个工具的帮助,云数据中心的管理工作就不再是 Mission Impossible。