Situaciones de Falla de vSAN

vSAN proporciona tanto una escala de clase empresarial como un rendimiento adecuado para empresas de todo tipo y tamaño. Al diseñar un cluster vSAN, hay varias cosas a considerar, como el hardware, las redes y la arquitectura vSAN. Un buen lugar para comenzar es la Guía de diseño y dimensionamiento de vSAN, pero es importante entender cómo responde vSAN a las distintas situaciones de falla al tomar decisiones de diseño. Esta publicación identifica algunos de las situaciones de falla más comunes, cómo responde vSAN y cuál será el impacto general en la máquina virtual.

Situaciones de Falla

Con la mayoría de los sistemas de almacenamiento, las fallas generalmente se identifican como temporales, permanentes o desconocidas. vSAN clasifica las fallas como “ausentes”, también conocidas como ALL Paths Down (APD), o “degradadas”, también conocidas como Physical Device Loss (PDL).

Un estado degradado es cuando se sabe que un dispositivo ha fallado de tal manera que es poco probable que vuelva a estar saludable. En este caso, la reconstrucción comienza inmediatamente. Un ejemplo es si una unidad está experimentando fallos de escritura. Otro ejemplo es si un controlador está reportando un error.

No todas las fallas de los dispositivos son permanentes. De hecho, es más común que falte un dispositivo temporalmente y es probable que regrese. Un estado de ausencia es cuando un dispositivo pierde conectividad y vSAN no puede determinar si regresará. Estas reconstrucciones se retrasan 1 hora por defecto para determinar si son transitorias. Esto evitará reconstrucciones innecesarias que podrían afectar potencialmente el rendimiento de todo el cluster, o resultar en un tiempo más largo para la recuperación de un estado saludable. Algunos ejemplos incluyen el reinicio del nodo, el bloqueo, la pérdida de energía, o la desconexión de red o disco. Para los casos en que un administrador necesita ajustar el tiempo que espera vSAN antes de que comience a reconstruir los datos para restablecer el cumplimiento de las políticas de almacenamiento, hay una nueva configuración de “object repair timer delay” en la interfaz de usuario a partir de vSAN 6.7 U1.

Situación	Comportamiento de vSAN	Impacto/Comportamiento de VMware HA
Falla de Disco de Caché	El grupo de discos está marcado que ha fallado y todos los componentes presentes en él se reconstruirán en otro grupo de discos.	La maquina virtual seguirá corriendo.
Fallo del disco de capacidad (Dedupe y Compresión ON)	El grupo de discos está marcado que ha fallado y todos los componentes presentes en él se reconstruirán en otro grupo de discos.	La maquina virtual seguirá corriendo.
Fallo del disco de capacidad (Dedupe y Compresión OFF)	El disco marcado que ha fallado y todos los componentes presentes en él se reconstruirán en otro disco.	La maquina virtual seguirá corriendo.
Error del grupo de discos/fuera de línea	Todos los componentes presentes en el grupo de discos se reconstruirán en otro grupo de discos.	La maquina virtual seguirá corriendo.
Fallo en tarjeta de RAID/HBA	Todos los grupos de discos respaldados por la tarjeta HBA / RAID se marcarán como ausentes y todos los componentes presentes se reconstruirán en otros grupos de discos.	La maquina virtual seguirá corriendo.
Fallo de Nodo	Los componentes en el nodo se marcarán como ausentes por vSAN – la reconstrucción de los componentes se iniciará después de 60 minutos si el nodo no vuelve a activarse.	La maquina virtual continuará corriendo en otro nodo. Si la máquina virtual estaba corriendo en el mismo nodo que falló, se llevará a cabo un reinicio de HA de la máquina virtual.
Aislamiento del Nodo	Los componentes presentes en el nodo se marcarán como ausentes por vSAN – la reconstrucción de componentes se iniciarán después de 60 minutos si el nodo no vuelve a estar en línea.	La maquina virtual continuará corriendo en otro nodo. Si la máquina virtual estaba corriendo en el mismo nodo que falló, se llevará a cabo un reinicio de HA de la máquina virtual.

La siguiente animación muestra un nodo ESXi que ha estado ausente por más de 60 minutos. vSAN reconstruye los componentes en otro nodo disponible. Cuando el nodo ausente regresa, vSAN descarta los componentes obsoletos..

Conclusión

vSAN es una plataforma de almacenamiento altamente resistente que gestiona de forma inteligente el rendimiento, la eficiencia y la disponibilidad de todos los datos almacenados en un cluster. Como VMware vCenter se usa como un plano de control y administración común para un cluster vSphere, pueden surgir preguntas al determinar cómo reacciona un cluster vSAN cuando un servidor vCenter debe reconstruirse desde una nueva instalación, o restaurarse desde una copia de seguridad. Para obtener más información sobre este tema, consulte Reemplazo de un servidor vCenter para nodos vSAN existentes.

A continuación hay algunos recursos que ayudarán en el diseño de su cluster vSAN.

@GreatWhiteTec