Desastres e problemas de indisponibilidade são inevitáveis e muitas vezes não podem ser previstos. Esses acontecimentos impactam de forma direta no faturamento de diversas empresas e entidades. Uma das formas de lidar com esse tipo de situação é adotando uma estratégia de Disaster Recovery ou site de contingência. Essa estratégia permite a recuperação dos serviços e aplicações em outra localidade em caso de falha na localidade principal.
A VMware possui uma solução completa de Disaster Recovery através da integração nativa do SRM (Site Recovery Manager), nosso orquestrador de recuperação de desastres e o NSX a nossa plataforma de redes e segurança. Nessa solução o NSX replica automaticamente os elementos de redes e segurança, como switches lógicos, roteadores lógicos e regras de firewall entre as localidades e o SRM realiza o failover das VMs entre as localidades.
Do ponto de vista técnico o NSX permite a extensão da camada 2 entre as localidades, permitindo que a aplicação realize o failover transparente mantendo as mesmas configurações de rede originais. Além disso o NSX permite também a extensão da camada 3, apresentando o mesmo default gateway em todas as localidades, realizando dessa forma o roteamento local dos pacotes e evitando o tráfego intersite ou também conhecido popularmente como “tráfego trombone”. E em relação a segurança, o firewall distribuído universal do NSX aplica as suas regras em todas as localidades, garantindo os benefícios da microssegmentação e a aplicação das políticas de segurança necessárias.
Já o SRM permite a criação de um plano de failover das aplicações. Através do conceito de grupos de proteção (Protection Groups), podemos eleger as VMs que devem ser protegidas e terão seus dados replicados entre as localidades. A partir da versão do vSphere 6.5 é possível ter uma replicação de dados entre as localidades com um RPO (Recovery Point Objetive) de pelo menos 5 minutos, utilizando para isso o vSphere Replicator. É importante ressaltar também que o SRM é uma plataforma aberta e, permite que essa replicação seja feita pela solução de Storage existente caso disponível. Para o failover das VMs, são criados planos de recuperação (Recovery Plans), que podem conter um ou mais grupos de proteção. Esses planos de recuperação realizam a orquestração do failover da aplicação, desligando as VMs no site protegido (Protected) quando necessário, parando a replicação do storage e re-inicializando as VMs na ordem necessária no site de contingência (Recovery).
Como benefício geral, essa solução apresenta uma grande redução de TCO (Total Cost of Ownership). Do ponto de vista de redução de CAPEX a solução é compatível com os equipamentos existentes entre as localidades evitando o investimento em novos appliances. Atualmente é possível inclusive realizar o failover em uma infraestrutura de contingência hospedada em nuvem pública. E temos dois grandes benefícios do ponto de vista de redução de OPEX. O primeiro é a redução do tempo gasto para criar e alterar as configurações, pois, não existe mais a necessidade de acessar os equipamentos físicos um a um para tal. E o outro é o aumento da disponibilidade das aplicações, evitando gastos, multas ou perda de receita no caso de falhas.
Obrigado pela leitura e até o próximo post.
Engenheiro de Sistemas Senior NSX