Skip to main content

Resumo

A Biolab, uma das maiores companhias farmacêuticas do Brasil, enfrentava a ameaça de falha na continuidade de seus negócios devido à dependência de mecanismos de Disaster Recovery (DR) legados. O desafio era complexo: criar uma rede híbrida capaz de sustentar a replicação contínua e de alto volume de sistemas logísticos e financeiros críticos, incluindo o exigente banco de dados Oracle RAC.

A solução implementada utilizou o AWS Transit Gateway (TGW) como pilar central, integrando conectividade híbrida redundante (Direct Connect e VPN) e serviços especializados como o AWS Disaster Recovery Service (DRS) e Oracle DataGuard. O resultado foi a conquista de uma conformidade de RPO (Objetivo de Ponto de Recuperação) de 99.8% e a eliminação de interrupções não planejadas na replicação.

Sobre a Biolab

Fundada em 1997, a Biolab é uma Empresa (Enterprise) líder no setor de fabricação farmacêutica no Brasil. Com 1.001 a 5.000 funcionários, a companhia possui um portfólio de mais de 170 produtos e mantém unidades industriais em São Paulo, além de centros de P&D no Brasil e Canadá.

Desafio

A Biolab necessitava urgentemente estabelecer uma capacidade de Disaster Recovery (DR) robusta e comprovada para proteger seus sistemas logísticos e financeiros críticos que rodavam localmente (on-premises). O maior desafio de negócio era evitar a falha na continuidade operacional em caso de desastre, o que levaria a perdas financeiras catastróficas e problemas de conformidade regulatória.

Os requisitos técnicos eram particularmente exigentes:

  1. Suporte à Replicação Crítica: O ambiente de rede precisava suportar o tráfego contínuo e de alta vazão necessário para a replicação de grandes volumes de dados, incluindo uma carga de trabalho de banco de dados Oracle RAC (via Oracle DataGuard).
  2. Resiliência e Continuidade: O plano de DR anterior não oferecia a resiliência garantida nem a rápida capacidade de recuperação que a Biolab exigia.
  3. Segregação de Ambientes: Era necessário isolar estritamente os ambientes de replicação (Staging) dos ambientes de recuperação (Workloads) em múltiplas contas AWS para segurança e governança.


Solução

A [Nome do Integrador, ex: upd8] projetou uma arquitetura de DR e conectividade de Rede Híbrida e Multi-VPC para estabelecer o backbone de rede necessário para a replicação contínua.

  • Arquitetura Multi-Conta e Centralizada: A solução foi distribuída em três contas AWS segregadas: Networking, Production e Homologation. O AWS Transit Gateway (TGW) foi implantado na Conta Networking, atuando como o hub de roteamento central.
  • Conectividade Híbrida Redundante: Para garantir a transferência contínua e resiliente dos dados a partir do ambiente on-premises, foram implementados links duplos: AWS Direct Connect (para alta largura de banda e baixa latência) e VPN Site-to-Site. O TGW termina ambas as conexões, criando um caminho redundante para o tráfego de replicação.
  • Segregação e Replicação: O TGW roteia o tráfego de replicação diretamente para as Staging VPCs nas Contas Production e Homologation. Essas VPCs são projetadas especificamente para receber os servidores de replicação e os volumes EBS utilizados pelo AWS DRS e pelo Oracle DataGuard.
  • Automação para Recuperação Rápida (IaC): Toda a infraestrutura de rede e componentes de DR foram definidos e implantados usando Infrastructure as Code (IaC) via AWS CloudFormation. Isso assegurou que a infraestrutura pudesse ser provisionada de forma consistente e rapidamente reconstruída durante testes de DR.
  • Metas de Recuperação: O plano de resiliência foi estabelecido com um RTO (Recovery Time Objective) de 2 horas (tempo para lançar recursos de compute nas Workloads VPCs) e um RPO (Recovery Point Objective) de 15 minutos.


Serviços Utilizados

A solução da Biolab dependeu da integração de serviços de rede nativos da AWS com tecnologias de DR e replicação:

Categoria Serviço Utilizado Função Simplificada
Roteamento Central AWS Transit Gateway (TGW) Centraliza o roteamento de tráfego híbrido e inter-contas.
Conectividade Híbrida AWS Direct Connect e VPN Site-to-Site Cria o caminho de rede redundante para transferência de dados do on-premises.
Disaster Recovery AWS Disaster Recovery Service (DRS) Gerencia a replicação contínua de servidores on-premises.
Database DR Oracle DataGuard Garante o espelhamento do banco de dados Oracle RAC.
Infraestrutura Amazon VPC e NAT Gateway Isola e segmenta os ambientes de Staging e Workloads.
Automação AWS CloudFormation (IaC) Provisiona a infraestrutura de DR de forma consistente e rápida.

 

Resultados e Benefícios

A implementação da rede de DR da Biolab forneceu a segurança operacional necessária para a continuidade do negócio, resultando em métricas claras de sucesso:

  1. Conformidade Consistente de RPO: A replicação de dados (via AWS DRS e Oracle DataGuard) manteve uma conformidade consistente de RPO ≤15 minutos com uma taxa de sucesso de 99.8% ao longo de um período de 6 meses. O baseline anterior era de falhas de RPO, com data lag superior a 30 minutos.
  2. Resiliência Híbrida Garantida: Foi alcançado zero interrupções não planejadas na replicação durante um período de 6 meses. A solução provou ser capaz de realizar o failover automático entre o Direct Connect e a VPN Site-to-Site em testes, com transição de rota verificada. O objetivo de recuperação de RTO de 2 horas e RPO de 15 minutos foi suportado pela arquitetura.
  3. Base para Crescimento: A utilização de TGW para roteamento multi-conta e a automação via IaC garantem que a Biolab possa expandir seus sistemas de DR ou adicionar novas cargas de trabalho de forma escalável e previsível.


Lições Aprendidas

Um desafio identificado durante a implementação foi a otimização da performance do throughput (vazão de dados) do link híbrido, crucial para a fase inicial de replicação de grandes volumes de dados. Foram observadas quedas esporádicas de throughput devido a configurações não otimizadas do MTU (Maximum Transmission Unit) no caminho do TGW e do Direct Connect.

  • Ação de Mitigação: Para garantir a máxima eficiência de transferência de dados em futuras implantações de DR, foram desenvolvidos procedimentos padronizados de validação e ajuste de MTU no TGW, os quais foram integrados ao pipeline de IaC. Isso garante que a configuração de rede seja sempre ajustada para a maior eficiência de dados híbridos desde o início.

 

Sobre a :upd8

Fundada em 2013, a :upd8 tem sido pioneira na jornada de transformação digital e migração para a nuvem. Nossa missão é auxiliar empresas a transformar seus negócios por meio de soluções tecnológicas avançadas. Oferecemos uma gama completa de serviços, desde a avaliação de viabilidade, planejamento, migração, até a gestão contínua dos ambientes em nuvem, garantindo segurança e alta performance para nossos clientes.
Nosso compromisso é entregar soluções personalizadas, em conjunto com as equipes de nossos clientes, para garantir uma transição suave e eficiente, promovendo o crescimento sustentável dos negócios.

Leave a Reply