Translate

Mostrar mensagens com a etiqueta contingência. Mostrar todas as mensagens
Mostrar mensagens com a etiqueta contingência. Mostrar todas as mensagens

quarta-feira, 28 de março de 2007

O que é Disaster Recovery (DR) em Mainframe?

 

Bellacosa Mainframe introduz o disaster recovery

O que é Disaster Recovery (DR) em Mainframe?

Imagine a seguinte situação:

É uma segunda-feira de manhã.

Milhões de pessoas estão:

  • usando PIX;

  • comprando com cartão;

  • acessando Internet Banking;

  • consultando seguros;

  • realizando operações financeiras.

De repente, ocorre uma falha grave no datacenter principal.

Pode ser:

  • incêndio;

  • enchente;

  • apagão;

  • falha elétrica;

  • erro humano;

  • ataque cibernético.

Se não existir um plano de recuperação, toda a operação pode parar.

É exatamente para isso que existe o:

Disaster Recovery (DR)


Definição simples

Disaster Recovery é o conjunto de processos, tecnologias e procedimentos criados para recuperar sistemas críticos após um desastre.

Seu objetivo é garantir que a empresa continue operando mesmo diante de eventos graves.

Em português podemos chamar de:

Plano de Recuperação de Desastres.


Uma analogia simples

Imagine um hospital.

Se faltar energia:

  • os geradores entram em ação;

  • equipamentos continuam funcionando;

  • pacientes permanecem seguros.

O DR funciona da mesma forma.

Ele garante que os sistemas possam continuar operando mesmo quando algo muito sério acontece.


Por que o DR é importante?

Empresas modernas dependem totalmente de sistemas computacionais.

Imagine:

  • um banco fora do ar por horas;

  • uma companhia aérea sem reservas;

  • uma seguradora sem acesso aos clientes;

  • uma bolsa de valores indisponível.

O prejuízo pode atingir milhões ou até bilhões de reais.

Por isso o DR é considerado essencial.


O que pode causar um desastre?

Existem diversos cenários.

Falhas de hardware

Problemas em:

  • servidores;

  • storage;

  • redes;

  • equipamentos elétricos.


Falhas humanas

Exemplos:

  • exclusão acidental de dados;

  • configurações incorretas;

  • procedimentos executados de forma errada.


Falhas elétricas

Exemplos:

  • apagões;

  • surtos de energia;

  • problemas em subestações.


Desastres naturais

Como:

  • enchentes;

  • terremotos;

  • incêndios;

  • tempestades severas.


Ataques cibernéticos

Exemplos:

  • ransomware;

  • invasões;

  • sabotagem;

  • vazamento de dados.


O que o DR protege?

O DR protege:

  • aplicações;

  • bancos de dados;

  • datasets;

  • sistemas operacionais;

  • transações;

  • informações corporativas.


Como funciona um ambiente de DR?

Normalmente existem dois locais:

Site Primário

É o datacenter principal.

Onde as operações acontecem diariamente.


Site Secundário

Também chamado:

  • DR Site;

  • Recovery Site;

  • Site de Contingência.

É o ambiente preparado para assumir as operações caso o principal falhe.


Arquitetura simplificada

SITE PRINCIPAL
      │
      │ Replicação
      ▼
SITE DE DR

Os dados são copiados continuamente entre os dois ambientes.


O que é replicação?

Replicação é o processo de copiar dados de um ambiente para outro.

Assim, o site de recuperação permanece atualizado.


Replicação síncrona

Os dados são gravados simultaneamente nos dois locais.

Vantagem:

  • praticamente nenhuma perda de dados.

Desvantagem:

  • maior custo;

  • necessidade de baixa latência.


Replicação assíncrona

Os dados são enviados em intervalos.

Vantagem:

  • menor custo;

  • maior distância entre sites.

Desvantagem:

  • pequena possibilidade de perda de dados recentes.


Objetivos principais do DR

Existem duas métricas famosas.


RTO

Recovery Time Objective

Representa:

Quanto tempo o sistema pode ficar parado.

Exemplo:

RTO = 2 horas

A recuperação deve ocorrer em até duas horas.


RPO

Recovery Point Objective

Representa:

Quanto dado a empresa aceita perder.

Exemplo:

RPO = 15 minutos

A empresa aceita perder no máximo os últimos quinze minutos de informações.


Estratégias de recuperação


1. Backup e Restore

A mais simples.

Processo:

  1. realizar backup;

  2. armazenar cópia;

  3. restaurar quando necessário.

Vantagem:

  • menor custo.

Desvantagem:

  • recuperação mais lenta.


2. Site Frio (Cold Site)

Existe infraestrutura básica.

Os sistemas precisam ser instalados após o desastre.

Vantagem:

  • barato.

Desvantagem:

  • recuperação lenta.


3. Site Morno (Warm Site)

Parte dos sistemas já está preparada.

Vantagem:

  • recuperação moderada.

Desvantagem:

  • exige sincronização constante.


4. Site Quente (Hot Site)

Ambiente totalmente pronto.

Praticamente uma cópia do ambiente principal.

Vantagem:

  • recuperação rápida.

Desvantagem:

  • alto custo.


Como funciona no mundo Mainframe?

Os ambientes IBM Z utilizam tecnologias avançadas de recuperação.


GDPS

Geographically Dispersed Parallel Sysplex

Permite:

  • automação de failover;

  • gerenciamento de desastres;

  • recuperação rápida.

É uma das soluções mais sofisticadas do mundo mainframe.


Parallel Sysplex

Permite múltiplos sistemas z/OS trabalhando juntos.

Caso um sistema falhe:

outro pode assumir.


DFSMS

Gerencia:

  • storage;

  • backup;

  • recuperação;

  • movimentação de dados.


FlashCopy

Tecnologia que cria cópias rápidas de volumes de armazenamento.

Muito utilizada em estratégias de DR.


Processo de recuperação

Quando ocorre um desastre:

1. Detecção

A equipe identifica o problema.


2. Avaliação

Analisa-se:

  • impacto;

  • risco;

  • extensão da falha.


3. Ativação do DR

O plano de recuperação é acionado.


4. Recuperação

Os sistemas são iniciados no site secundário.


5. Validação

As equipes verificam:

  • aplicações;

  • bancos;

  • transações;

  • usuários.


6. Retorno

Após a normalização, os sistemas retornam ao ambiente principal.


O papel dos testes

Um DR que nunca foi testado não pode ser considerado confiável.

Por isso as empresas realizam:

  • simulações;

  • exercícios;

  • failovers programados;

  • testes de restauração.


Curiosidades incríveis

1. Alguns sites de DR ficam em outras cidades

Ou até em outros estados.

Isso reduz riscos de eventos regionais.


2. Grandes bancos possuem múltiplos ambientes

Muitas instituições operam com:

  • produção;

  • contingência;

  • homologação;

  • desenvolvimento.


3. O failover pode ser automático

Em alguns ambientes a troca ocorre com mínima intervenção humana.


4. O DR é exigido por auditorias

Órgãos reguladores frequentemente exigem comprovação dos planos de recuperação.


Erros comuns de iniciantes

"Backup é a mesma coisa que DR"

Não.

Backup é apenas uma parte do Disaster Recovery.


"Nunca vamos precisar usar"

Muitas empresas descobrem a importância do DR somente após uma crise.


"Ter um segundo servidor resolve"

Não.

Um plano completo envolve:

  • pessoas;

  • processos;

  • tecnologia;

  • documentação;

  • testes.


Profissionais envolvidos

Diversas equipes participam do DR:

  • operadores;

  • sysprogs;

  • DBAs;

  • storage administrators;

  • especialistas RACF;

  • equipes de rede;

  • infraestrutura;

  • segurança.


Por que aprender DR?

Porque ele é um dos pilares da computação corporativa.

Entender DR ajuda a compreender:

  • continuidade de negócios;

  • alta disponibilidade;

  • segurança operacional;

  • arquitetura corporativa;

  • gestão de riscos.


Conclusão

Disaster Recovery é muito mais do que um simples backup.

Ele representa a capacidade de uma organização continuar funcionando mesmo diante de eventos graves e inesperados.

No universo mainframe, onde milhões de transações dependem de disponibilidade contínua, o DR é uma das camadas mais importantes para garantir que bancos, governos e grandes empresas continuem operando com segurança, confiabilidade e resiliência.