| Bellacosa Mainframe experimentos reisiliencia em IBM Z |
💥 APERTA O ENTER E DERRUBA O DATA CENTER: SOBREVIVA AO LAB DE RESILIÊNCIA IBM Z
🧪 Laboratório prático — do ABEND ao FAILOVER sem perder um byte
🎯 OBJETIVO DO LAB
Você vai simular:
- 💣 Falha de aplicação (ABEND)
- ⚙️ Restart automático (ARM)
- 🧩 Continuidade (Sysplex mental model)
- 🌍 Disaster Recovery (simulado estilo GDPS)
- 📊 Validação de RPO/RTO
👉 Resultado esperado:
Sistema continua — usuário nem percebe
🧠 CENÁRIO (VIDA REAL)
Você é dev COBOL em um banco:
- Batch crítico processa pagamentos
- Roda em z/OS
- Usa Db2
- Integra com CICS
💥 E claro… algo vai dar errado.
🧪 LAB 1 — “PROVOQUE O CAOS” (ABEND CONTROLADO)
🎯 Objetivo:
Gerar uma falha real
📄 Passo 1 — Programa COBOL com erro
IDENTIFICATION DIVISION.
PROGRAM-ID. LABFAIL.
DATA DIVISION.
WORKING-STORAGE SECTION.
01 WS-NUM PIC 9(3) VALUE ZEROS.
01 WS-VAL PIC 9(3).
PROCEDURE DIVISION.
MOVE 100 TO WS-VAL
DIVIDE WS-VAL BY WS-NUM GIVING WS-VAL
DISPLAY 'PROCESSO FINALIZADO'
STOP RUN.
👉 Resultado esperado:
S0C7 ou S0CB (divisão por zero)
💡 Comentário Bellacosa
“Se você nunca causou um ABEND de propósito… você ainda não domina o sistema.”
⚙️ LAB 2 — “DEIXA O SISTEMA SE VIRAR” (ARM)
🎯 Objetivo:
Simular restart automático
🧠 Conceito
ARM = Automatic Restart Manager
👉 Ele reinicia automaticamente o que caiu
📄 Passo 2 — Simulação lógica
JOB FAIL → ABEND
ARM detecta → restart automático
JOB reinicia → continua fluxo
🧪 Teste
- Execute o programa com erro
- Corrija o erro (WS-NUM ≠ 0)
- Reexecute
👉 Agora imagine:
- ARM faria isso sozinho
- Sem operador
💡 Insight
“ARM é o operador que nunca dorme.”
🧩 LAB 3 — “NÃO PARE O SISTEMA” (MENTALIDADE SYSPLEX)
🎯 Objetivo:
Entender continuidade
🧠 Simulação conceitual
Imagine:
- LPAR A → falha
- LPAR B → assume
📄 Fluxo
Transação → LPAR A
Falha → redireciona → LPAR B
Usuário continua
💡 Easter Egg 🔥
“Sysplex não é cluster…
é cluster que não te deixa na mão.”
🌍 LAB 4 — “PERDEMOS O DATA CENTER” (DR SIMULADO)
🎯 Objetivo:
Simular desastre total
🧠 Cenário
- Site A caiu 💥
- Site B assume
📄 Exercício
- Imagine seu sistema rodando
- “Desligue” mentalmente o ambiente
- Suba outro ambiente
👉 Perguntas:
- Quanto tempo levou? (RTO)
- Perdeu dados? (RPO)
💡 Resposta ideal
- RTO → segundos/minutos
- RPO → zero
🔥 Insight
“Se você precisa pensar muito no DR… ele já falhou.”
🧨 LAB 5 — “DESCUBRA SEU SPOF”
🎯 Objetivo:
Encontrar ponto único de falha
📄 Checklist
- Um único job crítico?
- Um único DB?
- Um único operador? 😅
💡 Easter Egg
SPOF mais comum:
👉 Interface Teclado-Cadeira
🤖 LAB 6 — “AUTOMA OU MORRE”
🎯 Objetivo:
Entender automação
📄 Cenário
Sem automação:
- detectar
- analisar
- agir
👉 minutos ou horas
Com automação:
- detectar
- agir
👉 segundos
💡 Insight brutal
“Sem automação, seu RTO é humano.”
🧪 LAB 7 — DR TEST (O GRANDE FINAL)
🎯 Objetivo:
Validar tudo
📄 Simulação
- Derrube o “ambiente”
- Ative backup
- Valide sistema
📊 Checklist
- Sistema subiu?
- Dados íntegros?
- Tempo aceitável?
💡 Regra de ouro
“DR não testado = DR inexistente”
🧠 CONSOLIDAÇÃO FINAL
🔗 RELAÇÃO DOS CONCEITOS
- RAS → evita impacto
- Models → define arquitetura
- Planning → garante execução
💥 Fluxo completo
Falha pequena → ARM resolve
Falha média → Sysplex resolve
Desastre total → DR/GDPS resolve
🏁 MISSÃO FINAL DO LAB
👉 Você não está testando sistema
👉 Você está testando sobrevivência do negócio
🔥 FRASE FINAL
“No mainframe, o erro não é falhar…
é deixar o usuário perceber.”