📘 Visão Geral do Curso – IBM Z Resiliency
Objetivo do curso
Compreender os conceitos de resiliência no IBM Z e o valor da recuperação rápida, mostrando por que o mainframe é a espinha dorsal de negócios digitais que não podem parar.
Público-alvo
-
Profissionais novos em resiliência no IBM Z
-
Analistas, operadores, sysprogs iniciantes
-
Profissionais de TI vindos de ambientes distribuídos que precisam entender por que o mainframe é diferente
👉 É um curso conceitual, não técnico profundo, focado em mentalidade, fundamentos e arquitetura.
🧠 Resumo Executivo (em uma frase)
O curso ensina por que o IBM Z foi projetado para não parar, como medir disponibilidade, quais mecanismos de hardware e software garantem isso, quais modelos de resiliência existem e como planejar sistemas realmente resilientes.
🔹 TÓPICO 1 – Resiliency: The key to the survival of a digital business
🎯 Objetivo do tópico
-
Entender como o downtime afeta clientes e usuários
-
Conhecer formas de medir disponibilidade
📌 Explicação prática
O que é Resiliência
Resiliência não é apenas alta disponibilidade.
É a capacidade de um sistema:
-
Continuar operando mesmo com falhas
-
Recuperar rapidamente
-
Minimizar impacto ao negócio e ao cliente
📢 Sistema resiliente não é o que nunca falha — é o que falha sem ser percebido.
💥 Impacto do downtime
Downtime afeta diretamente:
-
💰 Receita (transações não realizadas)
-
📉 Reputação da empresa
-
⚖️ Compliance (bancos, seguradoras, governo)
-
😡 Experiência do cliente
No mundo digital:
-
Milissegundos importam
-
Minutos custam milhões
-
Horas podem matar um negócio
📊 Como medir disponibilidade
Disponibilidade normalmente é medida como:
Exemplo clássico:
-
99,9% (three nines) → ~8,7 horas de downtime por ano
-
99,999% (five nines) → ~5 minutos por ano
👉 O IBM Z foi projetado para five nines ou mais, algo extremamente difícil em ambientes distribuídos.
🔹 TÓPICO 2 – IBM Reliability, Availability, Serviceability (RAS)
🎯 Objetivo
Descrever como hardware e software suportam a resiliência do IBM Z.
📌 O que é RAS
RAS é um princípio de engenharia, não um produto.
🔧 Reliability (Confiabilidade)
-
Componentes projetados para falhar menos
-
Detecção proativa de erros
-
Redundância física e lógica
Exemplos no IBM Z:
-
CPUs redundantes
-
Memória com ECC avançado
-
Detecção e correção automática de falhas
⏱ Availability (Disponibilidade)
-
Capacidade de continuar operando mesmo com falhas
-
Substituição de componentes sem desligar o sistema
Exemplos:
-
Hot swap de componentes
-
Workload sendo redistribuído automaticamente
-
Sysplex mascarando falhas de um nó
🛠 Serviceability (Manutenibilidade)
-
Diagnóstico rápido
-
Reparos sem impacto ao negócio
Exemplos:
-
Call Home automático para IBM
-
Logs detalhados de falha
-
Manutenção com sistema online
📢 No IBM Z, muitas falhas são corrigidas antes mesmo do cliente perceber.
🧠 Importante
RAS não é só hardware:
-
z/OS
-
CICS
-
DB2
-
JES
-
Sysplex
-
WLM
Tudo foi desenhado com a filosofia de nunca parar.
🔹 TÓPICO 3 – IBM Z Resiliency Models
🎯 Objetivo
Descrever as características dos quatro modelos de resiliência
📌 Os quatro modelos (visão conceitual)
1️⃣ Single system resiliency
-
Um único IBM Z
-
Usa RAS para evitar falhas
-
Recuperação rápida, mas sem site alternativo
✔️ Bom para ambientes menores
❌ Vulnerável a desastres físicos
2️⃣ Local high availability
-
Uso de Sysplex
-
Múltiplos LPARs ou CPCs no mesmo site
-
Failover quase transparente
✔️ Altíssima disponibilidade
❌ Ainda dependente de um único local físico
3️⃣ Geographically Dispersed Parallel Sysplex (GDPS)
-
Sites geograficamente separados
-
Replicação de dados
-
Failover automatizado
✔️ Proteção contra desastre
✔️ Recovery Time Objective (RTO) muito baixo
💰 Custo mais elevado
4️⃣ Continuous availability / Business resilience
-
Zero downtime percebido
-
Planejamento extremo
-
Automação total
✔️ Missão crítica absoluta
✔️ Bancos, bolsas, governos
📢 Aqui o negócio não pode parar nunca.
🔹 TÓPICO 4 – Planning for Resiliency
🎯 Objetivo
Definir princípios que contribuem para a resiliência.
📌 Planejar resiliência não é comprar hardware
Princípios fundamentais:
🧩 1. Pensar em falhas como algo normal
-
Tudo falha
-
O plano deve assumir isso
📋 2. Definir RTO e RPO
-
RTO: quanto tempo posso ficar fora?
-
RPO: quanto dado posso perder?
Sem isso, não existe resiliência — só achismo.
🔁 3. Automação
-
Failover manual não escala
-
IBM Z foi feito para automação
🧪 4. Testar, testar e testar
-
Plano não testado = plano inexistente
-
DR sem teste falha quando é mais necessário
🧠 5. Pessoas e processos
-
Tecnologia sem pessoas treinadas não funciona
-
Documentação clara
-
Papéis definidos
📢 Resiliência é 50% tecnologia e 50% processo.
🧾 Conclusão Geral do Curso
Este curso:
-
Não ensina comandos
-
Não ensina instalação
-
Ensina mentalidade de resiliência no IBM Z
É ideal para:
-
Quem vem de cloud/distribuído
-
Quem acha que “mainframe é caro”
-
Quem nunca viu um sistema rodar anos sem downtime


