quarta-feira, 22 de setembro de 2021

📘 Visão Geral do Curso – IBM Z Resiliency

Objetivo do curso

Compreender os conceitos de resiliência no IBM Z e o valor da recuperação rápida, mostrando por que o mainframe é a espinha dorsal de negócios digitais que não podem parar.

Público-alvo

Profissionais novos em resiliência no IBM Z
Analistas, operadores, sysprogs iniciantes
Profissionais de TI vindos de ambientes distribuídos que precisam entender por que o mainframe é diferente

👉 É um curso conceitual, não técnico profundo, focado em mentalidade, fundamentos e arquitetura.

🧠 Resumo Executivo (em uma frase)

O curso ensina por que o IBM Z foi projetado para não parar, como medir disponibilidade, quais mecanismos de hardware e software garantem isso, quais modelos de resiliência existem e como planejar sistemas realmente resilientes.

🔹 TÓPICO 1 – Resiliency: The key to the survival of a digital business

🎯 Objetivo do tópico

Entender como o downtime afeta clientes e usuários
Conhecer formas de medir disponibilidade

📌 Explicação prática

O que é Resiliência

Resiliência não é apenas alta disponibilidade.
É a capacidade de um sistema:

Continuar operando mesmo com falhas
Recuperar rapidamente
Minimizar impacto ao negócio e ao cliente

📢 Sistema resiliente não é o que nunca falha — é o que falha sem ser percebido.

💥 Impacto do downtime

Downtime afeta diretamente:

💰 Receita (transações não realizadas)
📉 Reputação da empresa
⚖️ Compliance (bancos, seguradoras, governo)
😡 Experiência do cliente

No mundo digital:

Milissegundos importam
Minutos custam milhões
Horas podem matar um negócio

📊 Como medir disponibilidade

Disponibilidade normalmente é medida como:


Disponibilidade (%) = (Tempo total – Tempo de indisponibilidade) / Tempo total

Exemplo clássico:

99,9% (three nines) → ~8,7 horas de downtime por ano
99,999% (five nines) → ~5 minutos por ano

👉 O IBM Z foi projetado para five nines ou mais, algo extremamente difícil em ambientes distribuídos.

🔹 TÓPICO 2 – IBM Reliability, Availability, Serviceability (RAS)

🎯 Objetivo

Descrever como hardware e software suportam a resiliência do IBM Z.

📌 O que é RAS

RAS é um princípio de engenharia, não um produto.

🔧 Reliability (Confiabilidade)

Componentes projetados para falhar menos
Detecção proativa de erros
Redundância física e lógica

Exemplos no IBM Z:

CPUs redundantes
Memória com ECC avançado
Detecção e correção automática de falhas

⏱ Availability (Disponibilidade)

Capacidade de continuar operando mesmo com falhas
Substituição de componentes sem desligar o sistema

Exemplos:

Hot swap de componentes
Workload sendo redistribuído automaticamente
Sysplex mascarando falhas de um nó

🛠 Serviceability (Manutenibilidade)

Diagnóstico rápido
Reparos sem impacto ao negócio

Exemplos:

Call Home automático para IBM
Logs detalhados de falha
Manutenção com sistema online

📢 No IBM Z, muitas falhas são corrigidas antes mesmo do cliente perceber.

🧠 Importante

RAS não é só hardware:

z/OS
CICS
DB2
JES
Sysplex
WLM

Tudo foi desenhado com a filosofia de nunca parar.

🔹 TÓPICO 3 – IBM Z Resiliency Models

🎯 Objetivo

Descrever as características dos quatro modelos de resiliência

📌 Os quatro modelos (visão conceitual)

1️⃣ Single system resiliency

Um único IBM Z
Usa RAS para evitar falhas
Recuperação rápida, mas sem site alternativo

✔️ Bom para ambientes menores
❌ Vulnerável a desastres físicos

2️⃣ Local high availability

Uso de Sysplex
Múltiplos LPARs ou CPCs no mesmo site
Failover quase transparente

✔️ Altíssima disponibilidade
❌ Ainda dependente de um único local físico

3️⃣ Geographically Dispersed Parallel Sysplex (GDPS)

Sites geograficamente separados
Replicação de dados
Failover automatizado

✔️ Proteção contra desastre
✔️ Recovery Time Objective (RTO) muito baixo
💰 Custo mais elevado

4️⃣ Continuous availability / Business resilience

Zero downtime percebido
Planejamento extremo
Automação total

✔️ Missão crítica absoluta
✔️ Bancos, bolsas, governos
📢 Aqui o negócio não pode parar nunca.

🔹 TÓPICO 4 – Planning for Resiliency

🎯 Objetivo

Definir princípios que contribuem para a resiliência.

📌 Planejar resiliência não é comprar hardware

Princípios fundamentais:

🧩 1. Pensar em falhas como algo normal

Tudo falha
O plano deve assumir isso

📋 2. Definir RTO e RPO

RTO: quanto tempo posso ficar fora?
RPO: quanto dado posso perder?

Sem isso, não existe resiliência — só achismo.

🔁 3. Automação

Failover manual não escala
IBM Z foi feito para automação

🧪 4. Testar, testar e testar

Plano não testado = plano inexistente
DR sem teste falha quando é mais necessário

🧠 5. Pessoas e processos

Tecnologia sem pessoas treinadas não funciona
Documentação clara
Papéis definidos

📢 Resiliência é 50% tecnologia e 50% processo.

🧾 Conclusão Geral do Curso

Este curso:

Não ensina comandos
Não ensina instalação
Ensina mentalidade de resiliência no IBM Z

É ideal para:

Quem vem de cloud/distribuído
Quem acha que “mainframe é caro”
Quem nunca viu um sistema rodar anos sem downtime

El Jefe Midnight Lunch

Translate

quarta-feira, 22 de setembro de 2021

📘 Visão Geral do Curso – IBM Z Resiliency

📘 Visão Geral do Curso – IBM Z Resiliency

Objetivo do curso

Público-alvo

🧠 Resumo Executivo (em uma frase)

🔹 TÓPICO 1 – Resiliency: The key to the survival of a digital business

🎯 Objetivo do tópico

📌 Explicação prática

O que é Resiliência

💥 Impacto do downtime

📊 Como medir disponibilidade

🔹 TÓPICO 2 – IBM Reliability, Availability, Serviceability (RAS)

🎯 Objetivo

📌 O que é RAS

🔧 Reliability (Confiabilidade)

⏱ Availability (Disponibilidade)

🛠 Serviceability (Manutenibilidade)

🧠 Importante

🔹 TÓPICO 3 – IBM Z Resiliency Models

🎯 Objetivo

📌 Os quatro modelos (visão conceitual)

1️⃣ Single system resiliency

2️⃣ Local high availability

3️⃣ Geographically Dispersed Parallel Sysplex (GDPS)

4️⃣ Continuous availability / Business resilience

🔹 TÓPICO 4 – Planning for Resiliency

🎯 Objetivo

📌 Planejar resiliência não é comprar hardware

Princípios fundamentais:

🧩 1. Pensar em falhas como algo normal

📋 2. Definir RTO e RPO

🔁 3. Automação

🧪 4. Testar, testar e testar

🧠 5. Pessoas e processos

🧾 Conclusão Geral do Curso

Sem comentários:

Enviar um comentário