quarta-feira, 22 de setembro de 2021

📘 Visão Geral do Curso – IBM Z Resiliency

 


📘 Visão Geral do Curso – IBM Z Resiliency

Objetivo do curso

Compreender os conceitos de resiliência no IBM Z e o valor da recuperação rápida, mostrando por que o mainframe é a espinha dorsal de negócios digitais que não podem parar.

Público-alvo

  • Profissionais novos em resiliência no IBM Z

  • Analistas, operadores, sysprogs iniciantes

  • Profissionais de TI vindos de ambientes distribuídos que precisam entender por que o mainframe é diferente

👉 É um curso conceitual, não técnico profundo, focado em mentalidade, fundamentos e arquitetura.



🧠 Resumo Executivo (em uma frase)

O curso ensina por que o IBM Z foi projetado para não parar, como medir disponibilidade, quais mecanismos de hardware e software garantem isso, quais modelos de resiliência existem e como planejar sistemas realmente resilientes.


🔹 TÓPICO 1 – Resiliency: The key to the survival of a digital business

🎯 Objetivo do tópico

  • Entender como o downtime afeta clientes e usuários

  • Conhecer formas de medir disponibilidade

📌 Explicação prática

O que é Resiliência

Resiliência não é apenas alta disponibilidade.
É a capacidade de um sistema:

  • Continuar operando mesmo com falhas

  • Recuperar rapidamente

  • Minimizar impacto ao negócio e ao cliente

📢 Sistema resiliente não é o que nunca falha — é o que falha sem ser percebido.


💥 Impacto do downtime

Downtime afeta diretamente:

  • 💰 Receita (transações não realizadas)

  • 📉 Reputação da empresa

  • ⚖️ Compliance (bancos, seguradoras, governo)

  • 😡 Experiência do cliente

No mundo digital:

  • Milissegundos importam

  • Minutos custam milhões

  • Horas podem matar um negócio


📊 Como medir disponibilidade

Disponibilidade normalmente é medida como:

Disponibilidade (%) = (Tempo total – Tempo de indisponibilidade) / Tempo total

Exemplo clássico:

  • 99,9% (three nines) → ~8,7 horas de downtime por ano

  • 99,999% (five nines) → ~5 minutos por ano

👉 O IBM Z foi projetado para five nines ou mais, algo extremamente difícil em ambientes distribuídos.


🔹 TÓPICO 2 – IBM Reliability, Availability, Serviceability (RAS)

🎯 Objetivo

Descrever como hardware e software suportam a resiliência do IBM Z.

📌 O que é RAS

RAS é um princípio de engenharia, não um produto.

🔧 Reliability (Confiabilidade)

  • Componentes projetados para falhar menos

  • Detecção proativa de erros

  • Redundância física e lógica

Exemplos no IBM Z:

  • CPUs redundantes

  • Memória com ECC avançado

  • Detecção e correção automática de falhas


⏱ Availability (Disponibilidade)

  • Capacidade de continuar operando mesmo com falhas

  • Substituição de componentes sem desligar o sistema

Exemplos:

  • Hot swap de componentes

  • Workload sendo redistribuído automaticamente

  • Sysplex mascarando falhas de um nó


🛠 Serviceability (Manutenibilidade)

  • Diagnóstico rápido

  • Reparos sem impacto ao negócio

Exemplos:

  • Call Home automático para IBM

  • Logs detalhados de falha

  • Manutenção com sistema online

📢 No IBM Z, muitas falhas são corrigidas antes mesmo do cliente perceber.


🧠 Importante

RAS não é só hardware:

  • z/OS

  • CICS

  • DB2

  • JES

  • Sysplex

  • WLM

Tudo foi desenhado com a filosofia de nunca parar.


🔹 TÓPICO 3 – IBM Z Resiliency Models

🎯 Objetivo

Descrever as características dos quatro modelos de resiliência

📌 Os quatro modelos (visão conceitual)

1️⃣ Single system resiliency

  • Um único IBM Z

  • Usa RAS para evitar falhas

  • Recuperação rápida, mas sem site alternativo

✔️ Bom para ambientes menores
❌ Vulnerável a desastres físicos


2️⃣ Local high availability

  • Uso de Sysplex

  • Múltiplos LPARs ou CPCs no mesmo site

  • Failover quase transparente

✔️ Altíssima disponibilidade
❌ Ainda dependente de um único local físico


3️⃣ Geographically Dispersed Parallel Sysplex (GDPS)

  • Sites geograficamente separados

  • Replicação de dados

  • Failover automatizado

✔️ Proteção contra desastre
✔️ Recovery Time Objective (RTO) muito baixo
💰 Custo mais elevado


4️⃣ Continuous availability / Business resilience

  • Zero downtime percebido

  • Planejamento extremo

  • Automação total

✔️ Missão crítica absoluta
✔️ Bancos, bolsas, governos
📢 Aqui o negócio não pode parar nunca.


🔹 TÓPICO 4 – Planning for Resiliency

🎯 Objetivo

Definir princípios que contribuem para a resiliência.

📌 Planejar resiliência não é comprar hardware

Princípios fundamentais:

🧩 1. Pensar em falhas como algo normal

  • Tudo falha

  • O plano deve assumir isso


📋 2. Definir RTO e RPO

  • RTO: quanto tempo posso ficar fora?

  • RPO: quanto dado posso perder?

Sem isso, não existe resiliência — só achismo.


🔁 3. Automação

  • Failover manual não escala

  • IBM Z foi feito para automação


🧪 4. Testar, testar e testar

  • Plano não testado = plano inexistente

  • DR sem teste falha quando é mais necessário


🧠 5. Pessoas e processos

  • Tecnologia sem pessoas treinadas não funciona

  • Documentação clara

  • Papéis definidos

📢 Resiliência é 50% tecnologia e 50% processo.


🧾 Conclusão Geral do Curso

Este curso:

  • Não ensina comandos

  • Não ensina instalação

  • Ensina mentalidade de resiliência no IBM Z

É ideal para:

  • Quem vem de cloud/distribuído

  • Quem acha que “mainframe é caro”

  • Quem nunca viu um sistema rodar anos sem downtime

Sem comentários:

Enviar um comentário