Mostrar mensagens com a etiqueta ras. Mostrar todas as mensagens
Mostrar mensagens com a etiqueta ras. Mostrar todas as mensagens

terça-feira, 4 de janeiro de 2022

🛡️ IBM Z Resiliency : Por que o mainframe foi feito para não cair — e o mundo digital ainda corre atrás

 


🛡️ IBM Z Resiliency

Por que o mainframe foi feito para não cair — e o mundo digital ainda corre atrás

“Downtime não é um incidente técnico. É um evento de negócio.”

No mundo atual, onde uma falha de segundos vira trending topic e uma indisponibilidade de minutos custa milhões, resiliência deixou de ser luxo e virou sobrevivência.
E é exatamente aqui que o IBM Z entra em cena — não como moda, mas como engenharia.

Este artigo nasce do conteúdo do curso IBM Z Resiliency, mas vai além: traduz conceitos, conecta história, provoca reflexão e mostra por que o mainframe continua sendo o porto seguro do digital.




☕ O que é Resiliência — e por que não é só “alta disponibilidade”

Muita gente confunde resiliência com uptime.
Mas uptime é métrica. Resiliência é comportamento.

Um sistema resiliente:

  • Falha (porque tudo falha)

  • Se adapta

  • Se recupera rápido

  • E, muitas vezes, falha sem que o usuário perceba

📌 No IBM Z, o objetivo não é evitar a falha a qualquer custo — é garantir que ela não vire um problema de negócio.


💥 Quando o sistema cai, o negócio cai junto

Downtime não afeta só TI. Ele afeta:

  • 💳 Transações não realizadas

  • 🏦 Operações financeiras interrompidas

  • ⚖️ Penalidades regulatórias

  • 😡 Clientes que não voltam

E no mundo digital:

  • 99,9% não é “excelente”

  • 99,99% é o mínimo aceitável

  • 99,999% (five nines) é onde o IBM Z opera por padrão

👉 Five nines significa menos de 5 minutos de indisponibilidade por ano.
Não é marketing. É engenharia.


📊 Como se mede disponibilidade (e por que isso importa)

A conta é simples:

Disponibilidade = (Tempo total – Downtime) / Tempo total

Mas a interpretação não é.

Porque uma hora fora do ar:

  • Às 3h da manhã ≠

  • Às 11h de uma segunda-feira bancária

📢 Resiliência não é quanto tempo você ficou fora — é o impacto que isso causou.


🧱 RAS: o DNA do IBM Z

Quando falamos de IBM Z, falamos de RAS:

🔧 Reliability (Confiabilidade)

  • Componentes redundantes

  • Correção automática de erros

  • Falhas detectadas antes de virarem incidentes

📌 Há casos reais em que o cliente nunca soube que um componente falhou.


⏱ Availability (Disponibilidade)

  • Substituição de peças com sistema ligado

  • Workloads realocados automaticamente

  • Sysplex mascarando falhas de LPAR ou CPC

📢 No mundo distribuído, reiniciar é normal.
No mainframe, é exceção.


🛠 Serviceability (Manutenibilidade)

  • Diagnóstico preciso

  • Call Home automático

  • Menos tempo para resolver, menos impacto

👉 O IBM Z foi feito para ser consertado em produção.


🌍 Modelos de Resiliência no IBM Z

Nem todo ambiente precisa do mesmo nível de proteção. Por isso existem modelos de resiliência.

1️⃣ Sistema único resiliente

  • Um IBM Z

  • Forte uso de RAS

  • Recuperação rápida

✔️ Simples
❌ Sem proteção contra desastre físico


2️⃣ Alta disponibilidade local

  • Sysplex

  • Múltiplos LPARs

  • Failover quase invisível

✔️ Excelente para ambientes críticos
❌ Ainda preso a um único site


3️⃣ Resiliência geográfica (GDPS)

  • Sites separados

  • Replicação de dados

  • Failover automatizado

✔️ Proteção real contra desastre
✔️ RTO extremamente baixo
💰 Investimento maior, mas justificado


4️⃣ Disponibilidade contínua

  • Zero downtime percebido

  • Automação total

  • Planejamento extremo

📢 Aqui não se fala em “se cair”, mas em “quando cair, ninguém percebe”.


🧠 Planejar Resiliência é mais do que comprar hardware

Um erro clássico: achar que resiliência se compra.

Ela se projeta.

Princípios fundamentais:

✔️ Falhas são normais
✔️ RTO e RPO bem definidos
✔️ Automação acima de intervenção manual
✔️ Testes frequentes de DR
✔️ Pessoas treinadas e processos claros

📌 Plano de desastre não testado é ficção técnica.


🧩 O diferencial do IBM Z

O IBM Z não é resiliente por acaso.

Ele nasceu em uma época em que:

  • Sistemas não podiam cair

  • Transações não podiam ser perdidas

  • Clientes não aceitavam erro

Enquanto muitos ambientes ainda tentam alcançar resiliência com camadas de software, o mainframe nasceu resiliente.


🎯 Conclusão – Resiliência não é moda. É sobrevivência.

No fim do dia, a pergunta não é:

“Meu sistema vai falhar?”

Mas sim:

“O que acontece quando ele falhar?”

No IBM Z, a resposta é simples:

O negócio continua.

☕💻 Isso é resiliência. Isso é mainframe.


quarta-feira, 22 de setembro de 2021

📘 Visão Geral do Curso – IBM Z Resiliency

 


📘 Visão Geral do Curso – IBM Z Resiliency

Objetivo do curso

Compreender os conceitos de resiliência no IBM Z e o valor da recuperação rápida, mostrando por que o mainframe é a espinha dorsal de negócios digitais que não podem parar.

Público-alvo

  • Profissionais novos em resiliência no IBM Z

  • Analistas, operadores, sysprogs iniciantes

  • Profissionais de TI vindos de ambientes distribuídos que precisam entender por que o mainframe é diferente

👉 É um curso conceitual, não técnico profundo, focado em mentalidade, fundamentos e arquitetura.



🧠 Resumo Executivo (em uma frase)

O curso ensina por que o IBM Z foi projetado para não parar, como medir disponibilidade, quais mecanismos de hardware e software garantem isso, quais modelos de resiliência existem e como planejar sistemas realmente resilientes.


🔹 TÓPICO 1 – Resiliency: The key to the survival of a digital business

🎯 Objetivo do tópico

  • Entender como o downtime afeta clientes e usuários

  • Conhecer formas de medir disponibilidade

📌 Explicação prática

O que é Resiliência

Resiliência não é apenas alta disponibilidade.
É a capacidade de um sistema:

  • Continuar operando mesmo com falhas

  • Recuperar rapidamente

  • Minimizar impacto ao negócio e ao cliente

📢 Sistema resiliente não é o que nunca falha — é o que falha sem ser percebido.


💥 Impacto do downtime

Downtime afeta diretamente:

  • 💰 Receita (transações não realizadas)

  • 📉 Reputação da empresa

  • ⚖️ Compliance (bancos, seguradoras, governo)

  • 😡 Experiência do cliente

No mundo digital:

  • Milissegundos importam

  • Minutos custam milhões

  • Horas podem matar um negócio


📊 Como medir disponibilidade

Disponibilidade normalmente é medida como:

Disponibilidade (%) = (Tempo total – Tempo de indisponibilidade) / Tempo total

Exemplo clássico:

  • 99,9% (three nines) → ~8,7 horas de downtime por ano

  • 99,999% (five nines) → ~5 minutos por ano

👉 O IBM Z foi projetado para five nines ou mais, algo extremamente difícil em ambientes distribuídos.


🔹 TÓPICO 2 – IBM Reliability, Availability, Serviceability (RAS)

🎯 Objetivo

Descrever como hardware e software suportam a resiliência do IBM Z.

📌 O que é RAS

RAS é um princípio de engenharia, não um produto.

🔧 Reliability (Confiabilidade)

  • Componentes projetados para falhar menos

  • Detecção proativa de erros

  • Redundância física e lógica

Exemplos no IBM Z:

  • CPUs redundantes

  • Memória com ECC avançado

  • Detecção e correção automática de falhas


⏱ Availability (Disponibilidade)

  • Capacidade de continuar operando mesmo com falhas

  • Substituição de componentes sem desligar o sistema

Exemplos:

  • Hot swap de componentes

  • Workload sendo redistribuído automaticamente

  • Sysplex mascarando falhas de um nó


🛠 Serviceability (Manutenibilidade)

  • Diagnóstico rápido

  • Reparos sem impacto ao negócio

Exemplos:

  • Call Home automático para IBM

  • Logs detalhados de falha

  • Manutenção com sistema online

📢 No IBM Z, muitas falhas são corrigidas antes mesmo do cliente perceber.


🧠 Importante

RAS não é só hardware:

  • z/OS

  • CICS

  • DB2

  • JES

  • Sysplex

  • WLM

Tudo foi desenhado com a filosofia de nunca parar.


🔹 TÓPICO 3 – IBM Z Resiliency Models

🎯 Objetivo

Descrever as características dos quatro modelos de resiliência

📌 Os quatro modelos (visão conceitual)

1️⃣ Single system resiliency

  • Um único IBM Z

  • Usa RAS para evitar falhas

  • Recuperação rápida, mas sem site alternativo

✔️ Bom para ambientes menores
❌ Vulnerável a desastres físicos


2️⃣ Local high availability

  • Uso de Sysplex

  • Múltiplos LPARs ou CPCs no mesmo site

  • Failover quase transparente

✔️ Altíssima disponibilidade
❌ Ainda dependente de um único local físico


3️⃣ Geographically Dispersed Parallel Sysplex (GDPS)

  • Sites geograficamente separados

  • Replicação de dados

  • Failover automatizado

✔️ Proteção contra desastre
✔️ Recovery Time Objective (RTO) muito baixo
💰 Custo mais elevado


4️⃣ Continuous availability / Business resilience

  • Zero downtime percebido

  • Planejamento extremo

  • Automação total

✔️ Missão crítica absoluta
✔️ Bancos, bolsas, governos
📢 Aqui o negócio não pode parar nunca.


🔹 TÓPICO 4 – Planning for Resiliency

🎯 Objetivo

Definir princípios que contribuem para a resiliência.

📌 Planejar resiliência não é comprar hardware

Princípios fundamentais:

🧩 1. Pensar em falhas como algo normal

  • Tudo falha

  • O plano deve assumir isso


📋 2. Definir RTO e RPO

  • RTO: quanto tempo posso ficar fora?

  • RPO: quanto dado posso perder?

Sem isso, não existe resiliência — só achismo.


🔁 3. Automação

  • Failover manual não escala

  • IBM Z foi feito para automação


🧪 4. Testar, testar e testar

  • Plano não testado = plano inexistente

  • DR sem teste falha quando é mais necessário


🧠 5. Pessoas e processos

  • Tecnologia sem pessoas treinadas não funciona

  • Documentação clara

  • Papéis definidos

📢 Resiliência é 50% tecnologia e 50% processo.


🧾 Conclusão Geral do Curso

Este curso:

  • Não ensina comandos

  • Não ensina instalação

  • Ensina mentalidade de resiliência no IBM Z

É ideal para:

  • Quem vem de cloud/distribuído

  • Quem acha que “mainframe é caro”

  • Quem nunca viu um sistema rodar anos sem downtime