Mostrar mensagens com a etiqueta resiliencia. Mostrar todas as mensagens
Mostrar mensagens com a etiqueta resiliencia. Mostrar todas as mensagens

terça-feira, 4 de janeiro de 2022

🛡️ IBM Z Resiliency : Por que o mainframe foi feito para não cair — e o mundo digital ainda corre atrás

 


🛡️ IBM Z Resiliency

Por que o mainframe foi feito para não cair — e o mundo digital ainda corre atrás

“Downtime não é um incidente técnico. É um evento de negócio.”

No mundo atual, onde uma falha de segundos vira trending topic e uma indisponibilidade de minutos custa milhões, resiliência deixou de ser luxo e virou sobrevivência.
E é exatamente aqui que o IBM Z entra em cena — não como moda, mas como engenharia.

Este artigo nasce do conteúdo do curso IBM Z Resiliency, mas vai além: traduz conceitos, conecta história, provoca reflexão e mostra por que o mainframe continua sendo o porto seguro do digital.




☕ O que é Resiliência — e por que não é só “alta disponibilidade”

Muita gente confunde resiliência com uptime.
Mas uptime é métrica. Resiliência é comportamento.

Um sistema resiliente:

  • Falha (porque tudo falha)

  • Se adapta

  • Se recupera rápido

  • E, muitas vezes, falha sem que o usuário perceba

📌 No IBM Z, o objetivo não é evitar a falha a qualquer custo — é garantir que ela não vire um problema de negócio.


💥 Quando o sistema cai, o negócio cai junto

Downtime não afeta só TI. Ele afeta:

  • 💳 Transações não realizadas

  • 🏦 Operações financeiras interrompidas

  • ⚖️ Penalidades regulatórias

  • 😡 Clientes que não voltam

E no mundo digital:

  • 99,9% não é “excelente”

  • 99,99% é o mínimo aceitável

  • 99,999% (five nines) é onde o IBM Z opera por padrão

👉 Five nines significa menos de 5 minutos de indisponibilidade por ano.
Não é marketing. É engenharia.


📊 Como se mede disponibilidade (e por que isso importa)

A conta é simples:

Disponibilidade = (Tempo total – Downtime) / Tempo total

Mas a interpretação não é.

Porque uma hora fora do ar:

  • Às 3h da manhã ≠

  • Às 11h de uma segunda-feira bancária

📢 Resiliência não é quanto tempo você ficou fora — é o impacto que isso causou.


🧱 RAS: o DNA do IBM Z

Quando falamos de IBM Z, falamos de RAS:

🔧 Reliability (Confiabilidade)

  • Componentes redundantes

  • Correção automática de erros

  • Falhas detectadas antes de virarem incidentes

📌 Há casos reais em que o cliente nunca soube que um componente falhou.


⏱ Availability (Disponibilidade)

  • Substituição de peças com sistema ligado

  • Workloads realocados automaticamente

  • Sysplex mascarando falhas de LPAR ou CPC

📢 No mundo distribuído, reiniciar é normal.
No mainframe, é exceção.


🛠 Serviceability (Manutenibilidade)

  • Diagnóstico preciso

  • Call Home automático

  • Menos tempo para resolver, menos impacto

👉 O IBM Z foi feito para ser consertado em produção.


🌍 Modelos de Resiliência no IBM Z

Nem todo ambiente precisa do mesmo nível de proteção. Por isso existem modelos de resiliência.

1️⃣ Sistema único resiliente

  • Um IBM Z

  • Forte uso de RAS

  • Recuperação rápida

✔️ Simples
❌ Sem proteção contra desastre físico


2️⃣ Alta disponibilidade local

  • Sysplex

  • Múltiplos LPARs

  • Failover quase invisível

✔️ Excelente para ambientes críticos
❌ Ainda preso a um único site


3️⃣ Resiliência geográfica (GDPS)

  • Sites separados

  • Replicação de dados

  • Failover automatizado

✔️ Proteção real contra desastre
✔️ RTO extremamente baixo
💰 Investimento maior, mas justificado


4️⃣ Disponibilidade contínua

  • Zero downtime percebido

  • Automação total

  • Planejamento extremo

📢 Aqui não se fala em “se cair”, mas em “quando cair, ninguém percebe”.


🧠 Planejar Resiliência é mais do que comprar hardware

Um erro clássico: achar que resiliência se compra.

Ela se projeta.

Princípios fundamentais:

✔️ Falhas são normais
✔️ RTO e RPO bem definidos
✔️ Automação acima de intervenção manual
✔️ Testes frequentes de DR
✔️ Pessoas treinadas e processos claros

📌 Plano de desastre não testado é ficção técnica.


🧩 O diferencial do IBM Z

O IBM Z não é resiliente por acaso.

Ele nasceu em uma época em que:

  • Sistemas não podiam cair

  • Transações não podiam ser perdidas

  • Clientes não aceitavam erro

Enquanto muitos ambientes ainda tentam alcançar resiliência com camadas de software, o mainframe nasceu resiliente.


🎯 Conclusão – Resiliência não é moda. É sobrevivência.

No fim do dia, a pergunta não é:

“Meu sistema vai falhar?”

Mas sim:

“O que acontece quando ele falhar?”

No IBM Z, a resposta é simples:

O negócio continua.

☕💻 Isso é resiliência. Isso é mainframe.


quarta-feira, 22 de setembro de 2021

📘 Visão Geral do Curso – IBM Z Resiliency

 


📘 Visão Geral do Curso – IBM Z Resiliency

Objetivo do curso

Compreender os conceitos de resiliência no IBM Z e o valor da recuperação rápida, mostrando por que o mainframe é a espinha dorsal de negócios digitais que não podem parar.

Público-alvo

  • Profissionais novos em resiliência no IBM Z

  • Analistas, operadores, sysprogs iniciantes

  • Profissionais de TI vindos de ambientes distribuídos que precisam entender por que o mainframe é diferente

👉 É um curso conceitual, não técnico profundo, focado em mentalidade, fundamentos e arquitetura.



🧠 Resumo Executivo (em uma frase)

O curso ensina por que o IBM Z foi projetado para não parar, como medir disponibilidade, quais mecanismos de hardware e software garantem isso, quais modelos de resiliência existem e como planejar sistemas realmente resilientes.


🔹 TÓPICO 1 – Resiliency: The key to the survival of a digital business

🎯 Objetivo do tópico

  • Entender como o downtime afeta clientes e usuários

  • Conhecer formas de medir disponibilidade

📌 Explicação prática

O que é Resiliência

Resiliência não é apenas alta disponibilidade.
É a capacidade de um sistema:

  • Continuar operando mesmo com falhas

  • Recuperar rapidamente

  • Minimizar impacto ao negócio e ao cliente

📢 Sistema resiliente não é o que nunca falha — é o que falha sem ser percebido.


💥 Impacto do downtime

Downtime afeta diretamente:

  • 💰 Receita (transações não realizadas)

  • 📉 Reputação da empresa

  • ⚖️ Compliance (bancos, seguradoras, governo)

  • 😡 Experiência do cliente

No mundo digital:

  • Milissegundos importam

  • Minutos custam milhões

  • Horas podem matar um negócio


📊 Como medir disponibilidade

Disponibilidade normalmente é medida como:

Disponibilidade (%) = (Tempo total – Tempo de indisponibilidade) / Tempo total

Exemplo clássico:

  • 99,9% (three nines) → ~8,7 horas de downtime por ano

  • 99,999% (five nines) → ~5 minutos por ano

👉 O IBM Z foi projetado para five nines ou mais, algo extremamente difícil em ambientes distribuídos.


🔹 TÓPICO 2 – IBM Reliability, Availability, Serviceability (RAS)

🎯 Objetivo

Descrever como hardware e software suportam a resiliência do IBM Z.

📌 O que é RAS

RAS é um princípio de engenharia, não um produto.

🔧 Reliability (Confiabilidade)

  • Componentes projetados para falhar menos

  • Detecção proativa de erros

  • Redundância física e lógica

Exemplos no IBM Z:

  • CPUs redundantes

  • Memória com ECC avançado

  • Detecção e correção automática de falhas


⏱ Availability (Disponibilidade)

  • Capacidade de continuar operando mesmo com falhas

  • Substituição de componentes sem desligar o sistema

Exemplos:

  • Hot swap de componentes

  • Workload sendo redistribuído automaticamente

  • Sysplex mascarando falhas de um nó


🛠 Serviceability (Manutenibilidade)

  • Diagnóstico rápido

  • Reparos sem impacto ao negócio

Exemplos:

  • Call Home automático para IBM

  • Logs detalhados de falha

  • Manutenção com sistema online

📢 No IBM Z, muitas falhas são corrigidas antes mesmo do cliente perceber.


🧠 Importante

RAS não é só hardware:

  • z/OS

  • CICS

  • DB2

  • JES

  • Sysplex

  • WLM

Tudo foi desenhado com a filosofia de nunca parar.


🔹 TÓPICO 3 – IBM Z Resiliency Models

🎯 Objetivo

Descrever as características dos quatro modelos de resiliência

📌 Os quatro modelos (visão conceitual)

1️⃣ Single system resiliency

  • Um único IBM Z

  • Usa RAS para evitar falhas

  • Recuperação rápida, mas sem site alternativo

✔️ Bom para ambientes menores
❌ Vulnerável a desastres físicos


2️⃣ Local high availability

  • Uso de Sysplex

  • Múltiplos LPARs ou CPCs no mesmo site

  • Failover quase transparente

✔️ Altíssima disponibilidade
❌ Ainda dependente de um único local físico


3️⃣ Geographically Dispersed Parallel Sysplex (GDPS)

  • Sites geograficamente separados

  • Replicação de dados

  • Failover automatizado

✔️ Proteção contra desastre
✔️ Recovery Time Objective (RTO) muito baixo
💰 Custo mais elevado


4️⃣ Continuous availability / Business resilience

  • Zero downtime percebido

  • Planejamento extremo

  • Automação total

✔️ Missão crítica absoluta
✔️ Bancos, bolsas, governos
📢 Aqui o negócio não pode parar nunca.


🔹 TÓPICO 4 – Planning for Resiliency

🎯 Objetivo

Definir princípios que contribuem para a resiliência.

📌 Planejar resiliência não é comprar hardware

Princípios fundamentais:

🧩 1. Pensar em falhas como algo normal

  • Tudo falha

  • O plano deve assumir isso


📋 2. Definir RTO e RPO

  • RTO: quanto tempo posso ficar fora?

  • RPO: quanto dado posso perder?

Sem isso, não existe resiliência — só achismo.


🔁 3. Automação

  • Failover manual não escala

  • IBM Z foi feito para automação


🧪 4. Testar, testar e testar

  • Plano não testado = plano inexistente

  • DR sem teste falha quando é mais necessário


🧠 5. Pessoas e processos

  • Tecnologia sem pessoas treinadas não funciona

  • Documentação clara

  • Papéis definidos

📢 Resiliência é 50% tecnologia e 50% processo.


🧾 Conclusão Geral do Curso

Este curso:

  • Não ensina comandos

  • Não ensina instalação

  • Ensina mentalidade de resiliência no IBM Z

É ideal para:

  • Quem vem de cloud/distribuído

  • Quem acha que “mainframe é caro”

  • Quem nunca viu um sistema rodar anos sem downtime

sábado, 17 de agosto de 2013

🖥️⚡ Por que os Mainframes Ainda São Usados Hoje?

 


🖥️⚡ Por que os Mainframes Ainda São Usados Hoje?

“Se o mundo nunca para, o sistema que o sustenta também não pode parar.”

Estamos em 2025 (quase 2026), e mesmo assim — ou exatamente por isso — os mainframes continuam firmes no coração dos sistemas mais críticos do planeta.

Não, eles não são computadores velhos.
Eles são computadores essenciais.


🌍 Mainframe: o motor invisível do mundo moderno

Quando alguém diz:

“Mas isso ainda existe?”

A resposta é simples:
👉 Existe porque funciona. E funciona melhor que qualquer alternativa quando o assunto é missão crítica.

Mainframes são projetados para lidar com:

  • Volume absurdo de dados

  • Milhões de transações por segundo

  • Usuários simultâneos

  • Regras rígidas de segurança

  • Zero tolerância a falhas


⏱️ Disponibilidade total: 24x7x365

Enquanto outros sistemas:

  • Precisam reiniciar

  • Fazem manutenção fora do horário

  • Param para atualizar

O mainframe:

Nunca desliga.

Atualizações, correções, ajustes e expansões acontecem com o sistema em produção.

Para banco, governo ou transporte:

Parar não é opção.


🔄 Confiabilidade extrema (não é marketing)

No mundo distribuído, falha é “normal”.
No mundo mainframe, falha é evento tratado automaticamente.

  • Um componente falha? Outro assume.

  • Um caminho cai? Outro já está ativo.

  • Um erro acontece? O sistema se recupera.

Tudo isso:
👉 Sem o usuário perceber.


🔐 Segurança no DNA

Mainframe não “ganhou segurança depois”.
Ele nasceu seguro.

  • Controle rígido de acesso

  • Auditoria completa

  • Criptografia por hardware

  • Isolamento total entre workloads

Por isso ele é o escolhido para:
🏦 Bancos
🏛️ Governos
🏥 Saúde
📊 Grandes corporações


💳 Escalabilidade absurda

Milhões de transações por segundo não são benchmark de laboratório.
São terça-feira normal.

  • Saques em ATM

  • Compras online

  • Reservas de voo

  • Pagamentos digitais

Tudo isso acontece ao mesmo tempo, no mesmo sistema, com previsibilidade.


⚡ Multiprogramação e multiprocessing de verdade

Enquanto muitos ambientes “simulam” paralelismo,
o mainframe nasceu paralelo.

  • Centenas de programas rodando juntos

  • Prioridades bem definidas

  • Recursos distribuídos com justiça

  • Nada bloqueia nada


🎭 O trabalho silencioso que ninguém vê

Toda vez que você:

  • Saca dinheiro

  • Compra passagem

  • Paga algo online

Existe um mainframe:

  • Validando

  • Processando

  • Garantindo

  • Registrando

Sem glamour.
Sem marketing.
Sem falhar.


🚆✈️🏦 Por isso eles continuam lá

Mainframes ainda são usados porque:

  • Funcionam

  • Escalam

  • Protegem

  • Não param

Eles sustentam serviços que não podem errar.


🥚 Easter-eggs do mundo real

  • Muitos sistemas “modernos” só funcionam porque um mainframe está atrás

  • Cloud e microserviços frequentemente terminam no IBM Z

  • Mainframe já fazia “high availability” antes do termo existir

  • Downtime sempre foi visto como bug, não como evento


🎓 Palavra final do El Jefe

Tecnologia não é sobre moda.
É sobre responsabilidade.

Enquanto existir dinheiro, governo, transporte e dados críticos,
o mainframe continuará lá.

Silencioso.
Estável.
Indispensável.


domingo, 1 de julho de 2012

🧱🔥 Resiliência explicada para quem já reconstruiu sistema no susto

 


🧱🔥 Resiliência explicada para quem já reconstruiu sistema no susto



04:41 — Introdução: quando tudo caiu… e você teve que levantar

Se você é mainframer e já reconstruiu sistema no susto, você não leu sobre resiliência — você viveu.
Foi aquela madrugada em que:

  • o batch não fechou,

  • a base ficou inconsistente,

  • o telefone não parava,

  • e alguém disse: “Tem que voltar hoje.”

Resiliência não é “não cair”.
É cair, levantar e continuar sem perder a alma do sistema.



1️⃣ O que é resiliência (sem frase de LinkedIn)

Resiliência é a capacidade de um sistema:

  • Absorver falhas

  • Continuar funcionando (mesmo degradado)

  • Se recuperar rapidamente

  • Aprender com o impacto

📌 Dialeto mainframe:

“Não importa o tamanho do estrago. O sistema volta.”


2️⃣ Um pouco de história: resiliência antes da cloud 🕰️

Antes de:

  • microservices,

  • containers,

  • multi-cloud,

já existia:

  • Sysplex

  • Fallback

  • Restart automático

  • Controle de ponto de consistência

😈 Easter egg histórico:
Checkpoint de batch era resiliência antes de virar palestra.


3️⃣ Resiliência ≠ Alta disponibilidade 🧠

Alta disponibilidade:

  • Evita parada

Resiliência:

  • Aceita que vai parar

  • Planeja a volta

  • Minimiza impacto

👉 Mainframer sempre soube:

“Disponível sem consistência é ilusão.”


4️⃣ Onde a resiliência mora nas aplicações distribuídas

  • Retry com critério

  • Timeout bem definido

  • Circuit breaker

  • Bulkhead

  • Fallback funcional

  • Reprocessamento

📎 Tradução raiz:

“Se falhar, não propaga. Isola e continua.”


5️⃣ Passo a passo para construir resiliência (modo Bellacosa)

1️⃣ Assuma que vai falhar
2️⃣ Defina o que pode falhar
3️⃣ Separe falha crítica de falha tolerável
4️⃣ Implemente contenção
5️⃣ Garanta reprocessamento
6️⃣ Teste recuperação
7️⃣ Documente
8️⃣ Treine
9️⃣ Repita

💣 Dica Bellacosa:
Sistema que só funciona em estado perfeito não é resiliente.


6️⃣ Reprocessamento: o herói esquecido 🦸

Mainframer conhece:

  • Restart step

  • Batch reentrante

  • Controle por chave

No mundo distribuído:

  • Replay de eventos

  • Dead letter queues

  • Compensações

😈 Easter egg:
Quem sabe reprocessar não tem medo de falha.


7️⃣ Guia de estudo para mainframers sobreviventes 📚

Conceitos

  • Resiliência

  • Falha parcial

  • Circuit breaker

  • Bulkhead

  • Retry com backoff

  • Eventual consistency

Ferramentas

  • Resilience4j

  • Istio

  • Kubernetes

  • Kafka

  • IBM MQ


8️⃣ Aplicações práticas no mundo real

  • Ambientes híbridos estáveis

  • Sistemas financeiros

  • Integração legado + cloud

  • Redução de incidentes graves

  • Continuidade de negócio

🎯 Mainframer resiliente vira arquiteto natural.


9️⃣ Curiosidades que só quem viveu entende 👀

  • Sistema que nunca falhou não foi testado

  • Restart é mais importante que start

  • Documentação de recuperação vale ouro

  • Treinamento salva madrugada

📌 Verdade dura:
Resiliência custa projeto, tempo e humildade.


🔟 Comentário final (06:22, café requentado)

Resiliência não é luxo.
É requisito mínimo para sistemas que importam.

Se você já:

  • Reconstruiu base sob pressão

  • Voltou sistema com gambiarra consciente

  • Aprendeu mais com falha do que com sucesso

Então você carrega resiliência no DNA.

🖤 El Jefe Midnight Lunch fecha com honra:
Sistemas fortes não são os que não caem. São os que sempre voltam.