El Jefe Midnight Lunch

✨ Bem-vindo ao meu espaço! ✨ Este blog é o diário de um otaku apaixonado por animes, tecnologia de mainframe e viagens. Cada entrada é uma mistura única: relatos de viagem com fotos, filmes, links, artigos e desenhos, sempre buscando enriquecer a experiência de quem lê. Sou quase um turista profissional: adoro dormir em uma cama diferente, acordar em um lugar novo e registrar tudo com minha câmera sempre à mão. Entre uma viagem e outra, compartilho também reflexões sobre cultura otaku/animes

Mostrar mensagens com a etiqueta ras. Mostrar todas as mensagens

quarta-feira, 8 de abril de 2026

💥 APERTA O ENTER E DERRUBA O DATA CENTER: SOBREVIVA AO LAB DE RESILIÊNCIA IBM Z

Bellacosa Mainframe experimentos reisiliencia em IBM Z

💥 APERTA O ENTER E DERRUBA O DATA CENTER: SOBREVIVA AO LAB DE RESILIÊNCIA IBM Z

🧪 Laboratório prático — do ABEND ao FAILOVER sem perder um byte

🎯 OBJETIVO DO LAB

Você vai simular:

💣 Falha de aplicação (ABEND)
⚙️ Restart automático (ARM)
🧩 Continuidade (Sysplex mental model)
🌍 Disaster Recovery (simulado estilo GDPS)
📊 Validação de RPO/RTO

👉 Resultado esperado:
Sistema continua — usuário nem percebe

🧠 CENÁRIO (VIDA REAL)

Você é dev COBOL em um banco:

Batch crítico processa pagamentos
Roda em z/OS
Usa Db2
Integra com CICS

💥 E claro… algo vai dar errado.

🧪 LAB 1 — “PROVOQUE O CAOS” (ABEND CONTROLADO)

🎯 Objetivo:

Gerar uma falha real

📄 Passo 1 — Programa COBOL com erro


IDENTIFICATION DIVISION.
PROGRAM-ID. LABFAIL.

DATA DIVISION.
WORKING-STORAGE SECTION.
01 WS-NUM PIC 9(3) VALUE ZEROS.
01 WS-VAL PIC 9(3).

PROCEDURE DIVISION.
    MOVE 100 TO WS-VAL
    DIVIDE WS-VAL BY WS-NUM GIVING WS-VAL
    DISPLAY 'PROCESSO FINALIZADO'
    STOP RUN.

👉 Resultado esperado:


S0C7 ou S0CB (divisão por zero)

💡 Comentário Bellacosa

“Se você nunca causou um ABEND de propósito… você ainda não domina o sistema.”

⚙️ LAB 2 — “DEIXA O SISTEMA SE VIRAR” (ARM)

🎯 Objetivo:

Simular restart automático

🧠 Conceito

ARM = Automatic Restart Manager

👉 Ele reinicia automaticamente o que caiu

📄 Passo 2 — Simulação lógica


JOB FAIL → ABEND
ARM detecta → restart automático
JOB reinicia → continua fluxo

🧪 Teste

Execute o programa com erro
Corrija o erro (WS-NUM ≠ 0)
Reexecute

👉 Agora imagine:

ARM faria isso sozinho
Sem operador

💡 Insight

“ARM é o operador que nunca dorme.”

🧩 LAB 3 — “NÃO PARE O SISTEMA” (MENTALIDADE SYSPLEX)

🎯 Objetivo:

Entender continuidade

🧠 Simulação conceitual

Imagine:

LPAR A → falha
LPAR B → assume

📄 Fluxo


Transação → LPAR A
Falha → redireciona → LPAR B
Usuário continua

💡 Easter Egg 🔥

“Sysplex não é cluster…
é cluster que não te deixa na mão.”

🌍 LAB 4 — “PERDEMOS O DATA CENTER” (DR SIMULADO)

🎯 Objetivo:

Simular desastre total

🧠 Cenário

Site A caiu 💥
Site B assume

📄 Exercício

Imagine seu sistema rodando
“Desligue” mentalmente o ambiente
Suba outro ambiente

👉 Perguntas:

Quanto tempo levou? (RTO)
Perdeu dados? (RPO)

💡 Resposta ideal

RTO → segundos/minutos
RPO → zero

🔥 Insight

“Se você precisa pensar muito no DR… ele já falhou.”

🧨 LAB 5 — “DESCUBRA SEU SPOF”

🎯 Objetivo:

Encontrar ponto único de falha

📄 Checklist

Um único job crítico?
Um único DB?
Um único operador? 😅

💡 Easter Egg

SPOF mais comum:
👉 Interface Teclado-Cadeira

🤖 LAB 6 — “AUTOMA OU MORRE”

🎯 Objetivo:

Entender automação

📄 Cenário

Sem automação:

detectar
analisar
agir

👉 minutos ou horas

Com automação:

detectar
agir

👉 segundos

💡 Insight brutal

“Sem automação, seu RTO é humano.”

🧪 LAB 7 — DR TEST (O GRANDE FINAL)

🎯 Objetivo:

Validar tudo

📄 Simulação

Derrube o “ambiente”
Ative backup
Valide sistema

📊 Checklist

Sistema subiu?
Dados íntegros?
Tempo aceitável?

💡 Regra de ouro

“DR não testado = DR inexistente”

🧠 CONSOLIDAÇÃO FINAL

🔗 RELAÇÃO DOS CONCEITOS

RAS → evita impacto
Models → define arquitetura
Planning → garante execução

💥 Fluxo completo


Falha pequena → ARM resolve
Falha média → Sysplex resolve
Desastre total → DR/GDPS resolve

🏁 MISSÃO FINAL DO LAB

👉 Você não está testando sistema
👉 Você está testando sobrevivência do negócio

🔥 FRASE FINAL

“No mainframe, o erro não é falhar…
é deixar o usuário perceber.”

terça-feira, 4 de janeiro de 2022

🛡️ IBM Z Resiliency : Por que o mainframe foi feito para não cair — e o mundo digital ainda corre atrás

🛡️ IBM Z Resiliency

Por que o mainframe foi feito para não cair — e o mundo digital ainda corre atrás

“Downtime não é um incidente técnico. É um evento de negócio.”

No mundo atual, onde uma falha de segundos vira trending topic e uma indisponibilidade de minutos custa milhões, resiliência deixou de ser luxo e virou sobrevivência.
E é exatamente aqui que o IBM Z entra em cena — não como moda, mas como engenharia.

Este artigo nasce do conteúdo do curso IBM Z Resiliency, mas vai além: traduz conceitos, conecta história, provoca reflexão e mostra por que o mainframe continua sendo o porto seguro do digital.

☕ O que é Resiliência — e por que não é só “alta disponibilidade”

Muita gente confunde resiliência com uptime.
Mas uptime é métrica. Resiliência é comportamento.

Um sistema resiliente:

Falha (porque tudo falha)
Se adapta
Se recupera rápido
E, muitas vezes, falha sem que o usuário perceba

📌 No IBM Z, o objetivo não é evitar a falha a qualquer custo — é garantir que ela não vire um problema de negócio.

💥 Quando o sistema cai, o negócio cai junto

Downtime não afeta só TI. Ele afeta:

💳 Transações não realizadas
🏦 Operações financeiras interrompidas
⚖️ Penalidades regulatórias
😡 Clientes que não voltam

E no mundo digital:

99,9% não é “excelente”
99,99% é o mínimo aceitável
99,999% (five nines) é onde o IBM Z opera por padrão

👉 Five nines significa menos de 5 minutos de indisponibilidade por ano.
Não é marketing. É engenharia.

📊 Como se mede disponibilidade (e por que isso importa)

A conta é simples:


Disponibilidade = (Tempo total – Downtime) / Tempo total

Mas a interpretação não é.

Porque uma hora fora do ar:

Às 3h da manhã ≠
Às 11h de uma segunda-feira bancária

📢 Resiliência não é quanto tempo você ficou fora — é o impacto que isso causou.

🧱 RAS: o DNA do IBM Z

Quando falamos de IBM Z, falamos de RAS:

🔧 Reliability (Confiabilidade)

Componentes redundantes
Correção automática de erros
Falhas detectadas antes de virarem incidentes

📌 Há casos reais em que o cliente nunca soube que um componente falhou.

⏱ Availability (Disponibilidade)

Substituição de peças com sistema ligado
Workloads realocados automaticamente
Sysplex mascarando falhas de LPAR ou CPC

📢 No mundo distribuído, reiniciar é normal.
No mainframe, é exceção.

🛠 Serviceability (Manutenibilidade)

Diagnóstico preciso
Call Home automático
Menos tempo para resolver, menos impacto

👉 O IBM Z foi feito para ser consertado em produção.

🌍 Modelos de Resiliência no IBM Z

Nem todo ambiente precisa do mesmo nível de proteção. Por isso existem modelos de resiliência.

1️⃣ Sistema único resiliente

Um IBM Z
Forte uso de RAS
Recuperação rápida

✔️ Simples
❌ Sem proteção contra desastre físico

2️⃣ Alta disponibilidade local

Sysplex
Múltiplos LPARs
Failover quase invisível

✔️ Excelente para ambientes críticos
❌ Ainda preso a um único site

3️⃣ Resiliência geográfica (GDPS)

Sites separados
Replicação de dados
Failover automatizado

✔️ Proteção real contra desastre
✔️ RTO extremamente baixo
💰 Investimento maior, mas justificado

4️⃣ Disponibilidade contínua

Zero downtime percebido
Automação total
Planejamento extremo

📢 Aqui não se fala em “se cair”, mas em “quando cair, ninguém percebe”.

🧠 Planejar Resiliência é mais do que comprar hardware

Um erro clássico: achar que resiliência se compra.

Ela se projeta.

Princípios fundamentais:

✔️ Falhas são normais
✔️ RTO e RPO bem definidos
✔️ Automação acima de intervenção manual
✔️ Testes frequentes de DR
✔️ Pessoas treinadas e processos claros

📌 Plano de desastre não testado é ficção técnica.

🧩 O diferencial do IBM Z

O IBM Z não é resiliente por acaso.

Ele nasceu em uma época em que:

Sistemas não podiam cair
Transações não podiam ser perdidas
Clientes não aceitavam erro

Enquanto muitos ambientes ainda tentam alcançar resiliência com camadas de software, o mainframe nasceu resiliente.

🎯 Conclusão – Resiliência não é moda. É sobrevivência.

No fim do dia, a pergunta não é:

“Meu sistema vai falhar?”

Mas sim:

“O que acontece quando ele falhar?”

No IBM Z, a resposta é simples:

O negócio continua.

☕💻 Isso é resiliência. Isso é mainframe.

quarta-feira, 22 de setembro de 2021

📘 Visão Geral do Curso – IBM Z Resiliency

Objetivo do curso

Compreender os conceitos de resiliência no IBM Z e o valor da recuperação rápida, mostrando por que o mainframe é a espinha dorsal de negócios digitais que não podem parar.

Público-alvo

Profissionais novos em resiliência no IBM Z
Analistas, operadores, sysprogs iniciantes
Profissionais de TI vindos de ambientes distribuídos que precisam entender por que o mainframe é diferente

👉 É um curso conceitual, não técnico profundo, focado em mentalidade, fundamentos e arquitetura.

🧠 Resumo Executivo (em uma frase)

O curso ensina por que o IBM Z foi projetado para não parar, como medir disponibilidade, quais mecanismos de hardware e software garantem isso, quais modelos de resiliência existem e como planejar sistemas realmente resilientes.

🔹 TÓPICO 1 – Resiliency: The key to the survival of a digital business

🎯 Objetivo do tópico

Entender como o downtime afeta clientes e usuários
Conhecer formas de medir disponibilidade

📌 Explicação prática

O que é Resiliência

Resiliência não é apenas alta disponibilidade.
É a capacidade de um sistema:

Continuar operando mesmo com falhas
Recuperar rapidamente
Minimizar impacto ao negócio e ao cliente

📢 Sistema resiliente não é o que nunca falha — é o que falha sem ser percebido.

💥 Impacto do downtime

Downtime afeta diretamente:

💰 Receita (transações não realizadas)
📉 Reputação da empresa
⚖️ Compliance (bancos, seguradoras, governo)
😡 Experiência do cliente

No mundo digital:

Milissegundos importam
Minutos custam milhões
Horas podem matar um negócio

📊 Como medir disponibilidade

Disponibilidade normalmente é medida como:


Disponibilidade (%) = (Tempo total – Tempo de indisponibilidade) / Tempo total

Exemplo clássico:

99,9% (three nines) → ~8,7 horas de downtime por ano
99,999% (five nines) → ~5 minutos por ano

👉 O IBM Z foi projetado para five nines ou mais, algo extremamente difícil em ambientes distribuídos.

🔹 TÓPICO 2 – IBM Reliability, Availability, Serviceability (RAS)

🎯 Objetivo

Descrever como hardware e software suportam a resiliência do IBM Z.

📌 O que é RAS

RAS é um princípio de engenharia, não um produto.

🔧 Reliability (Confiabilidade)

Componentes projetados para falhar menos
Detecção proativa de erros
Redundância física e lógica

Exemplos no IBM Z:

CPUs redundantes
Memória com ECC avançado
Detecção e correção automática de falhas

⏱ Availability (Disponibilidade)

Capacidade de continuar operando mesmo com falhas
Substituição de componentes sem desligar o sistema

Exemplos:

Hot swap de componentes
Workload sendo redistribuído automaticamente
Sysplex mascarando falhas de um nó

🛠 Serviceability (Manutenibilidade)

Diagnóstico rápido
Reparos sem impacto ao negócio

Exemplos:

Call Home automático para IBM
Logs detalhados de falha
Manutenção com sistema online

📢 No IBM Z, muitas falhas são corrigidas antes mesmo do cliente perceber.

🧠 Importante

RAS não é só hardware:

z/OS
CICS
DB2
JES
Sysplex
WLM

Tudo foi desenhado com a filosofia de nunca parar.

🔹 TÓPICO 3 – IBM Z Resiliency Models

🎯 Objetivo

Descrever as características dos quatro modelos de resiliência

📌 Os quatro modelos (visão conceitual)

1️⃣ Single system resiliency

Um único IBM Z
Usa RAS para evitar falhas
Recuperação rápida, mas sem site alternativo

✔️ Bom para ambientes menores
❌ Vulnerável a desastres físicos

2️⃣ Local high availability

Uso de Sysplex
Múltiplos LPARs ou CPCs no mesmo site
Failover quase transparente

✔️ Altíssima disponibilidade
❌ Ainda dependente de um único local físico

3️⃣ Geographically Dispersed Parallel Sysplex (GDPS)

Sites geograficamente separados
Replicação de dados
Failover automatizado

✔️ Proteção contra desastre
✔️ Recovery Time Objective (RTO) muito baixo
💰 Custo mais elevado

4️⃣ Continuous availability / Business resilience

Zero downtime percebido
Planejamento extremo
Automação total

✔️ Missão crítica absoluta
✔️ Bancos, bolsas, governos
📢 Aqui o negócio não pode parar nunca.

🔹 TÓPICO 4 – Planning for Resiliency

🎯 Objetivo

Definir princípios que contribuem para a resiliência.

📌 Planejar resiliência não é comprar hardware

Princípios fundamentais:

🧩 1. Pensar em falhas como algo normal

Tudo falha
O plano deve assumir isso

📋 2. Definir RTO e RPO

RTO: quanto tempo posso ficar fora?
RPO: quanto dado posso perder?

Sem isso, não existe resiliência — só achismo.

🔁 3. Automação

Failover manual não escala
IBM Z foi feito para automação

🧪 4. Testar, testar e testar

Plano não testado = plano inexistente
DR sem teste falha quando é mais necessário

🧠 5. Pessoas e processos

Tecnologia sem pessoas treinadas não funciona
Documentação clara
Papéis definidos

📢 Resiliência é 50% tecnologia e 50% processo.

🧾 Conclusão Geral do Curso

Este curso:

Não ensina comandos
Não ensina instalação
Ensina mentalidade de resiliência no IBM Z

É ideal para:

Quem vem de cloud/distribuído
Quem acha que “mainframe é caro”
Quem nunca viu um sistema rodar anos sem downtime

Translate

quarta-feira, 8 de abril de 2026

💥 APERTA O ENTER E DERRUBA O DATA CENTER: SOBREVIVA AO LAB DE RESILIÊNCIA IBM Z

💥 APERTA O ENTER E DERRUBA O DATA CENTER: SOBREVIVA AO LAB DE RESILIÊNCIA IBM Z

🧪 Laboratório prático — do ABEND ao FAILOVER sem perder um byte

🎯 OBJETIVO DO LAB

🧠 CENÁRIO (VIDA REAL)

🧪 LAB 1 — “PROVOQUE O CAOS” (ABEND CONTROLADO)

🎯 Objetivo:

📄 Passo 1 — Programa COBOL com erro

💡 Comentário Bellacosa

⚙️ LAB 2 — “DEIXA O SISTEMA SE VIRAR” (ARM)

🎯 Objetivo:

🧠 Conceito

📄 Passo 2 — Simulação lógica

🧪 Teste

💡 Insight

🧩 LAB 3 — “NÃO PARE O SISTEMA” (MENTALIDADE SYSPLEX)

🎯 Objetivo:

🧠 Simulação conceitual

📄 Fluxo

💡 Easter Egg 🔥

🌍 LAB 4 — “PERDEMOS O DATA CENTER” (DR SIMULADO)

🎯 Objetivo:

🧠 Cenário

📄 Exercício

💡 Resposta ideal

🔥 Insight

🧨 LAB 5 — “DESCUBRA SEU SPOF”

🎯 Objetivo:

📄 Checklist

💡 Easter Egg

🤖 LAB 6 — “AUTOMA OU MORRE”

🎯 Objetivo:

📄 Cenário

💡 Insight brutal

🧪 LAB 7 — DR TEST (O GRANDE FINAL)

🎯 Objetivo:

📄 Simulação

📊 Checklist

💡 Regra de ouro

🧠 CONSOLIDAÇÃO FINAL

🔗 RELAÇÃO DOS CONCEITOS

💥 Fluxo completo

🏁 MISSÃO FINAL DO LAB

🔥 FRASE FINAL

terça-feira, 4 de janeiro de 2022

🛡️ IBM Z Resiliency : Por que o mainframe foi feito para não cair — e o mundo digital ainda corre atrás

🛡️ IBM Z Resiliency

Por que o mainframe foi feito para não cair — e o mundo digital ainda corre atrás

☕ O que é Resiliência — e por que não é só “alta disponibilidade”

💥 Quando o sistema cai, o negócio cai junto

📊 Como se mede disponibilidade (e por que isso importa)

🧱 RAS: o DNA do IBM Z

🔧 Reliability (Confiabilidade)

⏱ Availability (Disponibilidade)

🛠 Serviceability (Manutenibilidade)

🌍 Modelos de Resiliência no IBM Z

1️⃣ Sistema único resiliente

2️⃣ Alta disponibilidade local

3️⃣ Resiliência geográfica (GDPS)

4️⃣ Disponibilidade contínua

🧠 Planejar Resiliência é mais do que comprar hardware

Princípios fundamentais:

🧩 O diferencial do IBM Z

🎯 Conclusão – Resiliência não é moda. É sobrevivência.

quarta-feira, 22 de setembro de 2021

📘 Visão Geral do Curso – IBM Z Resiliency

📘 Visão Geral do Curso – IBM Z Resiliency

Objetivo do curso

Público-alvo

🧠 Resumo Executivo (em uma frase)

🔹 TÓPICO 1 – Resiliency: The key to the survival of a digital business

🎯 Objetivo do tópico

📌 Explicação prática

O que é Resiliência

💥 Impacto do downtime

📊 Como medir disponibilidade

🔹 TÓPICO 2 – IBM Reliability, Availability, Serviceability (RAS)

🎯 Objetivo