El Jefe Midnight Lunch

✨ Bem-vindo ao meu espaço! ✨ Este blog é o diário de um otaku apaixonado por animes, tecnologia de mainframe e viagens. Cada entrada é uma mistura única: relatos de viagem com fotos, filmes, links, artigos e desenhos, sempre buscando enriquecer a experiência de quem lê. Sou quase um turista profissional: adoro dormir em uma cama diferente, acordar em um lugar novo e registrar tudo com minha câmera sempre à mão. Entre uma viagem e outra, compartilho também reflexões sobre cultura otaku/animes

Mostrar mensagens com a etiqueta produção. Mostrar todas as mensagens

sexta-feira, 12 de junho de 2026

Blast Radius: Por Que um Pequeno Erro Pode Derrubar um Banco Inteiro

Bellacosa Mainframe e o blast radius em desenvolvimento de software

Blast Radius: Por Que um Pequeno Erro Pode Derrubar um Banco Inteiro

Uma das perguntas mais importantes da engenharia moderna

Imagine que você acabou de entrar em uma grande instituição financeira.

Você é um desenvolvedor COBOL Jr.

Recebe uma tarefa aparentemente simples.

Alterar uma rotina de validação em um programa batch.

O código possui apenas algumas linhas.

A mudança é pequena.

O teste passou.

O deploy foi aprovado.

Tudo parece sob controle.

Dois dias depois surge uma reunião de crise.

Executivos estão reunidos.

Gerentes estão nervosos.

Equipes de infraestrutura trabalham durante a madrugada.

Milhões de registros foram processados incorretamente.

O prejuízo é enorme.

E então alguém faz uma pergunta que todo arquiteto experiente conhece:

Qual era o Blast Radius dessa mudança?

Essa pergunta vale mais do que qualquer revisão de código.

Mais do que qualquer ferramenta de monitoramento.

Mais do que qualquer framework moderno.

Porque ela determina o tamanho potencial do desastre.

O que significa Blast Radius?

A tradução literal seria:

Raio de Explosão.

O termo vem do universo militar.

Quando ocorre uma explosão, existe uma área diretamente afetada.

Quanto maior a explosão, maior o raio de destruição.

A engenharia de software adotou exatamente a mesma ideia.

Quando um sistema falha, uma pergunta precisa ser respondida:

Quantas pessoas, sistemas, operações ou clientes serão impactados?

Essa área de impacto é chamada Blast Radius.

O erro que afeta um cliente

Imagine um programa COBOL responsável por atualizar dados cadastrais.

Um erro afeta:

1 cliente

Problema?

Sim.

Crise?

Provavelmente não.

O impacto é localizado.

O Blast Radius é pequeno.

O erro que afeta um banco inteiro

Agora imagine um programa responsável pela compensação financeira nacional.

Um erro afeta:

30 milhões de clientes

Mesma quantidade de linhas alteradas.

Mesmo programador.

Mesmo tipo de erro.

Resultado completamente diferente.

Por quê?

Porque o Blast Radius mudou.

A pergunta que diferencia um programador de um engenheiro

O desenvolvedor iniciante normalmente pergunta:

Meu código funciona?

O engenheiro experiente pergunta:

O que acontece se ele falhar?

Essa mudança de mentalidade é uma das maiores evoluções na carreira de tecnologia.

Porque sistemas críticos não são avaliados apenas pelo sucesso.

Eles são avaliados pela forma como falham.

O mito do pequeno erro

Existe uma crença perigosa em ambientes corporativos.

"Foi só uma alteração pequena."

O tamanho do código raramente determina o tamanho do impacto.

Um único caractere já derrubou sistemas inteiros.

Um único parâmetro incorreto já gerou perdas milionárias.

Uma única configuração errada já interrompeu operações globais.

O impacto depende do Blast Radius.

Não da quantidade de código.

O universo COBOL e o poder invisível

Desenvolvedores COBOL trabalham em uma situação peculiar.

Muitas vezes manipulam sistemas que movimentam bilhões de reais diariamente.

Mas a interface parece simples.

Uma tela verde.

Alguns arquivos.

JCLs.

Datasets.

Rotinas batch.

Tudo parece tranquilo.

Até que alguém descobre que aquele programa processa:

contas correntes;
cartões;
empréstimos;
investimentos;
liquidações;
compensações.

De repente o código ganha outra dimensão.

O efeito dominó

Imagine uma falha em um cadastro.

Cliente incorreto.

Esse dado alimenta:

CRM;
antifraude;
cobrança;
compliance;
atendimento;
relatórios regulatórios.

Agora uma pequena falha inicial se transforma em dezenas de falhas secundárias.

Isso é amplificação de Blast Radius.

O conceito de dependências

Sistemas modernos não vivem isolados.

Um programa chama outro.

Que chama outro.

Que alimenta outro.

Que gera arquivos para outro.

O resultado é uma rede gigantesca.

Quando um componente falha, o impacto se propaga.

Como peças de dominó.

O exemplo do CPF inválido

Imagine uma rotina simples.

Um CPF inválido passa pela validação.

O erro parece pequeno.

Mas esse dado segue adiante.

Abre conta.

Gera cartão.

Produz relatórios.

Entra em auditorias.

Alimenta modelos analíticos.

Meses depois ninguém sabe mais onde o problema começou.

O Blast Radius cresceu silenciosamente.

O incidente do Nubank como estudo de caso

O episódio envolvendo o falso aviso de liquidação trouxe uma lição interessante.

Independentemente dos detalhes internos, a pergunta arquitetural é:

Qual era o Blast Radius daquele processo?

Se a mensagem atingisse:

10 clientes

O incidente seria pequeno.

Se atingir milhões:

O cenário muda completamente.

A mesma falha produz consequências exponencialmente maiores.

Blast Radius e ambientes de produção

Uma regra simples:

Quanto mais próximo da produção, maior o Blast Radius.

Ambiente de desenvolvimento:

Impacto quase zero.

Homologação:

Impacto limitado.

Produção:

Impacto real.

Produção financeira:

Impacto potencialmente gigantesco.

É por isso que instituições financeiras possuem tantos controles.

Não por burocracia.

Mas porque o custo do erro é enorme.

O perigo dos batches

O mundo COBOL é dominado por processamento em massa.

Um programa pode executar durante horas.

Processando milhões de registros.

O problema é simples.

Se houver um erro:

Ele será repetido milhões de vezes.

Um erro individual torna-se um erro industrializado.

O erro multiplicado

Imagine:

1 registro incorreto

Sem batch:

impacto pequeno.

Agora imagine:

50 milhões de registros

Processados pela mesma lógica defeituosa.

O erro não mudou.

O Blast Radius mudou.

Como arquitetos pensam

Arquitetos raramente perguntam:

"Qual tecnologia usamos?"

Eles perguntam:

"Qual o pior cenário possível?"

Essa pergunta direciona toda a arquitetura.

Porque sistemas críticos são construídos para sobreviver a falhas.

Não apenas para funcionar.

Blast Radius e permissões

Um desenvolvedor possui acesso de leitura.

Blast Radius reduzido.

Um desenvolvedor possui acesso irrestrito.

Blast Radius elevado.

É por isso que ambientes maduros trabalham com:

menor privilégio;
segregação;
controle de acesso;
aprovações.

Tudo isso é gestão de Blast Radius.

Blast Radius e banco de dados

Imagine um comando SQL.

Primeiro cenário:

UPDATE CLIENTES
SET STATUS='A'
WHERE ID=100;

Impacto:

um cliente.

Segundo cenário:

UPDATE CLIENTES
SET STATUS='A';

Impacto:

todos os clientes.

A diferença visual é mínima.

A diferença operacional é gigantesca.

O princípio da contenção

Existe uma palavra muito importante.

Contenção.

Todo sistema moderno deveria conter falhas.

Não espalhá-las.

Por isso empresas investem em:

segmentação;
isolamento;
partições;
zonas independentes.

O objetivo é impedir que uma falha local se torne global.

O conceito de células

Empresas como Amazon popularizaram a ideia de Cell Architecture.

Em vez de uma estrutura única gigante.

Criam-se células menores.

Se uma célula falhar:

As demais continuam operando.

Isso reduz drasticamente o Blast Radius.

Mainframe já fazia isso há décadas

Curiosamente, ambientes mainframe utilizavam conceitos semelhantes muito antes da computação em nuvem.

Exemplos:

LPARs;
regiões CICS;
filas separadas;
ambientes segregados;
jobs independentes.

A filosofia era exatamente a mesma.

Conter impactos.

O problema do compartilhamento excessivo

Quanto mais sistemas compartilham recursos, maior o Blast Radius.

Banco compartilhado.

Fila compartilhada.

Storage compartilhado.

Processamento compartilhado.

Tudo isso cria pontos únicos de falha.

Um problema em um componente afeta dezenas de outros.

O conceito de Blast Radius Humano

Pouca gente fala sobre isso.

Mas pessoas também possuem Blast Radius.

Imagine:

Um único operador consegue executar qualquer comando em produção.

Blast Radius enorme.

Agora imagine:

Necessidade de aprovação dupla.

Blast Radius reduzido.

A governança existe para limitar o alcance dos erros humanos.

O papel dos Guard Rails

Blast Radius e Guard Rails caminham juntos.

Guard Rails tentam impedir erros.

Blast Radius tenta limitar consequências.

Exemplo:

Guard Rail:

impedir exclusão acidental.

Blast Radius:

caso a exclusão ocorra, limitar o impacto.

São conceitos complementares.

Rollout gradual

Uma das formas mais modernas de controlar Blast Radius é o rollout progressivo.

Em vez de liberar uma mudança para todos.

Liberamos para poucos.

Por exemplo:

1%.

Depois 5%.

Depois 10%.

Depois 100%.

Se houver erro, ele será detectado cedo.

O impacto permanece pequeno.

O medo saudável da produção

Existe uma característica interessante nos profissionais experientes de mainframe.

Eles respeitam produção.

Não porque tenham medo da tecnologia.

Mas porque entendem o Blast Radius.

Produção concentra:

clientes;
dinheiro;
contratos;
obrigações regulatórias;
reputação.

Uma pequena falha pode produzir consequências gigantescas.

Observabilidade e Blast Radius

Você não controla aquilo que não consegue enxergar.

Por isso monitoramento é fundamental.

Imagine um batch que normalmente processa:

500 mil registros

Hoje processou:

50 milhões

Algo claramente está errado.

Um sistema observável detecta rapidamente.

Quanto mais cedo o problema é identificado, menor o Blast Radius.

O custo da reputação

Em bancos existe um ativo invisível.

Confiança.

Quando uma falha afeta poucos clientes, a recuperação costuma ser simples.

Quando afeta milhões, surge um problema adicional.

Reputação.

O Blast Radius passa a incluir:

imprensa;
investidores;
reguladores;
mercado.

O dano deixa de ser apenas tecnológico.

O exercício mental que todo COBOL Jr deveria fazer

Antes de qualquer alteração, pergunte:

Se eu errar:

Quantos clientes serão impactados?
Quantos sistemas dependem disso?
Existe rollback?
Existe monitoramento?
Existe plano de contingência?
Existe limite operacional?
Existe validação?
Existe segregação?

Essas perguntas valem mais do que qualquer linha de código.

A verdadeira maturidade profissional

Existe um momento em que o desenvolvedor deixa de ser apenas um programador.

Ele passa a enxergar sistemas.

Passa a enxergar operações.

Passa a enxergar negócios.

Passa a enxergar riscos.

Nesse momento surge uma nova pergunta.

Não mais:

O programa funciona?

Mas sim:

Qual é o Blast Radius se ele parar de funcionar?

Essa mudança de perspectiva transforma a forma de desenvolver software.

Conclusão

Blast Radius é um dos conceitos mais importantes da engenharia moderna porque nos obriga a pensar além do código.

Ele nos força a enxergar impacto.

A enxergar consequências.

A enxergar riscos.

Para um desenvolvedor COBOL Jr, compreender Blast Radius significa entender que o tamanho de uma alteração não determina sua importância.

Uma linha de código pode alterar milhões de contas.

Um único parâmetro pode interromper operações nacionais.

Uma pequena falha pode se propagar por dezenas de sistemas.

Os melhores engenheiros não são aqueles que acreditam que nunca errarão.

São aqueles que projetam sistemas assumindo que erros inevitavelmente acontecerão.

E quando eles acontecerem, o objetivo não será impedir a explosão.

Será garantir que o raio da explosão seja o menor possível.

Esse é o verdadeiro significado de Blast Radius.

domingo, 3 de maio de 2026

⚡💣 LAB CICS — MEM CRÍTICO 🚨 “QUANDO A MEMÓRIA ACABA… O CICS PEDE SOCORRO” 🚨

Bellacosa Mainframe memoria critica no CICS

⚡💣 LAB CICS — MEM CRÍTICO

🚨 “QUANDO A MEMÓRIA ACABA… O CICS PEDE SOCORRO” 🚨

👉 Tema: SOS (Short on Storage) + degradação + decisão de failover

🎬 🎯 CENÁRIO

Você está operando uma região do
IBM CICS

🕐 14:32 — horário crítico
📍 Região: CICSPRD1
📍 Ambiente: Produção

💥 ALERTAS INICIAIS

Tempo de resposta subindo
Tasks WAITING
CPU irregular
Storage aumentando rápido

💣 LOGS (CSMT)


DFHSM0133 Short on storage condition detected
DFHSM0606 Storage violation detected

👉 Tradução Bellacosa:

“O CICS está ficando sem memória — e isso escala rápido.”

🧠🔥 FASE 1 — DIAGNÓSTICO INICIAL

🔎 Comando:


CEMT I SYS

🔥 Resultado típico:

Storage > 90%
Tasks acumulando
Sistema degradando

❓ O que você faz?

A) Reinicia CICS
B) Ignora
C) Analisa storage
D) Derruba tudo

✅ RESPOSTA: C

👉 Reiniciar agora pode piorar
👉 Você precisa entender quem está consumindo storage

🔍 FASE 2 — INVESTIGAÇÃO DE STORAGE

🔎 Ver tasks:


CEMT I TASK

👉 Procure:

Tasks longas
Muitas instâncias
Status WAITING

💡 Padrão clássico:

Programa não liberando storage
Loop com GETMAIN
Leak de memória

📊 FASE 3 — IDENTIFICAR VILÃO

🔎 Filtro:


CEMT I TASK TRA(ORDR)

👉 Resultado:

Muitas tasks
Alto consumo
Crescendo continuamente

❓ Diagnóstico provável:

A) CPU
B) Storage leak
C) Rede
D) MQ

✅ RESPOSTA: B

🔥 Você está vendo um memory leak em CICS

☠️💣 FASE 4 — CONTENÇÃO IMEDIATA

Agora vem decisão crítica.

🎯 Objetivo:

parar consumo
evitar colapso

💥 Ações:

1. Derrubar tasks críticas:


CEMT SET TASK(501) PURGE

Se necessário:


CEMT SET TASK(501) FORCEPURGE

2. Bloquear transação:


CEMT SET TRAN(ORDR) DISABLED

👉 Isso é essencial.

🧬 FASE 5 — SITUAÇÃO PIORA 😈

Mesmo após purge:

Storage não libera totalmente
Região continua degradando

👉 Isso acontece porque:

Fragmentação
Storage preso
Controle interno comprometido

🚨 FASE 6 — DECISÃO CRÍTICA (NÍVEL SYSPROG)

❓ O que fazer agora?

A) Continuar purge
B) Reiniciar região
C) Acionar failover
D) Ignorar

✅ RESPOSTA IDEAL: C

👉 Você entra no modo resiliência

🌍⚡ FAILOVER COM GDPS

Utilizando:

IBM GDPS

💥 Ação:

Transferir workload
Ativar região standby
Redirecionar usuários

🎯 Resultado esperado:

Continuidade de serviço
Zero downtime perceptível (ou mínimo)

🧯 FASE 7 — ESTABILIZAÇÃO

Após failover:

Região secundária assume
Sistema normaliza
Usuários voltam

🔬 FASE 8 — ANÁLISE PROFUNDA

Agora você investiga a causa real.

🔎 Ferramentas:

IBM IPCS
IBM Fault Analyzer

💣 Descoberta:

Programa COBOL com loop de GETMAIN
Sem FREEMAIN
Leak progressivo

🔧 FASE 9 — CORREÇÃO DEFINITIVA

📋 Ações:

Corrigir código
Garantir FREEMAIN
Revisar uso de storage
Testar em QA

🧠💡 LIÇÕES DE OURO

👉 SOS nunca é “só performance”
👉 É risco de colapso total

👉 Sempre:

monitore storage
detecte crescimento anormal
tenha failover preparado

🧩😄 EASTER EGGS

“SOS não avisa duas vezes”
“Se chegou no SOS… alguém esqueceu FREEMAIN”
“Memory leak em CICS é assassino silencioso”

🏁 SCORE FINAL

Critério	Resultado
Diagnóstico	🧠 Excelente
Tempo de reação	⚡ Crítico
Contenção	🎯 Precisa
Resiliência	🛡️ Nível enterprise

🎯💬 FECHAMENTO

Esse lab é o divisor de águas.

👉 Aqui você deixa de ser operador
👉 e vira engenheiro de sobrevivência do mainframe

sábado, 2 de maio de 2026

🚨💥 SIMULADOR CICS — “GUERRA EM PRODUÇÃO” 💥🚨

Bellacosa Mainframe apresenta um Simulador CICS

🚨💥 SIMULADOR CICS — “GUERRA EM PRODUÇÃO” 💥🚨

🎮 Modo: Interativo | 🎯 Objetivo: Restaurar o serviço sem causar dano colateral

Você está no comando de uma região do IBM CICS em produção.

🎬 CENÁRIO INICIAL

🕐 10:02 — Pico de acesso
📍 Região: CICS01
📍 Aplicação crítica: pagamentos

💥 Sintomas:

Tempo de resposta > 5s
CPU subindo rápido
Usuários travando
Chamados explodindo 😄

🧠 FASE 1 — PRIMEIRA DECISÃO

Você precisa agir rápido.

❓ O que você faz primeiro?

A) Reinicia o CICS
B) Analisa logs e tasks
C) Derruba todas as tasks
D) Ignora (pode ser pico)

👉 Escolha mentalmente antes de continuar

✅ RESPOSTA CORRETA: B

👉 Reiniciar = impacto massivo
👉 Derrubar tudo = caos
👉 Ignorar = carreira curta 😄

🔍 FASE 2 — INVESTIGAÇÃO

Você executa:


CEMT I TASK

🔥 Resultado:

40 tasks da transação PAY1
Todas RUNNING
Mesmo USERID

❓ Próxima ação?

A) Esperar normalizar
B) Filtrar por transação
C) Derrubar aleatoriamente
D) Reiniciar região

👉 Escolha…

✅ RESPOSTA: B


CEMT I TASK TRA(PAY1)

👉 Agora você tem visibilidade total

📊 FASE 3 — DIAGNÓSTICO

Você analisa uma task:


CEMT I TASK TAS(401)

🔎 Observação:

CPU TIME alto
STATUS: RUNNING
Sem I/O

👉 Isso indica:

❓

A) Espera de recurso
B) Loop CPU
C) Falha de rede
D) Storage baixo

✅ RESPOSTA: B (LOOP CPU)

🔥 Você achou o vilão.

☠️ FASE 4 — DECISÃO CRÍTICA

Agora vem a parte que separa operador de sysprog.

❓ O que fazer?

A) PURGE uma task
B) FORCEPURGE todas
C) Desabilitar transação
D) Nada

✅ RESPOSTA IDEAL: A + C

💥 Execução:


CEMT SET TASK(401) PURGE

Depois:


CEMT SET TRAN(PAY1) DISABLED

👉 Você:

remove impacto imediato
evita novas ocorrências

🧬 FASE 5 — INVESTIGAÇÃO PROFUNDA

Agora você precisa entender a causa.

💥 Gerar dump:


CEMT SET TRD(PAY1) DUMP

🔎 Análise com:

IBM IPCS
IBM Fault Analyzer

💣 Resultado:

Loop em programa COBOL
Falta de condição de saída

👉 Erro clássico de desenvolvimento 😄

🧯 FASE 6 — ESTABILIZAÇÃO

Você monitora:


CEMT I SYS

✅ Resultado:

CPU normalizando
Tasks reduzindo
Usuários voltando

🔧 FASE 7 — PÓS-INCIDENTE

Agora entra maturidade real.

📋 Ações obrigatórias:

Corrigir código
Criar alerta de CPU
Monitorar transação
Revisar deploy

🏁 RESULTADO FINAL

🧾 SCORE

Critério	Resultado
Tempo de reação	⚡ Excelente
Impacto evitado	🛡️ Alto
Diagnóstico	🧠 Correto
Ação	🎯 Precisa

👉 🎉 Você salvou a produção.

🧩😄 VARIAÇÕES DO SIMULADOR (PRÓXIMO NÍVEL)

Se quiser evoluir o treinamento:

💣 Cenário 2

Deadlock com DB2

💥 Cenário 3

MQ travando fila

🔥 Cenário 4

SOS (Short on Storage)

⚡ Cenário 5

Região inteira degradando

🎯💬 FECHAMENTO

Esse tipo de simulador treina:

raciocínio sob pressão
tomada de decisão
domínio real de CICS

👉 Porque no mundo real:

“Quem hesita… derruba produção.”

sexta-feira, 1 de maio de 2026

🚨💥 LAB CICS: “A TASK QUE PAROU A EMPRESA” — DO CAOS À RECUPERAÇÃO 💥🚨

Bellacosa Mainframe desafio LAB C|ICS

🚨💥 LAB CICS: “A TASK QUE PAROU A EMPRESA” — DO CAOS À RECUPERAÇÃO 💥🚨

🎬 🎯 CENÁRIO

📍 Ambiente: Produção
📍 Região: CICS01
📍 Horário: 10:17 (pico)
📍 Sintoma:

Usuários travados
Tempo de resposta absurdo
CPU subindo
Reclamação geral 😄

👉 Clássico incidente crítico.

🧠🔥 FASE 1 — DETECÇÃO (O ALERTA)

🔎 Primeira ação: ver mensagens


CEMT I SYS

👉 Você percebe:

Tasks acumulando
Sistema lento

Agora vá direto ao log:


CEBR CSMT

💣 Você encontra:


DFHAC2001 TRANSACTION PAY1 ABENDED WITH CODE ASRA

👉 Tradução:

Programa quebrando (provável S0C4)
Pode estar em loop/restart

🕵️‍♂️ FASE 2 — IDENTIFICAR O PROBLEMA

🔍 Listar tasks:


CEMT I TASK

🔥 Saída suspeita:


Tas(000345) Tra(PAY1) Use(APPUSR) Sta(RUN)
Tas(000346) Tra(PAY1) Use(APPUSR) Sta(RUN)
Tas(000347) Tra(PAY1) Use(APPUSR) Sta(RUN)

👉 ALERTA:

Mesma transação
Mesmo user
Muitas instâncias
Todas rodando

💡 Possível cenário:

Loop
Deadlock
Programa bugado

🎯 Filtro cirúrgico:


CEMT I TASK TRA(PAY1)

👉 Resultado:

30+ tasks abertas 😄

Agora ficou sério.

📊⚡ FASE 3 — ANÁLISE DE CONSUMO

🔎 Ver comportamento:


CEMT I TASK TAS(345)

👉 Observe:

CPU TIME alto
STATUS RUNNING contínuo
Sem I/O

👉 Isso é clássico:

🔥 LOOP CPU (runaway task)

🧬 FASE 4 — INVESTIGAÇÃO PROFUNDA (DUMP)

Agora você quer prova técnica.

💥 Gerar dump:


CEMT SET TRD(PAY1) DUMP

ou automático via abend

🧠 Análise do dump:

Ferramentas:

IBM IPCS
IBM Fault Analyzer

🔎 Você encontra:

Loop em programa COBOL
Parágrafo sem EXIT 😄
Variável nunca alterada

👉 Bingo.

☠️💣 FASE 5 — CONTENÇÃO (AÇÃO IMEDIATA)

Agora você precisa salvar o ambiente.

💥 Derrubar tasks:


CEMT SET TASK(345) PURGE

Se resistir:


CEMT SET TASK(345) FORCEPURGE

👉 Repita para as demais:


CEMT I TASK TRA(PAY1)

🚫 Bloquear entrada da transação:


CEMT SET TRAN(PAY1) DISABLED

👉 Isso evita novas execuções

🧯 FASE 6 — ESTABILIZAÇÃO

Agora observe:


CEMT I SYS

👉 Esperado:

CPU normalizando
Tasks reduzindo
Sistema respondendo

💡 Se não normalizar:

Ver DB2 locks
Ver filas MQ
Ver storage

🔧 FASE 7 — CORREÇÃO DEFINITIVA

Agora vem o pós-incidente.

📌 Ações:

Corrigir programa COBOL
Revisar lógica de loop
Adicionar timeout/escape
Validar com QA

🧠💡 FASE 8 — LIÇÕES DE OURO

👉 Sempre monitore:

Transações com crescimento rápido
CPU anormal
Tasks duplicadas

👉 Crie alertas para:

ASRA recorrente
Volume de tasks
Tempo de resposta

🧩😄 EASTER EGGS DO LAB

“Toda FORCEPURGE tem história”
“Loop em COBOL sempre aparece na sexta”
“Se tem ASRA em massa… prepara café” ☕

🧪🎯 QUIZ — NÍVEL OPERADOR / SYSPROG

1️⃣ O que indica muitas tasks RUNNING com CPU alto?

A) I/O intenso
B) Loop CPU
C) Problema de rede
D) Storage baixo

👉 Resposta: B

2️⃣ Comando para ver tasks:

A) CEDF
B) CEMT I TASK
C) CICS LIST
D) DISPLAY TASK

👉 Resposta: B

3️⃣ Diferença entre PURGE e FORCEPURGE?

A) Nenhuma
B) FORCEPURGE força finalização imediata
C) PURGE é mais agressivo
D) PURGE mata região

👉 Resposta: B

4️⃣ O que é ASRA?

A) Timeout
B) Falha lógica COBOL
C) Erro de storage/execução
D) Deadlock

👉 Resposta: C

5️⃣ Melhor ação inicial?

A) Reiniciar CICS
B) Derrubar tudo
C) Analisar tasks e logs
D) Ignorar

👉 Resposta: C

🎯💬 FECHAMENTO ESTILO BELLOCAZZA

Ser SysProg de CICS não é saber comando.

É:

ler comportamento
antecipar desastre
agir rápido
e salvar produção sem pânico

👉 Porque no mundo real:

“Uma única task errada… pode derrubar milhares de usuários.”

terça-feira, 28 de julho de 2020

☕🔥 Suporte à Produção Mainframe — engenharia operacional em estado bruto

Bellacosa Mainframe apresenta Suporte a Produção

☕🔥 Suporte à Produção Mainframe — engenharia operacional em estado bruto

Se você já deu CANCEL com o coração na mão, já leu dump em hexadecimal, já decorou mensagem $HASP melhor que CPF, então este texto não é para iniciantes.
Aqui falamos de Produção de verdade. Sem romantização. Sem power-point bonito.

🧠 Suporte à Produção Mainframe ≠ Operação

É engenharia operacional sob carga real.

Produção não é:

Rodar job
Reiniciar STC
Abrir chamado

Produção é:

Análise de impacto
Decisão em ambiente crítico
Entendimento sistêmico do z/OS
Correlação entre eventos aparentemente desconexos

Produção é onde o design encontra a realidade — e geralmente perde.

🕰️ Raiz Histórica (para quem veio do MVS, não do YouTube)

O Suporte à Produção nasce quando:

O batch deixou de ser “linear”
O online passou a ser 24x7
O negócio começou a depender de janela de processamento
O erro deixou de ser aceitável

A evolução foi clara:

Operador de console →
Analista de Produção →
Especialista em estabilidade operacional

Hoje, Produção é a última linha de defesa entre o z/OS e o prejuízo financeiro.

🎯 Objetivo Real do Suporte à Produção (versão sem marketing)

Garantir throughput, não apenas execução
Controlar contenção, não apenas erro
Preservar integridade transacional
Manter SLA, RTO e RPO
Atuar antes do incidente virar crise

☕ Veterano sabe:

Produção não corrige código — corrige efeito colateral.

🧩 Arquitetura de Conhecimento (o que separa júnior de veterano)

🖥️ z/OS — domínio do núcleo

JES2/JES3, initiators, classes, priorities
Spool contention
ENQ/DEQ, RESERVE, latch
WTOR, automation hooks
Dumps SVC vs SYSMDUMP

🔥 Apimentado:
Quem não entende JES não entende produção.

🧠 CICS — transação é sagrada

Task Control
Storage violation
Transaction isolation
Deadlock silencioso
Dumps DSNAP / CEEDUMP

☕ El Jefe truth:

CICS não cai — ele sangra em silêncio.

📬 MQ — quando o assíncrono vira gargalo

Depth x High/Low Threshold
Channels retrying
Poison message
Commit vs rollback
Impacto no batch e no online

🔥 Easter egg:
Fila cheia é sintoma, não causa.

🔌 Integration Bus (Broker)

Flow degradation
Message backlog
XML/JSON parsing cost
CPU vs I/O trade-off
Propagação de erro invisível

☕ Fofoquice técnica:
Quando o Broker falha, todo mundo aponta para o mainframe.

🧪 REXX — automação tática

Monitoramento ativo
Ações condicionais
Coleta de evidência
Resposta automática a eventos
Integração com SDSF, consoles e logs

🔥 Produção sem REXX é operação cega.

🗄️ DB2 Utilities — o campo minado

REORG mal planejado
RUNSTATS atrasado
Lock escalation
Deadlock intermitente
Log pressure

☕ Frase clássica:

“Não mexe agora… deixa rodar.”

🌐 WebSphere / Acesso Remoto

JVM pressure
Thread starvation
Timeout mascarado
Latência invisível
Cascata de falhas

🔥 Curiosidade:
O Web cai rápido. O mainframe aguenta a culpa.

🔍 Funcionamento Real em Produção (sem filtro)

Sintoma aparece longe da causa
Métrica parece normal
SLA corre
Dump gerado
Análise cruzada (JES + CICS + DB2 + MQ)
Decisão com risco calculado
Execução mínima, impacto máximo
Ambiente estabiliza
Post-mortem técnico
Documentação (que ninguém lê… até precisar)

🧠 Mentalidade do Veterano

✔️ Não confia em “achismo”
✔️ Não executa comando sem rollback mental
✔️ Pensa em efeito dominó
✔️ Prefere degradar a parar
✔️ Sabe quando não agir

☕🔥 Regra de ouro:

Em Produção, o comando mais perigoso é o que “sempre funcionou”.

🥚 Easter Eggs de Produção

Todo ambiente tem um job que “ninguém encosta”
Sempre existe um dataset com DISP=SHR que não deveria
Todo incidente grave começa com:

“Isso nunca aconteceu antes…”
O melhor analista é o que não aparece no incidente report

🧨 Conclusão — El Jefe Midnight Lunch Manifesto

Suporte à Produção Mainframe é:

Arquitetura viva
Engenharia sob estresse
Decisão sem margem de erro
Responsabilidade sem aplauso

Não é glamour.
Não é palco.
É confiança operacional.

☕🔥 Se você já sobreviveu a uma madrugada de produção,
você sabe:

Produção não ensina — ela seleciona.

Translate

sexta-feira, 12 de junho de 2026

Blast Radius: Por Que um Pequeno Erro Pode Derrubar um Banco Inteiro

Blast Radius: Por Que um Pequeno Erro Pode Derrubar um Banco Inteiro

Uma das perguntas mais importantes da engenharia moderna

O que significa Blast Radius?

O erro que afeta um cliente

O erro que afeta um banco inteiro

A pergunta que diferencia um programador de um engenheiro

O mito do pequeno erro

O universo COBOL e o poder invisível

O efeito dominó

O conceito de dependências

O exemplo do CPF inválido

O incidente do Nubank como estudo de caso

Blast Radius e ambientes de produção

O perigo dos batches

O erro multiplicado

Como arquitetos pensam

Blast Radius e permissões

Blast Radius e banco de dados

O princípio da contenção

O conceito de células

Mainframe já fazia isso há décadas

O problema do compartilhamento excessivo

O conceito de Blast Radius Humano

O papel dos Guard Rails

Rollout gradual

O medo saudável da produção

Observabilidade e Blast Radius

O custo da reputação

O exercício mental que todo COBOL Jr deveria fazer

A verdadeira maturidade profissional

Conclusão

domingo, 3 de maio de 2026

⚡💣 LAB CICS — MEM CRÍTICO 🚨 “QUANDO A MEMÓRIA ACABA… O CICS PEDE SOCORRO” 🚨

⚡💣 LAB CICS — MEM CRÍTICO

🚨 “QUANDO A MEMÓRIA ACABA… O CICS PEDE SOCORRO” 🚨

🎬 🎯 CENÁRIO

💥 ALERTAS INICIAIS

💣 LOGS (CSMT)

🧠🔥 FASE 1 — DIAGNÓSTICO INICIAL

🔎 Comando:

🔥 Resultado típico:

❓ O que você faz?

✅ RESPOSTA: C

🔍 FASE 2 — INVESTIGAÇÃO DE STORAGE

🔎 Ver tasks:

💡 Padrão clássico:

📊 FASE 3 — IDENTIFICAR VILÃO

🔎 Filtro:

❓ Diagnóstico provável:

✅ RESPOSTA: B

☠️💣 FASE 4 — CONTENÇÃO IMEDIATA

🎯 Objetivo:

💥 Ações:

1. Derrubar tasks críticas:

2. Bloquear transação:

🧬 FASE 5 — SITUAÇÃO PIORA 😈

🚨 FASE 6 — DECISÃO CRÍTICA (NÍVEL SYSPROG)

❓ O que fazer agora?

✅ RESPOSTA IDEAL: C

🌍⚡ FAILOVER COM GDPS

💥 Ação:

🎯 Resultado esperado:

🧯 FASE 7 — ESTABILIZAÇÃO

🔬 FASE 8 — ANÁLISE PROFUNDA

🔎 Ferramentas:

💣 Descoberta:

🔧 FASE 9 — CORREÇÃO DEFINITIVA

📋 Ações:

🧠💡 LIÇÕES DE OURO

🧩😄 EASTER EGGS

🏁 SCORE FINAL

🎯💬 FECHAMENTO

sábado, 2 de maio de 2026

🚨💥 SIMULADOR CICS — “GUERRA EM PRODUÇÃO” 💥🚨

🚨💥 SIMULADOR CICS — “GUERRA EM PRODUÇÃO” 💥🚨

🎮 Modo: Interativo | 🎯 Objetivo: Restaurar o serviço sem causar dano colateral

🎬 CENÁRIO INICIAL