El Jefe Midnight Lunch

✨ Bem-vindo ao meu espaço! ✨ Este blog é o diário de um otaku apaixonado por animes, tecnologia de mainframe e viagens. Cada entrada é uma mistura única: relatos de viagem com fotos, filmes, links, artigos e desenhos, sempre buscando enriquecer a experiência de quem lê. Sou quase um turista profissional: adoro dormir em uma cama diferente, acordar em um lugar novo e registrar tudo com minha câmera sempre à mão. Entre uma viagem e outra, compartilho também reflexões sobre cultura otaku/animes

Mostrar mensagens com a etiqueta sysdump. Mostrar todas as mensagens

segunda-feira, 7 de março de 2022

😈🔥 Lendo um outage cloud como se fosse dump de produção

Conhecimento básico sobre aplicações distribuídas para quem já encarou SYSUDUMP às 03:00

☕ 03:07 — Tudo verde… até não estar mais

No cloud, outage começa assim:

Nada “quebra”
Nada “cai”
Tudo só fica estranho

No mainframe, isso tem nome:

pré-abend

Este artigo é um manual de leitura forense, para analisar um outage cloud com a mesma frieza com que se lê um dump de produção.

1️⃣ Contexto histórico: do SYSUDUMP ao dashboard vermelho 🧬

No z/OS:

Dump é fotografia do crime
O sistema não mente
A causa está lá, escondida

No cloud:

O dump foi dividido em:
- métricas
- logs
- traces

📌 Comentário Bellacosa:
O erro não ficou mais difícil.
Só ficou espalhado.

2️⃣ Regra de ouro: nunca comece pelo erro final 🚫

Erro final no cloud é como:

S0C7 no COBOL
SOC1 sem stack

🔥 Tradução:
É consequência, não causa.

😈 Easter egg:
Quem começa pelo stacktrace termina em teoria.

3️⃣ O “dump cloud”: o que equivale a quê 🗂️

Mainframe	Cloud / Instana	Função
SYSUDUMP	Trace completo	Contexto da execução
SMF	Traces + Metrics	Sequência e consumo
RMF	Métricas	Capacidade e gargalo
JES	Logs correlacionados	Ordem e ambiente
Abend Code	Incident	Sintoma visível
Program	Service	Unidade de falha

📌 Tradução prática:
Você já sabe ler isso. Só mudou o formato.

4️⃣ Passo a passo: leitura de outage como dump 🔍

4.1 — Ache a primeira transação estranha

Mais lenta
Timeout
Erro intermitente

👉 Equivalente ao primeiro campo inválido no dump.

4.2 — Siga o trace como CALL STACK

Quem chamou quem
Em que ordem
Onde parou

😈 Easter egg:
Stack distribuído é CALL TRACE com latência.

4.3 — Correlacione com métricas (RMF feelings) 📊

CPU alta?
GC?
I/O?
Saturação?

🔥 Comentário Bellacosa:
Se está lento, alguém está esperando.

4.4 — Observe dependências externas 🌐

Banco
Fila
API terceira

👉 Equivalente ao dataset indisponível no batch.

4.5 — Ignore o barulho 🧹

Erros cascata
Alertas repetidos
Logs genéricos

📌 Mantra:
O erro mais alto não é o primeiro.

5️⃣ Curiosidades que só mainframer percebe 😈

Cloud falha “educadamente”
Não grita
Não para
Cobra depois

🔥 Comentário ácido:
Falha silenciosa é mais cara que abend.

6️⃣ Erros clássicos de leitura (não caia neles) ⚠️

❌ Confiar no último erro
❌ Olhar só logs
❌ Ignorar latência
❌ Tratar sintoma como causa
❌ Reagir antes de entender

😈 Easter egg:
Reboot é o novo IPL… e o mais preguiçoso.

7️⃣ Guia mental: perguntas de mainframer 🧠

Quando começou?
O que mudou?
Qual transação foi afetada primeiro?
Onde o tempo foi gasto?
Quem depende de quem?
O que aconteceria se isso falhasse antes?

📌 Tradução:
Perguntas que salvam madrugada.

8️⃣ Guia de estudo prático 📚

Conceitos

Observabilidade
Falha parcial
Resiliência
SRE
Dependency management

Exercício

👉 Pegue um incidente real
👉 Monte a linha do tempo
👉 Escreva como se fosse post-mortem de batch

🎯 Aplicações reais dessa leitura

Diagnóstico rápido
Redução de MTTR
Comunicação clara com times cloud
Governança técnica
Auditoria pós-incidente

🖤 Epílogo — 04:01, tudo voltou (por enquanto)

Cloud não é caótica.
Ela só não te dá um dump pronto.

El Jefe Midnight Lunch assina:
“Quando você lê um outage cloud como dump, o pânico vira diagnóstico.”

terça-feira, 28 de julho de 2020

☕🔥 Suporte à Produção Mainframe — engenharia operacional em estado bruto

Bellacosa Mainframe apresenta Suporte a Produção

☕🔥 Suporte à Produção Mainframe — engenharia operacional em estado bruto

Se você já deu CANCEL com o coração na mão, já leu dump em hexadecimal, já decorou mensagem $HASP melhor que CPF, então este texto não é para iniciantes.
Aqui falamos de Produção de verdade. Sem romantização. Sem power-point bonito.

🧠 Suporte à Produção Mainframe ≠ Operação

É engenharia operacional sob carga real.

Produção não é:

Rodar job
Reiniciar STC
Abrir chamado

Produção é:

Análise de impacto
Decisão em ambiente crítico
Entendimento sistêmico do z/OS
Correlação entre eventos aparentemente desconexos

Produção é onde o design encontra a realidade — e geralmente perde.

🕰️ Raiz Histórica (para quem veio do MVS, não do YouTube)

O Suporte à Produção nasce quando:

O batch deixou de ser “linear”
O online passou a ser 24x7
O negócio começou a depender de janela de processamento
O erro deixou de ser aceitável

A evolução foi clara:

Operador de console →
Analista de Produção →
Especialista em estabilidade operacional

Hoje, Produção é a última linha de defesa entre o z/OS e o prejuízo financeiro.

🎯 Objetivo Real do Suporte à Produção (versão sem marketing)

Garantir throughput, não apenas execução
Controlar contenção, não apenas erro
Preservar integridade transacional
Manter SLA, RTO e RPO
Atuar antes do incidente virar crise

☕ Veterano sabe:

Produção não corrige código — corrige efeito colateral.

🧩 Arquitetura de Conhecimento (o que separa júnior de veterano)

🖥️ z/OS — domínio do núcleo

JES2/JES3, initiators, classes, priorities
Spool contention
ENQ/DEQ, RESERVE, latch
WTOR, automation hooks
Dumps SVC vs SYSMDUMP

🔥 Apimentado:
Quem não entende JES não entende produção.

🧠 CICS — transação é sagrada

Task Control
Storage violation
Transaction isolation
Deadlock silencioso
Dumps DSNAP / CEEDUMP

☕ El Jefe truth:

CICS não cai — ele sangra em silêncio.

📬 MQ — quando o assíncrono vira gargalo

Depth x High/Low Threshold
Channels retrying
Poison message
Commit vs rollback
Impacto no batch e no online

🔥 Easter egg:
Fila cheia é sintoma, não causa.

🔌 Integration Bus (Broker)

Flow degradation
Message backlog
XML/JSON parsing cost
CPU vs I/O trade-off
Propagação de erro invisível

☕ Fofoquice técnica:
Quando o Broker falha, todo mundo aponta para o mainframe.

🧪 REXX — automação tática

Monitoramento ativo
Ações condicionais
Coleta de evidência
Resposta automática a eventos
Integração com SDSF, consoles e logs

🔥 Produção sem REXX é operação cega.

🗄️ DB2 Utilities — o campo minado

REORG mal planejado
RUNSTATS atrasado
Lock escalation
Deadlock intermitente
Log pressure

☕ Frase clássica:

“Não mexe agora… deixa rodar.”

🌐 WebSphere / Acesso Remoto

JVM pressure
Thread starvation
Timeout mascarado
Latência invisível
Cascata de falhas

🔥 Curiosidade:
O Web cai rápido. O mainframe aguenta a culpa.

🔍 Funcionamento Real em Produção (sem filtro)

Sintoma aparece longe da causa
Métrica parece normal
SLA corre
Dump gerado
Análise cruzada (JES + CICS + DB2 + MQ)
Decisão com risco calculado
Execução mínima, impacto máximo
Ambiente estabiliza
Post-mortem técnico
Documentação (que ninguém lê… até precisar)

🧠 Mentalidade do Veterano

✔️ Não confia em “achismo”
✔️ Não executa comando sem rollback mental
✔️ Pensa em efeito dominó
✔️ Prefere degradar a parar
✔️ Sabe quando não agir

☕🔥 Regra de ouro:

Em Produção, o comando mais perigoso é o que “sempre funcionou”.

🥚 Easter Eggs de Produção

Todo ambiente tem um job que “ninguém encosta”
Sempre existe um dataset com DISP=SHR que não deveria
Todo incidente grave começa com:

“Isso nunca aconteceu antes…”
O melhor analista é o que não aparece no incidente report

🧨 Conclusão — El Jefe Midnight Lunch Manifesto

Suporte à Produção Mainframe é:

Arquitetura viva
Engenharia sob estresse
Decisão sem margem de erro
Responsabilidade sem aplauso

Não é glamour.
Não é palco.
É confiança operacional.

☕🔥 Se você já sobreviveu a uma madrugada de produção,
você sabe:

Produção não ensina — ela seleciona.

Translate

segunda-feira, 7 de março de 2022

😈🔥 Lendo um outage cloud como se fosse dump de produção

😈🔥 Lendo um outage cloud como se fosse dump de produção

☕ 03:07 — Tudo verde… até não estar mais

1️⃣ Contexto histórico: do SYSUDUMP ao dashboard vermelho 🧬

2️⃣ Regra de ouro: nunca comece pelo erro final 🚫

3️⃣ O “dump cloud”: o que equivale a quê 🗂️

4️⃣ Passo a passo: leitura de outage como dump 🔍

4.1 — Ache a primeira transação estranha

4.2 — Siga o trace como CALL STACK

4.3 — Correlacione com métricas (RMF feelings) 📊

4.4 — Observe dependências externas 🌐

4.5 — Ignore o barulho 🧹

5️⃣ Curiosidades que só mainframer percebe 😈

6️⃣ Erros clássicos de leitura (não caia neles) ⚠️

7️⃣ Guia mental: perguntas de mainframer 🧠

8️⃣ Guia de estudo prático 📚

Conceitos

Exercício

🎯 Aplicações reais dessa leitura

🖤 Epílogo — 04:01, tudo voltou (por enquanto)

terça-feira, 28 de julho de 2020

☕🔥 Suporte à Produção Mainframe — engenharia operacional em estado bruto

☕🔥 Suporte à Produção Mainframe — engenharia operacional em estado bruto

🧠 Suporte à Produção Mainframe ≠ Operação

🕰️ Raiz Histórica (para quem veio do MVS, não do YouTube)

🎯 Objetivo Real do Suporte à Produção (versão sem marketing)

🧩 Arquitetura de Conhecimento (o que separa júnior de veterano)

🖥️ z/OS — domínio do núcleo

🧠 CICS — transação é sagrada

📬 MQ — quando o assíncrono vira gargalo

🔌 Integration Bus (Broker)

🧪 REXX — automação tática

🗄️ DB2 Utilities — o campo minado

🌐 WebSphere / Acesso Remoto

🔍 Funcionamento Real em Produção (sem filtro)

🧠 Mentalidade do Veterano

🥚 Easter Eggs de Produção

🧨 Conclusão — El Jefe Midnight Lunch Manifesto