| Bellacosa Mainframe apresenta um checklist de RCA para sysprog junior |
☕🔥💣 CHECKLIST DEFINITIVO DE RCA PARA O SYSprog PADAWAN
Como Evoluir de Apagador de Incêndios para Caçador de Causas Raiz
A maioria dos Sysprogs juniores aprende primeiro a resolver incidentes.
Poucos aprendem a impedir que eles aconteçam novamente.
O objetivo deste checklist é desenvolver a mentalidade de investigação que transforma um operador técnico em um verdadeiro engenheiro de confiabilidade.
🔍 NÍVEL 1 — FUNDAMENTOS DO INVESTIGADOR
Conhecer a arquitetura do ambiente
☐ Entender o fluxo completo da aplicação
☐ Conhecer as LPARs existentes
☐ Entender Sysplex
☐ Conhecer JES2/JES3
☐ Entender CICS
☐ Entender DB2
☐ Entender MQ
☐ Conhecer Storage Management
☐ Entender WLM
☐ Conhecer SDSF profundamente
Objetivo
Parar de enxergar componentes isolados e começar a enxergar o ecossistema.
📋 NÍVEL 2 — COLETA DE EVIDÊNCIAS
Antes de agir:
☐ Registrar horário exato do incidente
☐ Identificar quem reportou
☐ Verificar impacto
☐ Capturar mensagens de erro
☐ Salvar logs
☐ Salvar SYSLOG
☐ Salvar JESMSGLG
☐ Salvar JESJCL
☐ Salvar JESYSMSG
☐ Registrar alterações recentes
☐ Verificar deploys recentes
Regra de ouro
Nunca altere o ambiente antes de coletar evidências.
🔥 NÍVEL 3 — ANÁLISE JES2
☐ Verificar initiators
☐ Verificar classes
☐ Verificar backlog
☐ Verificar spool
☐ Verificar HOLDs
☐ Verificar jobs looping
☐ Verificar jobs aguardando recursos
☐ Verificar ENQ contention
☐ Verificar mensagens $HASP
Pergunta obrigatória
O problema começou no JES2 ou chegou até ele?
💾 NÍVEL 4 — STORAGE E MEMÓRIA
☐ Verificar CSA
☐ Verificar ECSA
☐ Verificar SQA
☐ Verificar ESQA
☐ Verificar Private Area
☐ Procurar storage leaks
☐ Analisar crescimento anormal
☐ Verificar mensagens IEA e IEF
☐ Consultar RMF
Atenção
Muitos "problemas de sistema" são apenas vazamentos de memória.
⚡ NÍVEL 5 — PERFORMANCE
☐ Verificar CPU
☐ Verificar I/O
☐ Verificar Paging
☐ Verificar DASD
☐ Verificar Coupling Facility
☐ Verificar WLM
☐ Verificar gargalos
☐ Comparar com baseline
☐ Analisar tendências
Objetivo
Entender se a degradação é sintoma ou causa.
🖥️ NÍVEL 6 — RCA EM CICS
☐ Verificar transações lentas
☐ Verificar tasks pendentes
☐ Verificar Short On Storage
☐ Verificar TD Queues
☐ Verificar TS Queues
☐ Verificar DB2 Attach
☐ Verificar MQ Attach
☐ Verificar abends
☐ Verificar dumps
☐ Analisar traces
Nunca conclua
"CICS está lento"
sem descobrir:
"POR QUE está lento?"
🗄️ NÍVEL 7 — RCA EM DB2
☐ Verificar deadlocks
☐ Verificar lock escalation
☐ Verificar SQLCODEs
☐ Verificar buffer pools
☐ Verificar índices
☐ Procurar full table scan
☐ Verificar RUNSTATS
☐ Verificar REORG pendente
☐ Verificar crescimento de tabelas
Regra
Muitos problemas de CICS são, na verdade, problemas de DB2.
📬 NÍVEL 8 — RCA EM MQ
☐ Verificar Queue Depth
☐ Verificar canais
☐ Verificar backlog
☐ Verificar consumidores
☐ Verificar produtores
☐ Verificar DLQ
☐ Verificar mensagens presas
☐ Verificar timeouts
Lembre-se
Fila cheia normalmente é consequência.
Raramente é a causa raiz.
📊 NÍVEL 9 — OBSERVABILIDADE
☐ Utilizar OMEGAMON
☐ Utilizar RMF
☐ Utilizar SMF
☐ Utilizar NetView
☐ Utilizar Sysview
☐ Criar dashboards
☐ Definir baseline
☐ Identificar anomalias
☐ Correlacionar eventos
Meta
Parar de reagir.
Começar a prever.
🔎 NÍVEL 10 — TÉCNICAS DE INVESTIGAÇÃO
Five Whys
☐ Aplicar os 5 Porquês
Timeline Analysis
☐ Construir linha do tempo
Event Correlation
☐ Correlacionar eventos
Impact Analysis
☐ Medir impacto real
Trend Analysis
☐ Procurar recorrência
🤖 NÍVEL 11 — AUTOMAÇÃO E PREVENÇÃO
☐ Automatizar alertas
☐ Automatizar coleta de evidências
☐ Automatizar correções simples
☐ Criar scripts REXX
☐ Criar procedimentos de recuperação
☐ Integrar com SA z/OS
☐ Integrar com NetView
☐ Criar runbooks
Objetivo
Não resolver mais rápido.
Resolver menos vezes.
📚 NÍVEL 12 — CONHECIMENTO HISTÓRICO
☐ Manter base de incidentes
☐ Documentar RCA
☐ Criar Wiki interna
☐ Registrar lições aprendidas
☐ Catalogar soluções
☐ Criar biblioteca de dumps
☐ Registrar padrões recorrentes
Ouro do Sysprog
Experiência documentada vale mais que memória.
🧠 NÍVEL 13 — MENTALIDADE DE MESTRE
Antes de qualquer ação pergunte:
☐ O que aconteceu?
☐ Quando aconteceu?
☐ Quem foi impactado?
☐ O que mudou?
☐ Isso já aconteceu antes?
☐ O que os logs mostram?
☐ O que os dados mostram?
☐ Estou tratando sintoma ou causa?
☐ Como impedir recorrência?
☐ O que aprendi hoje?
🏆 CHECKLIST FINAL DO SYSprog MESTRE
Quando um incidente ocorrer:
❌ Não reinicie imediatamente
❌ Não assuma conclusões
❌ Não culpe usuários
❌ Não culpe desenvolvedores
❌ Não culpe infraestrutura
✅ Colete evidências
✅ Analise dados
✅ Correlacione eventos
✅ Pergunte "por quê?"
✅ Encontre a causa raiz
✅ Elimine a recorrência
✅ Documente a descoberta
✅ Compartilhe conhecimento
☕ Regra Suprema do Bellacosa Mainframe
"O Padawan reinicia o CICS.
O Sysprog investiga o dump.
O Mestre encontra a causa raiz.
O Arquiteto faz o problema desaparecer para sempre." 🚀💣🔥