El Jefe Midnight Lunch

✨ Bem-vindo ao meu espaço! ✨ Este blog é o diário de um otaku apaixonado por animes, tecnologia de mainframe e viagens. Cada entrada é uma mistura única: relatos de viagem com fotos, filmes, links, artigos e desenhos, sempre buscando enriquecer a experiência de quem lê. Sou quase um turista profissional: adoro dormir em uma cama diferente, acordar em um lugar novo e registrar tudo com minha câmera sempre à mão. Entre uma viagem e outra, compartilho também reflexões sobre cultura otaku/animes

Mostrar mensagens com a etiqueta smf. Mostrar todas as mensagens

quinta-feira, 22 de janeiro de 2026

🍔💾 Essential z/OS Performance Tuning Workshop achando os vilões

Bellacosa Mainframe apresenta caçando os vilões em zos performance tuning

🍔💾 Essential z/OS Performance Tuning Workshop achando os vilões

Versão técnica: RMF, SMF e a arte de não tunar errado

O Essential z/OS Performance Tuning Workshop separa, logo de cara, dois tipos de profissionais:

Quem acha que faz performance tuning
Quem sabe onde olhar primeiro

Essa versão é para o segundo grupo — ou para quem quer migrar do 1️⃣ para o 2️⃣ sem trauma.

🎯 Regra zero do workshop

Nunca comece pelo parâmetro. Comece pela observação.

Antes de qualquer ALTER, DEFINE ou SET:

Qual workload?
Qual período?
O que mudou?
Existe baseline?

Sem isso, tuning vira superstição técnica.

🧠 CPU: o falso vilão

Onde olhar no RMF

RMF CPU Activity Report (Postprocessor)

Campos clássicos:

% Busy
% LPAR Utilization
% Logical Processor Dispatch
% IFA / zIIP / zAAP (quando aplicável)

Interpretação que o workshop ensina

CPU alta com response time estável → sistema saudável
CPU média com response time degradando → gargalo fora da CPU
CPU baixa + atraso → WLM ou I/O

📌 Easter egg técnico:
Se o LPAR Delay cresce, não é falta de tuning — é falta de peso ou política errada.

⚙️ WLM: tuning começa aqui, não no SYS1.PARMLIB

RMF Workload Activity Report

Campos críticos:

Service Class Period
Velocity
Average Response Time
Delay Reasons

Exemplo típico visto no workshop:


Service Class: ONLINE_HI
Velocity Goal: 50
Achieved Velocity: 12
Delay: I/O 65%, Enqueue 20%

👉 Conclusão correta:

Não adianta subir prioridade
Não adianta mexer em CPU
O gargalo não é WLM, é dependência externa

💡 Lição central:

WLM não resolve gargalo físico. Ele apenas escolhe quem sofre primeiro.

📊 RMF Monitor III: o “agora dói aqui”

Uso correto (e erro comum)

Monitor III serve para:

Incidente ativo
Observação em tempo real
Confirmação de suspeita

Não serve para:

Análise histórica
Decisão estrutural
Justificativa pós-morte

Campos típicos:

Address Space Delay
Device Response Time
Enqueue Waits

📌 Erro clássico:
Usar Monitor III como prova definitiva em reunião de causa raiz.

🗃️ SMF: onde a discussão acaba

SMF 30 – Address Space Accounting

Usado para responder:

Quem consumiu CPU?
Quanto?
Em qual período?

Exemplo prático:


SMF30:
CPU Time: baixo
Elapsed Time: alto

👉 Indício claro:

Espera externa
I/O
Lock
Dependência de outro job

SMF 70 / 72 – CPU e WLM

SMF 72 é o coração do tuning orientado a SLA.

Campos essenciais:

Service Class Performance Index
Delay Breakdown
Period Transitions

📌 Easter egg de workshop:
Performance Index < 1.0 não é vitória se o response time continua ruim.

SMF 74 – I/O e Storage

Onde muitos problemas se revelam.

Campos observados:

Device Response Time
Pending Time
Channel Utilization

Exemplo clássico:

CPU “sobrando”
Response time alto
3390 com Pending elevado

👉 Solução raramente é tuning de parâmetro.
Normalmente é layout, cache, storage tier ou concorrência mal planejada.

⚠️ Casos clássicos discutidos no workshop

🔥 “O batch atrasou tudo”

RMF mostra:

Batch em baixa prioridade
Online atrasando

SMF revela:

Batch segurando enqueue crítico
Online esperando lock

👉 Ajuste correto:

Revisar serialização
Reavaliar janela batch
Não subir prioridade às cegas

🔥 “Depois da mudança ficou lento”

Primeira pergunta ensinada no workshop:

Qual foi o último change?

Sem resposta clara:

tuning suspenso
investigação começa

📌 Lição dura:

Performance tuning não corrige change mal feito.
Ele só mascara — até piorar.

🚀 O que o workshop realmente forma

Não forma “tuner de parâmetro”.
Forma analista de comportamento do sistema.

Quem sai sabendo:

Correlacionar RMF + SMF
Defender decisão com dados
Evitar tuning destrutivo
Criar baseline útil

No CPD, isso vira reputação.

🧠 Frase final

“RMF mostra o sintoma.
SMF mostra a causa.
WLM executa a decisão — certa ou errada.”

O Essential z/OS Performance Tuning Workshop não ensina atalhos.
Ensina responsabilidade técnica em ambiente onde erro custa caro.

quarta-feira, 21 de janeiro de 2026

🍔💾 Essential z/OS Performance Tuning Workshop

Bellacosa Mainframe e o grande desafio de tunar um mainframe Zos com software legado

🍔💾 Essential z/OS Performance Tuning Workshop

Quando performance deixa de ser fé e vira engenharia

No mundo distribuído, performance costuma ser tratada como magia:
“sobe mais recurso”, “escala automático”, “reinicia o serviço”.

No mainframe, isso nunca existiu.

Aqui, performance sempre foi disciplina, observação e responsabilidade.
E é exatamente isso que o Essential z/OS Performance Tuning Workshop carrega no DNA.

Não é um curso para “deixar tudo rápido”.
É um treinamento para não fazer besteira em produção.

🧠 Um workshop que nasceu da dor (e do custo de CPU)

Quando o z/OS ainda se chamava MVS, cada ciclo de CPU custava dinheiro real.
Não existia elasticidade, nem desculpa técnica.

Se o sistema ficava lento, alguém tinha que explicar:

por quê
onde
quem causou
como evitar de novo

O Essential z/OS Performance Tuning Workshop surge dessa escola:
a escola em que medir vem antes de mexer, e mexer sem entender é pecado mortal.

🎯 O que o workshop realmente ensina (sem PowerPoint bonito)

👉 Performance não é velocidade

Performance é cumprir SLA de forma previsível.

O workshop deixa isso claro logo cedo:

CPU a 90% não é problema, se o response time está estável
Sistema “folgado” pode estar mal configurado
Pico não é tendência

Aqui, aprende-se a ler o sistema como um organismo, não como um gráfico isolado.

⚙️ Os pilares do workshop (onde a verdade mora)

🧩 WLM – Workload Manager

O verdadeiro cérebro do z/OS.

No workshop, cai a ficha:

WLM não é tuning técnico. É política de negócio codificada.

Service Class errada = prioridade errada
Prioridade errada = usuário certo reclamando
Ajuste sem alinhamento = guerra interna

📌 Easter egg clássico:
O WLM sempre faz exatamente o que você mandou.
O problema é quando você mandou errado.

📊 RMF – onde a mentira não sobrevive

RMF é tratado como deve ser:

Monitor III → o agora
Monitor II → o culpado
Postprocessor → a história que não pode ser reescrita

O workshop ensina algo raro hoje em dia:

Contexto importa mais que screenshot.

Um gráfico sem horário, workload e mudança recente é só arte abstrata.

🗃️ SMF – a caixa-preta do sistema

Aqui o tuning vira investigação.

SMF:

Não opina
Não sugere
Não perdoa

Quem aprende a ler SMF sai do workshop com um superpoder:
parar discussões baseadas em achismo.

⚠️ Desafios reais abordados (aqueles que ninguém gosta de admitir)

🔥 “Todo mundo é crítico”

Ambiente compartilhado, dezenas de sistemas, todos “prioridade máxima”.

O workshop ensina a separar:

workload crítico
workload importante
workload barulhento

💡 Easter egg corporativo:
O sistema mais crítico quase nunca é o que mais grita.

🔥 Falta de baseline

Sem baseline:

não existe “piorou”
só existe “sensação”

Frase implícita do workshop:

Tuning sem baseline é tuning religioso.

🔥 A pressão do “só ajusta rapidinho”

Nada gera mais legado tóxico do que tuning feito:

em incidente
sem análise
para agradar gestor

O workshop ensina algo valioso:

Saber dizer NÃO, com métrica na mão.

🚀 O que muda depois do workshop

Quem passa por esse treinamento:

Para de tunar por instinto
Começa a observar antes de agir
Aprende a prever gargalos
Ganha respeito em incidente sério

No mercado, isso tem um efeito curioso:

Profissional que entende performance em z/OS não fica sem emprego.
Fica sem tempo.

🕹️ Easter eggs nível CPD

CPU alta pode ser sinal de sistema saudável
O melhor tuning, às vezes, é não mexer
Se o sistema só é lento em horário comercial, o problema raramente é técnico
Performance tuning é 70% política e 30% tecnologia

🧠 Conclusão – a frase que devia estar na parede do CPD

“z/OS não é lento.
Lento é quem não entende o que está medindo.”

O Essential z/OS Performance Tuning Workshop não ensina truques.
Ensina responsabilidade técnica.

E isso, em qualquer geração de tecnologia, continua raro.

terça-feira, 16 de janeiro de 2024

🔥 IBM 3592 JF – O cartucho que carrega impérios de dados

🧠 Introdução – quando o dado dorme em fita, mas sonha em petabytes

Se você acha que fita magnética é coisa de museu, é porque nunca encarou um IBM 3592 JF rodando em um TS1140/TS1150 dentro de um data center que parece mais uma nave espacial do que uma sala fria.
O 3592 JF não é “backup”. Ele é arquivo corporativo, retenção legal, seguro contra ransomware e, em muitos bancos, a última linha de defesa da civilização digital.

Bem-vindo ao mundo onde dados não são deletados — são arquivados com honra.

📜 História – da fita de rolo ao JF

A linhagem do IBM 3592 nasce no início dos anos 2000 como sucessor espiritual das 3490/3480.
O sufixo JF marca uma geração madura, refinada, feita para:

Ambientes z/OS heavy-duty
Integração com DFSMS/HSM
Coexistência com VTS, TS7700 e GDPS

📼 O JF é o tipo de mídia que sobrevive a mudanças de diretoria, ERPs, fusões e três modas de cloud.

🧱 Arquitetura do cartucho IBM 3592 JF

Características físicas e lógicas:

📏 Formato proprietário IBM (não confundir com LTO)
💾 Capacidade nativa: ~700 GB
🗜️ Capacidade com compressão: até ~2–3 TB (dependendo do workload)
🔐 Suporte a criptografia por hardware
🧬 Servo tracking de altíssima precisão

💡 Easter egg: a densidade da fita é tão alta que um cartucho mal acondicionado “grita” no log do drive antes mesmo de falhar.

🏗️ Onde ele vive no mundo real

Normalmente você encontra o 3592 JF em:

🗄️ IBM TS3500 / TS4500 Tape Library
🧠 TS7700 (Virtual Tape Server) como mídia física de backend
🧾 Ambientes regulados: bancos, seguradoras, governos

Ele conversa intimamente com:

z/OS DFSMS
HSM (Hierarchical Storage Manager)
DFSMShsm Migration / Recall

🔄 Workflow clássico no mainframe

📌 Passo a passo “vida de fita”

Dataset criado (PS ou GDG)
Política de SMS decide: disk hoje, fita amanhã
HSM migra o dataset para fita
Catalog aponta para volume JF
Recall on-demand traz o dado de volta
Dataset volta ao disco como se nada tivesse acontecido

🧙‍♂️ Magia negra mainframe: a aplicação nunca sabe que o dado dormiu em fita.

📊 Logs, SMF e rastros

O 3592 JF deixa pegadas elegantes:

SMF 14/15 – uso de fita
SMF 42 – atividades de DFSMS
SMF 94 – criptografia
Logs do TS7700 (se virtualizado)

📎 Dica Bellacosa: fita não mente. Se algo sumiu, o SMF sabe onde foi parar.

🧩 Curiosidades que só quem viveu sabe

☕ Drives 3592 “acordam” antes do operador terminar o café
🔁 Uma fita JF pode sobreviver 30 anos se bem armazenada
🧯 Ransomware odeia fita — ela não monta sozinha
🎩 Cartucho com label mal escrito vira lenda urbana no CPD

🛠️ Dicas práticas de sobrevivência

✔️ Padronize nomenclatura de volumes
✔️ Nunca misture JF com JE/JB sem planejamento
✔️ Use criptografia nativa, não “caseira”
✔️ Monitore recalls excessivos (sinal de má política de HSM)
✔️ Tape não é lenta — lento é acesso mal desenhado

📚 Guia de estudo para mainframers

📖 Leia e domine:

DFSMS Storage Administration
DFSMShsm Implementation
IBM TS11xx Drive Redbooks
SMF 14/15 deep dive

🧠 Exercício clássico:

Simule migração, expiração, recall e auditoria de um dataset crítico sem que a aplicação perceba.

🧪 Aplicações reais do IBM 3592 JF

📜 Retenção legal (7–30 anos)
🏦 Histórico financeiro imutável
🧬 Dados médicos arquivados
🛰️ DR offline (air gap real)
📦 Data lake pré-cloud que ainda funciona

🧨 Comentário final – El Jefe Style

Enquanto o mundo discute se “cloud é o futuro”, o IBM 3592 JF continua fazendo o que sempre fez:
guardar o passado para proteger o futuro.

No mainframe, fita não é legado.
É estratégia.

🔥 Midnight Lunch aprovado. A fita gira, o dado dorme, o mainframer sorri.

sexta-feira, 7 de janeiro de 2022

🧠🔥 Mapa comparativo manual: Mainframe ↔ Instana Observability

Analogias diretas para quem já leu SMF em hexadecimal e agora vê JSON piscando

☕ 02:41 — Quando o APM tenta explicar o que o SMF já sabia

Todo mainframer que olha para uma ferramenta de observabilidade moderna (Instana, por exemplo) tem a mesma sensação:

“Isso aqui… eu já vi antes.”

E viu mesmo.
A diferença é que agora:

o dump é distribuído
o JES virou dashboard
o operador virou SRE
e o problema continua sendo tempo, estado e falha

Este artigo é um mapa mental de tradução, para tornar aplicações distribuídas palpáveis para quem vem do z/OS.

🗺️ O mapa comparativo essencial (guarde isso)

Mundo Mainframe	Instana / Observabilidade	Tradução Bellacosa
SMF	Distributed Traces	Registro detalhado do que aconteceu, quando e por onde passou
RMF	Métricas (CPU, memória, latência)	Capacidade, consumo e gargalos
JES / Spool	Logs correlacionados	O que foi executado, em que ordem e com qual resultado
CICS Transaction	Service / Endpoint	Unidade lógica de trabalho
Program / Module	Microservice	Código executável com responsabilidade específica
Abend	Incident	Falha detectável que exige ação
Return Code	Error Rate / Status Code	Sucesso ou falha mensurável
Job Chain	Service Dependency Map	Ordem e dependência entre execuções
Operador	SRE / On-call	Quem sofre primeiro
Console z/OS	Dashboard em tempo real	O painel que ninguém olha até dar problema

😈 Easter egg:
Se você entende RMF, já entende 80% de qualquer APM.

1️⃣ História curta: do SMF ao Trace distribuído 🕰️

No mainframe:

O sistema sempre foi observável
Só exigia estudo, paciência e café

No mundo distribuído:

A observabilidade precisou ser reinventada
Porque ninguém mais sabia onde o código rodava

📌 Comentário Bellacosa:
Observabilidade não nasceu na cloud.
Ela foi redescoberta.

2️⃣ SMF ↔ Traces: a analogia mais poderosa 🔍

SMF

Sequência precisa
Contexto
Correlação temporal

Trace distribuído

Request entra
Passa por N serviços
Sai (ou morre no caminho)

🔥 Tradução direta:
Um trace é um SMF espalhado pela rede, costurado em tempo real.

3️⃣ RMF ↔ Métricas: capacidade nunca saiu de moda 📊

RMF

CPU
I/O
Memory
Throughput

Instana Metrics

CPU
Memory
Latência
Saturação

😈 Curiosidade:
A diferença não é o conceito.
É que agora todo mundo descobriu que capacidade importa.

4️⃣ Job chain ↔ Dependency Graph 🧩

No batch:

JOB A → JOB B → JOB C
Quebrou A, nada anda

No distribuído:

Serviço A → Serviço B → Serviço C
Quebrou B, metade do sistema “funciona”

📌 Comentário ácido:
Falha parcial é batch quebrado com marketing.

5️⃣ Console ↔ Dashboard: o mesmo vício 👀

Console ignorado = desastre
Dashboard ignorado = post-mortem

🔥 Regra eterna:
O problema não é a ferramenta.
É quem só olha quando dói.

6️⃣ Passo a passo mental para o mainframer entender Instana 🧭

1️⃣ Pense em transação, não em tela
2️⃣ Pense em fluxo, não em serviço isolado
3️⃣ Pense em capacidade, não em “escala infinita”
4️⃣ Pense em falha como estado normal
5️⃣ Pense em correlação, não em log solto

📌 Mantra Bellacosa:
Sem correlação, não há diagnóstico.

7️⃣ Curiosidades que só mainframer percebe 😈

Observabilidade virou buzzword
Mas sempre foi obrigação
Logs sem contexto são JES sem DD
Alert sem ação é operador sem autoridade

📚 Guia de estudo recomendado (sem hype)

Conceitos

Observabilidade (metrics, logs, traces)
Resiliência
SRE
Arquitetura distribuída
Event-driven

Exercício prático

👉 Pegue um trace no Instana
👉 Leia como se fosse um SMF
👉 Pergunte: onde começou a dar errado?

🎯 Aplicações práticas desse mapa

Integração mainframe ↔ cloud
Modernização segura
Diagnóstico de incidentes
Treinamento de times híbridos
Arquitetura corporativa

🖤 Epílogo — 03:33, o gráfico faz sentido

Quando o mainframer entende observabilidade moderna, algo muda:

Ele para de perguntar

“O que é isso?”

E começa a afirmar:

“Ah… então foi aqui que deu ruim.”

El Jefe Midnight Lunch assina:
“Instana não inventou observabilidade. Só colocou UI no que o mainframe sempre soube fazer.”

quinta-feira, 22 de fevereiro de 2018

😈🔥 Lendo SMF do MQ como se fosse trace distribuído

Conhecimento básico sobre aplicações distribuídas para quem já confiou mais no SMF do que em qualquer dashboard

☕ 02:48 — Quando a fila cresce e ninguém sabe “quem começou”

No mundo cloud, alguém pergunta:

“Qual serviço está causando o problema?”

No mundo mainframe, a pergunta sempre foi melhor:

“Qual transação chegou primeiro?”

Este artigo é sobre ler SMF do IBM MQ for z/OS com a mesma lógica usada para distributed tracing moderno — só que com décadas a mais de maturidade.

1️⃣ Contexto histórico: antes do trace existir, o SMF já contava a história 🧬

Distributed tracing surgiu porque:

sistemas ficaram espalhados
ninguém sabia por onde o request passava

No z/OS:

tudo sempre passou por um lugar auditável
o SMF virou a linha do tempo oficial

📌 Comentário Bellacosa:
Trace é novidade.
Linha do tempo sempre foi obrigação.

2️⃣ O que é um trace distribuído, afinal? 🧩

Trace distribuído:

segue um request
de serviço em serviço
até o resultado (ou falha)

SMF do MQ faz o mesmo:

PUT
fila
GET
consumo
impacto em recursos

🔥 Tradução direta:
Cada mensagem no MQ é um request distribuído encapsulado.

3️⃣ Mapa mental: SMF do MQ ↔ Trace moderno 🗺️

SMF MQ (z/OS)	Trace distribuído	Significado
PUT MESSAGE	Span inicial	Entrada do request
Queue Name	Service name	Destino lógico
GET MESSAGE	Span consumidor	Processamento
Queue Depth	Lag	Acúmulo de trabalho
Elapsed Time	Latência	Tempo fim a fim
CPU / I/O	Resource usage	Custo do request
Aplicação	Service ID	Responsável

😈 Easter egg:
Fila crescendo é trace parado no meio do caminho.

4️⃣ Lendo SMF como linha do tempo (não como relatório) ⏱️

Erro comum:

olhar SMF como estatística fria

Leitura correta:

montar sequência temporal
entender causa → efeito

📌 Comentário Bellacosa:
Trace não é gráfico bonito.
É história cronológica.

5️⃣ Passo a passo: leitura estilo “trace distribuído” 🔍

5.1 — Identifique o PUT inicial

Quem publicou?
Em que horário?
Com qual volume?

👉 Equivalente ao primeiro span do trace.

5.2 — Observe a evolução da fila

Crescimento constante?
Explosão pontual?

😈 Easter egg:
Fila crescendo devagar é mais perigosa que pico.

5.3 — Analise o GET

Está acontecendo?
Está atrasado?
Está mais lento?

📌 Tradução:
Consumidor virou gargalo.

5.4 — Correlacione com recursos (RMF mode) 📊

CPU alta?
I/O saturado?
Espera?

🔥 Comentário Bellacosa:
Mensagem não some. Ela espera.

5.5 — Ache o primeiro desvio

Antes do alerta
Antes da reclamação
Antes do incidente

👉 Esse é o root cause real.

6️⃣ Curiosidades que só mainframer percebe 😈

MQ nunca mente
Ele só acumula evidência
SMF sempre esteve certo
O erro humano vem depois

📌 Comentário ácido:
Alertas gritam. SMF sussurra — e acerta.

7️⃣ Erros clássicos ao analisar MQ ⚠️

❌ Aumentar depth máximo
❌ Ajustar buffers sem análise
❌ Culpar o MQ
❌ Ignorar correlação temporal

🔥 Regra imortal:
Fila cheia é consequência, não diagnóstico.

8️⃣ Guia de estudo prático 📚

Conceitos

Mensageria confiável
Backpressure
Throughput vs Latência
Observabilidade
Root cause analysis

Exercício Bellacosa

👉 Pegue um relatório SMF do MQ
👉 Monte uma timeline manual
👉 Marque onde o fluxo parou

🎯 Aplicações práticas desse entendimento

Integração mainframe-cloud
Sistemas event-driven críticos
Análise de gargalos
Prevenção de incidentes
Auditoria e compliance

🔥 Comentário final:
Quem entende SMF do MQ já entende tracing distribuído — só não chamava assim.

🖤 Epílogo — 03:19, filas sob controle

Enquanto o mundo descobre tracing,
o mainframe segue entregando história completa, com provas.

El Jefe Midnight Lunch assina:
“Mensagem não mente. E SMF nunca esquece.”

sexta-feira, 19 de janeiro de 2018

💡 Mid-Week Tech Insight | IBM MQ for z/OS & SMF Data

Mensageria crítica explicada para quem já confia mais no SMF do que em dashboard bonito

☕ 02:22 — Quando a fila começa a crescer em silêncio

Todo mainframer já viveu esse momento:
o sistema “está no ar”, ninguém reclamou…
mas o depth da fila começa a subir.

No mundo distribuído isso vira pânico tardio.
No z/OS, isso vira SMF bem lido.

Este artigo é sobre IBM MQ for z/OS + SMF como fundação real de aplicações distribuídas críticas — sem hype, sem romantização.

1️⃣ Um pouco de história: quando mensageria virou espinha dorsal 🧬

Antes de “event-driven” virar buzzword:

MQ já desacoplava sistemas
Garantia entrega
Preservava ordem
Sobrevivia a falhas

📌 Comentário Bellacosa:
MQ não nasceu para “escala web”.
Nasceu para não perder mensagem.

2️⃣ Por que SMF é a alma do MQ no z/OS 🧠

No z/OS:

Nada sério existe sem SMF
Performance sem SMF é palpite

No MQ:

SMF mostra o que realmente aconteceu
Não o que alguém acha que aconteceu

🔥 Tradução direta:
SMF é o trace definitivo do MQ.

3️⃣ O que o SMF revela sobre o MQ (e ninguém vê) 🔍

Com SMF você enxerga:

Volume de mensagens
Taxa de PUT / GET
Uso de CPU e I/O
Esperas
Gargalos por fila ou aplicação

😈 Easter egg:
Quem analisa SMF sabe que fila cheia não é causa — é sintoma.

4️⃣ MQ no mundo distribuído: o elo invisível 🌍

Aplicações modernas:

Microservices
Eventos
APIs

Mas no core:

MQ continua segurando o mundo

📌 Comentário ácido:
Kafka fala alto.
MQ entrega calado.

5️⃣ Passo a passo mental: analisando MQ via SMF 🧭

1️⃣ Observe o crescimento da fila
2️⃣ Correlacione com horário e carga
3️⃣ Analise PUT vs GET
4️⃣ Verifique latência e espera
5️⃣ Avalie consumo de CPU
6️⃣ Identifique aplicação causadora
7️⃣ Só então ajuste parâmetros

🔥 Regra de ouro:
Nunca aumente buffer antes de entender o gargalo.

6️⃣ SMF vs Observabilidade moderna (o encontro dos mundos) 📊

Mainframe	Mundo distribuído
SMF MQ	Traces de mensageria
RMF	Métricas de throughput
Queue Depth	Lag de consumidor
PUT/GET	Producer / Consumer
Abend	Incident

😈 Curiosidade:
O que hoje chamam de “lag” você sempre chamou de fila crescendo.

7️⃣ Erros comuns (e caros) ⚠️

❌ Ignorar SMF e confiar só em alertas
❌ Tratar MQ como “infra”
❌ Ajustar parâmetros sem evidência
❌ Não correlacionar com carga real

📌 Comentário Bellacosa:
Mensageria sem visibilidade vira buraco negro.

8️⃣ Guia de estudo prático 📚

Conceitos

Mensageria confiável
Desacoplamento real
Backpressure
Observabilidade
Capacidade

Exercício

👉 Pegue dados SMF do MQ
👉 Monte uma linha do tempo
👉 Relacione com batch, online e APIs

🎯 Aplicações reais no mundo enterprise

Core bancário
Integração mainframe-cloud
Sistemas regulados
Alta disponibilidade
Processamento assíncrono crítico

🔥 Comentário final:
Sem MQ, o distribuído cai.
Sem SMF, ninguém sabe por quê.

🖤 Epílogo — 03:05, filas sob controle

Enquanto alguns discutem se mensageria é “moderna”,
o MQ segue processando bilhões de mensagens… com SMF contando a verdade.

El Jefe Midnight Lunch assina:
“Mensagens podem esperar. Diagnóstico não.”

segunda-feira, 2 de julho de 2012

🧠 “SMF como fonte de verdade para observabilidade corporativa”

Porque antes de existir observability platform, já existia evidência

☕ 01:38 — Quando o gráfico mente, mas o SMF não

Todo mainframer aprende cedo uma verdade incômoda:
logs contam histórias, métricas sugerem hipóteses, mas o SMF registra fatos.

Enquanto o mundo distribuído ainda debate o que é single source of truth,
o z/OS já resolveu isso há décadas — e deu o nome de System Management Facility.

🧬 Um pouco de história (quando observabilidade não tinha marketing)

O SMF nasceu para:

auditoria
cobrança
capacidade
performance
rastreabilidade

Não para “monitorar bonito”,
mas para provar o que aconteceu.

📌 Comentário Bellacosa:
SMF nunca foi sexy. Foi confiável. E isso envelhece melhor.

🔍 O que o SMF realmente é (traduzindo para cloudês)

No mundo moderno:

Logs
Metrics
Traces

No z/OS:

Tudo isso… em um formato só
Com timestamp confiável
Com contexto de sistema
Com impacto mensurável

🔥 Tradução direta:
SMF é observabilidade com evidência jurídica.

🧠 SMF como “fonte de verdade”

Por que o SMF é a source of truth?

✔️ É gerado pelo sistema operacional
✔️ Não depende da aplicação “colaborar”
✔️ Não perde evento por backpressure
✔️ Não é amostrado
✔️ Não é opinativo

😈 Easter egg:
Se o SMF não viu, provavelmente não aconteceu.

📊 Comparação honesta: SMF x Observabilidade moderna

Observabilidade moderna	SMF
Métricas amostradas	Dados completos
Traces instrumentados	Evidência sistêmica
Logs verbosos	Registros estruturados
Dashboards	Capacidade histórica
Alertas	Diagnóstico pós-morte

📌 Comentário ácido:
Dashboard serve para avisar.
SMF serve para explicar.

🧭 Passo a passo mental: usando SMF como observabilidade

1️⃣ Coleta contínua (SMF ativo é pré-requisito)
2️⃣ Classificação por tipo (CPU, I/O, CICS, DB2, MQ…)
3️⃣ Correlação temporal
4️⃣ Análise de impacto real
5️⃣ Conclusão baseada em dado, não sensação

🔥 Regra de ouro:
Sem correlação, métrica vira superstição.

🧩 SMF e aplicações distribuídas (onde os mundos se encontram)

Hoje, arquiteturas são:

híbridas
distribuídas
event-driven

O SMF entra como:

referência de carga real
baseline de comportamento
âncora de verdade

📌 Exemplo prático:
Quando a API “fica lenta”, o SMF diz:

se foi CPU
se foi I/O
se foi concorrência
ou se foi culpa de quem chamou demais

📚 Guia de estudo para o mainframer moderno

Conceitos essenciais

Observabilidade ≠ Monitoramento
Correlação ≠ Alerta
Evidência ≠ Opinião
Capacidade ≠ Pico momentâneo

Exercício recomendado

👉 Pegue um incidente passado
👉 Releia só o SMF
👉 Ignore dashboards
👉 Reescreva a RCA

O resultado costuma ser… desconfortável — e correto.

🎯 Aplicações reais no mundo corporativo

Auditoria e compliance
Capacity planning sério
SRE corporativo
Integração com AIOps
Base para observabilidade híbrida

🔥 Comentário Bellacosa:
Todo AIOps sério começa com dado confiável.
E dado confiável tem sobrenome: SMF.

🖤 Epílogo — 03:27, incidente encerrado

Quando o ruído some,
quando o gráfico contradiz o discurso,
quando a RCA precisa sobreviver a auditoria…

é o SMF que fica.

El Jefe Midnight Lunch assina:
“Observabilidade é saber. SMF é provar.”