Mostrar mensagens com a etiqueta smf. Mostrar todas as mensagens
Mostrar mensagens com a etiqueta smf. Mostrar todas as mensagens

quinta-feira, 22 de janeiro de 2026

🍔💾 Essential z/OS Performance Tuning Workshop achando os vilões

 

Bellacosa Mainframe apresenta caçando os vilões em zos performance tuning

🍔💾 Essential z/OS Performance Tuning Workshop achando os vilões

Versão técnica: RMF, SMF e a arte de não tunar errado

O Essential z/OS Performance Tuning Workshop separa, logo de cara, dois tipos de profissionais:

  1. Quem acha que faz performance tuning

  2. Quem sabe onde olhar primeiro

Essa versão é para o segundo grupo — ou para quem quer migrar do 1️⃣ para o 2️⃣ sem trauma.


🎯 Regra zero do workshop

Nunca comece pelo parâmetro. Comece pela observação.

Antes de qualquer ALTER, DEFINE ou SET:

  • Qual workload?

  • Qual período?

  • O que mudou?

  • Existe baseline?

Sem isso, tuning vira superstição técnica.


🧠 CPU: o falso vilão

Onde olhar no RMF

RMF CPU Activity Report (Postprocessor)

Campos clássicos:

  • % Busy

  • % LPAR Utilization

  • % Logical Processor Dispatch

  • % IFA / zIIP / zAAP (quando aplicável)

Interpretação que o workshop ensina

  • CPU alta com response time estável → sistema saudável

  • CPU média com response time degradando → gargalo fora da CPU

  • CPU baixa + atraso → WLM ou I/O

📌 Easter egg técnico:
Se o LPAR Delay cresce, não é falta de tuning — é falta de peso ou política errada.


⚙️ WLM: tuning começa aqui, não no SYS1.PARMLIB

RMF Workload Activity Report

Campos críticos:

  • Service Class Period

  • Velocity

  • Average Response Time

  • Delay Reasons

Exemplo típico visto no workshop:

Service Class: ONLINE_HI Velocity Goal: 50 Achieved Velocity: 12 Delay: I/O 65%, Enqueue 20%

👉 Conclusão correta:

  • Não adianta subir prioridade

  • Não adianta mexer em CPU

  • O gargalo não é WLM, é dependência externa

💡 Lição central:

WLM não resolve gargalo físico. Ele apenas escolhe quem sofre primeiro.


📊 RMF Monitor III: o “agora dói aqui”

Uso correto (e erro comum)

Monitor III serve para:

  • Incidente ativo

  • Observação em tempo real

  • Confirmação de suspeita

Não serve para:

  • Análise histórica

  • Decisão estrutural

  • Justificativa pós-morte

Campos típicos:

  • Address Space Delay

  • Device Response Time

  • Enqueue Waits

📌 Erro clássico:
Usar Monitor III como prova definitiva em reunião de causa raiz.


🗃️ SMF: onde a discussão acaba

SMF 30 – Address Space Accounting

Usado para responder:

  • Quem consumiu CPU?

  • Quanto?

  • Em qual período?

Exemplo prático:

SMF30: CPU Time: baixo Elapsed Time: alto

👉 Indício claro:

  • Espera externa

  • I/O

  • Lock

  • Dependência de outro job


SMF 70 / 72 – CPU e WLM

SMF 72 é o coração do tuning orientado a SLA.

Campos essenciais:

  • Service Class Performance Index

  • Delay Breakdown

  • Period Transitions

📌 Easter egg de workshop:
Performance Index < 1.0 não é vitória se o response time continua ruim.


SMF 74 – I/O e Storage

Onde muitos problemas se revelam.

Campos observados:

  • Device Response Time

  • Pending Time

  • Channel Utilization

Exemplo clássico:

  • CPU “sobrando”

  • Response time alto

  • 3390 com Pending elevado

👉 Solução raramente é tuning de parâmetro.
Normalmente é layout, cache, storage tier ou concorrência mal planejada.


⚠️ Casos clássicos discutidos no workshop

🔥 “O batch atrasou tudo”

RMF mostra:

  • Batch em baixa prioridade

  • Online atrasando

SMF revela:

  • Batch segurando enqueue crítico

  • Online esperando lock

👉 Ajuste correto:

  • Revisar serialização

  • Reavaliar janela batch

  • Não subir prioridade às cegas


🔥 “Depois da mudança ficou lento”

Primeira pergunta ensinada no workshop:

Qual foi o último change?

Sem resposta clara:

  • tuning suspenso

  • investigação começa

📌 Lição dura:

Performance tuning não corrige change mal feito.
Ele só mascara — até piorar.


🚀 O que o workshop realmente forma

Não forma “tuner de parâmetro”.
Forma analista de comportamento do sistema.

Quem sai sabendo:

  • Correlacionar RMF + SMF

  • Defender decisão com dados

  • Evitar tuning destrutivo

  • Criar baseline útil

No CPD, isso vira reputação.


🧠 Frase final  

“RMF mostra o sintoma.
SMF mostra a causa.
WLM executa a decisão — certa ou errada.”

O Essential z/OS Performance Tuning Workshop não ensina atalhos.
Ensina responsabilidade técnica em ambiente onde erro custa caro.


quarta-feira, 21 de janeiro de 2026

🍔💾 Essential z/OS Performance Tuning Workshop

 

Bellacosa Mainframe e o grande desafio de tunar um mainframe Zos com software legado

🍔💾 Essential z/OS Performance Tuning Workshop

Quando performance deixa de ser fé e vira engenharia

No mundo distribuído, performance costuma ser tratada como magia:
“sobe mais recurso”, “escala automático”, “reinicia o serviço”.

No mainframe, isso nunca existiu.

Aqui, performance sempre foi disciplina, observação e responsabilidade.
E é exatamente isso que o Essential z/OS Performance Tuning Workshop carrega no DNA.

Não é um curso para “deixar tudo rápido”.
É um treinamento para não fazer besteira em produção.


🧠 Um workshop que nasceu da dor (e do custo de CPU)

Quando o z/OS ainda se chamava MVS, cada ciclo de CPU custava dinheiro real.
Não existia elasticidade, nem desculpa técnica.

Se o sistema ficava lento, alguém tinha que explicar:

  • por quê

  • onde

  • quem causou

  • como evitar de novo

O Essential z/OS Performance Tuning Workshop surge dessa escola:
a escola em que medir vem antes de mexer, e mexer sem entender é pecado mortal.


🎯 O que o workshop realmente ensina (sem PowerPoint bonito)

👉 Performance não é velocidade

Performance é cumprir SLA de forma previsível.

O workshop deixa isso claro logo cedo:

  • CPU a 90% não é problema, se o response time está estável

  • Sistema “folgado” pode estar mal configurado

  • Pico não é tendência

Aqui, aprende-se a ler o sistema como um organismo, não como um gráfico isolado.


⚙️ Os pilares do workshop (onde a verdade mora)

🧩 WLM – Workload Manager

O verdadeiro cérebro do z/OS.

No workshop, cai a ficha:

WLM não é tuning técnico. É política de negócio codificada.

  • Service Class errada = prioridade errada

  • Prioridade errada = usuário certo reclamando

  • Ajuste sem alinhamento = guerra interna

📌 Easter egg clássico:
O WLM sempre faz exatamente o que você mandou.
O problema é quando você mandou errado.


📊 RMF – onde a mentira não sobrevive

RMF é tratado como deve ser:

  • Monitor III → o agora

  • Monitor II → o culpado

  • Postprocessor → a história que não pode ser reescrita

O workshop ensina algo raro hoje em dia:

Contexto importa mais que screenshot.

Um gráfico sem horário, workload e mudança recente é só arte abstrata.


🗃️ SMF – a caixa-preta do sistema

Aqui o tuning vira investigação.

SMF:

  • Não opina

  • Não sugere

  • Não perdoa

Quem aprende a ler SMF sai do workshop com um superpoder:
parar discussões baseadas em achismo.


⚠️ Desafios reais abordados (aqueles que ninguém gosta de admitir)

🔥 “Todo mundo é crítico”

Ambiente compartilhado, dezenas de sistemas, todos “prioridade máxima”.

O workshop ensina a separar:

  • workload crítico

  • workload importante

  • workload barulhento

💡 Easter egg corporativo:
O sistema mais crítico quase nunca é o que mais grita.


🔥 Falta de baseline

Sem baseline:

  • não existe “piorou”

  • só existe “sensação”

Frase implícita do workshop:

Tuning sem baseline é tuning religioso.


🔥 A pressão do “só ajusta rapidinho”

Nada gera mais legado tóxico do que tuning feito:

  • em incidente

  • sem análise

  • para agradar gestor

O workshop ensina algo valioso:

Saber dizer NÃO, com métrica na mão.


🚀 O que muda depois do workshop

Quem passa por esse treinamento:

  • Para de tunar por instinto

  • Começa a observar antes de agir

  • Aprende a prever gargalos

  • Ganha respeito em incidente sério

No mercado, isso tem um efeito curioso:

Profissional que entende performance em z/OS não fica sem emprego.
Fica sem tempo.


🕹️ Easter eggs nível CPD

  • CPU alta pode ser sinal de sistema saudável

  • O melhor tuning, às vezes, é não mexer

  • Se o sistema só é lento em horário comercial, o problema raramente é técnico

  • Performance tuning é 70% política e 30% tecnologia


🧠 Conclusão – a frase que devia estar na parede do CPD

“z/OS não é lento.
Lento é quem não entende o que está medindo.”

O Essential z/OS Performance Tuning Workshop não ensina truques.
Ensina responsabilidade técnica.

E isso, em qualquer geração de tecnologia, continua raro.


terça-feira, 16 de janeiro de 2024

🔥 IBM 3592 JF – O cartucho que carrega impérios de dados

 


🔥 IBM 3592 JF – O cartucho que carrega impérios de dados




🧠 Introdução – quando o dado dorme em fita, mas sonha em petabytes

Se você acha que fita magnética é coisa de museu, é porque nunca encarou um IBM 3592 JF rodando em um TS1140/TS1150 dentro de um data center que parece mais uma nave espacial do que uma sala fria.
O 3592 JF não é “backup”. Ele é arquivo corporativo, retenção legal, seguro contra ransomware e, em muitos bancos, a última linha de defesa da civilização digital.

Bem-vindo ao mundo onde dados não são deletados — são arquivados com honra.


📜 História – da fita de rolo ao JF

A linhagem do IBM 3592 nasce no início dos anos 2000 como sucessor espiritual das 3490/3480.
O sufixo JF marca uma geração madura, refinada, feita para:

  • Ambientes z/OS heavy-duty

  • Integração com DFSMS/HSM

  • Coexistência com VTS, TS7700 e GDPS

📼 O JF é o tipo de mídia que sobrevive a mudanças de diretoria, ERPs, fusões e três modas de cloud.


🧱 Arquitetura do cartucho IBM 3592 JF

Características físicas e lógicas:

  • 📏 Formato proprietário IBM (não confundir com LTO)

  • 💾 Capacidade nativa: ~700 GB

  • 🗜️ Capacidade com compressão: até ~2–3 TB (dependendo do workload)

  • 🔐 Suporte a criptografia por hardware

  • 🧬 Servo tracking de altíssima precisão

💡 Easter egg: a densidade da fita é tão alta que um cartucho mal acondicionado “grita” no log do drive antes mesmo de falhar.


🏗️ Onde ele vive no mundo real

Normalmente você encontra o 3592 JF em:

  • 🗄️ IBM TS3500 / TS4500 Tape Library

  • 🧠 TS7700 (Virtual Tape Server) como mídia física de backend

  • 🧾 Ambientes regulados: bancos, seguradoras, governos

Ele conversa intimamente com:

  • z/OS DFSMS

  • HSM (Hierarchical Storage Manager)

  • DFSMShsm Migration / Recall


🔄 Workflow clássico no mainframe

📌 Passo a passo “vida de fita”

  1. Dataset criado (PS ou GDG)

  2. Política de SMS decide: disk hoje, fita amanhã

  3. HSM migra o dataset para fita

  4. Catalog aponta para volume JF

  5. Recall on-demand traz o dado de volta

  6. Dataset volta ao disco como se nada tivesse acontecido

🧙‍♂️ Magia negra mainframe: a aplicação nunca sabe que o dado dormiu em fita.


📊 Logs, SMF e rastros

O 3592 JF deixa pegadas elegantes:

  • SMF 14/15 – uso de fita

  • SMF 42 – atividades de DFSMS

  • SMF 94 – criptografia

  • Logs do TS7700 (se virtualizado)

📎 Dica Bellacosa: fita não mente. Se algo sumiu, o SMF sabe onde foi parar.


🧩 Curiosidades que só quem viveu sabe

  • ☕ Drives 3592 “acordam” antes do operador terminar o café

  • 🔁 Uma fita JF pode sobreviver 30 anos se bem armazenada

  • 🧯 Ransomware odeia fita — ela não monta sozinha

  • 🎩 Cartucho com label mal escrito vira lenda urbana no CPD


🛠️ Dicas práticas de sobrevivência

✔️ Padronize nomenclatura de volumes
✔️ Nunca misture JF com JE/JB sem planejamento
✔️ Use criptografia nativa, não “caseira”
✔️ Monitore recalls excessivos (sinal de má política de HSM)
✔️ Tape não é lenta — lento é acesso mal desenhado


📚 Guia de estudo para mainframers

📖 Leia e domine:

  • DFSMS Storage Administration

  • DFSMShsm Implementation

  • IBM TS11xx Drive Redbooks

  • SMF 14/15 deep dive

🧠 Exercício clássico:

Simule migração, expiração, recall e auditoria de um dataset crítico sem que a aplicação perceba.


🧪 Aplicações reais do IBM 3592 JF

  • 📜 Retenção legal (7–30 anos)

  • 🏦 Histórico financeiro imutável

  • 🧬 Dados médicos arquivados

  • 🛰️ DR offline (air gap real)

  • 📦 Data lake pré-cloud que ainda funciona


🧨 Comentário final – El Jefe Style

Enquanto o mundo discute se “cloud é o futuro”, o IBM 3592 JF continua fazendo o que sempre fez:
guardar o passado para proteger o futuro.

No mainframe, fita não é legado.
É estratégia.

🔥 Midnight Lunch aprovado. A fita gira, o dado dorme, o mainframer sorri.


sexta-feira, 7 de janeiro de 2022

🧠🔥 Mapa comparativo manual: Mainframe ↔ Instana Observability

 


🧠🔥 Mapa comparativo manual: Mainframe ↔ Instana Observability


Analogias diretas para quem já leu SMF em hexadecimal e agora vê JSON piscando


☕ 02:41 — Quando o APM tenta explicar o que o SMF já sabia

Todo mainframer que olha para uma ferramenta de observabilidade moderna (Instana, por exemplo) tem a mesma sensação:

“Isso aqui… eu já vi antes.”

E viu mesmo.
A diferença é que agora:

  • o dump é distribuído

  • o JES virou dashboard

  • o operador virou SRE

  • e o problema continua sendo tempo, estado e falha

Este artigo é um mapa mental de tradução, para tornar aplicações distribuídas palpáveis para quem vem do z/OS.


🗺️ O mapa comparativo essencial (guarde isso)

Mundo MainframeInstana / ObservabilidadeTradução Bellacosa
SMFDistributed TracesRegistro detalhado do que aconteceu, quando e por onde passou
RMFMétricas (CPU, memória, latência)Capacidade, consumo e gargalos
JES / SpoolLogs correlacionadosO que foi executado, em que ordem e com qual resultado
CICS TransactionService / EndpointUnidade lógica de trabalho
Program / ModuleMicroserviceCódigo executável com responsabilidade específica
AbendIncidentFalha detectável que exige ação
Return CodeError Rate / Status CodeSucesso ou falha mensurável
Job ChainService Dependency MapOrdem e dependência entre execuções
OperadorSRE / On-callQuem sofre primeiro
Console z/OSDashboard em tempo realO painel que ninguém olha até dar problema

😈 Easter egg:
Se você entende RMF, já entende 80% de qualquer APM.


1️⃣ História curta: do SMF ao Trace distribuído 🕰️

No mainframe:

  • O sistema sempre foi observável

  • Só exigia estudo, paciência e café

No mundo distribuído:

  • A observabilidade precisou ser reinventada

  • Porque ninguém mais sabia onde o código rodava

📌 Comentário Bellacosa:
Observabilidade não nasceu na cloud.
Ela foi redescoberta.


2️⃣ SMF ↔ Traces: a analogia mais poderosa 🔍

SMF

  • Sequência precisa

  • Contexto

  • Correlação temporal

Trace distribuído

  • Request entra

  • Passa por N serviços

  • Sai (ou morre no caminho)

🔥 Tradução direta:
Um trace é um SMF espalhado pela rede, costurado em tempo real.


3️⃣ RMF ↔ Métricas: capacidade nunca saiu de moda 📊

RMF

  • CPU

  • I/O

  • Memory

  • Throughput

Instana Metrics

  • CPU

  • Memory

  • Latência

  • Saturação

😈 Curiosidade:
A diferença não é o conceito.
É que agora todo mundo descobriu que capacidade importa.


4️⃣ Job chain ↔ Dependency Graph 🧩

No batch:

  • JOB A → JOB B → JOB C

  • Quebrou A, nada anda

No distribuído:

  • Serviço A → Serviço B → Serviço C

  • Quebrou B, metade do sistema “funciona”

📌 Comentário ácido:
Falha parcial é batch quebrado com marketing.


5️⃣ Console ↔ Dashboard: o mesmo vício 👀

  • Console ignorado = desastre

  • Dashboard ignorado = post-mortem

🔥 Regra eterna:
O problema não é a ferramenta.
É quem só olha quando dói.


6️⃣ Passo a passo mental para o mainframer entender Instana 🧭

1️⃣ Pense em transação, não em tela
2️⃣ Pense em fluxo, não em serviço isolado
3️⃣ Pense em capacidade, não em “escala infinita”
4️⃣ Pense em falha como estado normal
5️⃣ Pense em correlação, não em log solto

📌 Mantra Bellacosa:
Sem correlação, não há diagnóstico.


7️⃣ Curiosidades que só mainframer percebe 😈

  • Observabilidade virou buzzword

  • Mas sempre foi obrigação

  • Logs sem contexto são JES sem DD

  • Alert sem ação é operador sem autoridade


📚 Guia de estudo recomendado (sem hype)

Conceitos

  • Observabilidade (metrics, logs, traces)

  • Resiliência

  • SRE

  • Arquitetura distribuída

  • Event-driven

Exercício prático

👉 Pegue um trace no Instana
👉 Leia como se fosse um SMF
👉 Pergunte: onde começou a dar errado?


🎯 Aplicações práticas desse mapa

  • Integração mainframe ↔ cloud

  • Modernização segura

  • Diagnóstico de incidentes

  • Treinamento de times híbridos

  • Arquitetura corporativa


🖤 Epílogo — 03:33, o gráfico faz sentido

Quando o mainframer entende observabilidade moderna, algo muda:

Ele para de perguntar

“O que é isso?”

E começa a afirmar:

“Ah… então foi aqui que deu ruim.”

El Jefe Midnight Lunch assina:
“Instana não inventou observabilidade. Só colocou UI no que o mainframe sempre soube fazer.”

 

quinta-feira, 22 de fevereiro de 2018

😈🔥 Lendo SMF do MQ como se fosse trace distribuído

 


😈🔥 Lendo SMF do MQ como se fosse trace distribuído


Conhecimento básico sobre aplicações distribuídas para quem já confiou mais no SMF do que em qualquer dashboard





☕ 02:48 — Quando a fila cresce e ninguém sabe “quem começou”

No mundo cloud, alguém pergunta:

“Qual serviço está causando o problema?”

No mundo mainframe, a pergunta sempre foi melhor:

“Qual transação chegou primeiro?”

Este artigo é sobre ler SMF do IBM MQ for z/OS com a mesma lógica usada para distributed tracing moderno — só que com décadas a mais de maturidade.



1️⃣ Contexto histórico: antes do trace existir, o SMF já contava a história 🧬

Distributed tracing surgiu porque:

  • sistemas ficaram espalhados

  • ninguém sabia por onde o request passava

No z/OS:

  • tudo sempre passou por um lugar auditável

  • o SMF virou a linha do tempo oficial

📌 Comentário Bellacosa:
Trace é novidade.
Linha do tempo sempre foi obrigação.


2️⃣ O que é um trace distribuído, afinal? 🧩

Trace distribuído:

  • segue um request

  • de serviço em serviço

  • até o resultado (ou falha)

SMF do MQ faz o mesmo:

  • PUT

  • fila

  • GET

  • consumo

  • impacto em recursos

🔥 Tradução direta:
Cada mensagem no MQ é um request distribuído encapsulado.


3️⃣ Mapa mental: SMF do MQ ↔ Trace moderno 🗺️

SMF MQ (z/OS)Trace distribuídoSignificado
PUT MESSAGESpan inicialEntrada do request
Queue NameService nameDestino lógico
GET MESSAGESpan consumidorProcessamento
Queue DepthLagAcúmulo de trabalho
Elapsed TimeLatênciaTempo fim a fim
CPU / I/OResource usageCusto do request
AplicaçãoService IDResponsável

😈 Easter egg:
Fila crescendo é trace parado no meio do caminho.


4️⃣ Lendo SMF como linha do tempo (não como relatório) ⏱️

Erro comum:

  • olhar SMF como estatística fria

Leitura correta:

  • montar sequência temporal

  • entender causa → efeito

📌 Comentário Bellacosa:
Trace não é gráfico bonito.
É história cronológica.


5️⃣ Passo a passo: leitura estilo “trace distribuído” 🔍

5.1 — Identifique o PUT inicial

  • Quem publicou?

  • Em que horário?

  • Com qual volume?

👉 Equivalente ao primeiro span do trace.


5.2 — Observe a evolução da fila

  • Crescimento constante?

  • Explosão pontual?

😈 Easter egg:
Fila crescendo devagar é mais perigosa que pico.


5.3 — Analise o GET

  • Está acontecendo?

  • Está atrasado?

  • Está mais lento?

📌 Tradução:
Consumidor virou gargalo.


5.4 — Correlacione com recursos (RMF mode) 📊

  • CPU alta?

  • I/O saturado?

  • Espera?

🔥 Comentário Bellacosa:
Mensagem não some. Ela espera.


5.5 — Ache o primeiro desvio

  • Antes do alerta

  • Antes da reclamação

  • Antes do incidente

👉 Esse é o root cause real.


6️⃣ Curiosidades que só mainframer percebe 😈

  • MQ nunca mente

  • Ele só acumula evidência

  • SMF sempre esteve certo

  • O erro humano vem depois

📌 Comentário ácido:
Alertas gritam. SMF sussurra — e acerta.


7️⃣ Erros clássicos ao analisar MQ ⚠️

❌ Aumentar depth máximo
❌ Ajustar buffers sem análise
❌ Culpar o MQ
❌ Ignorar correlação temporal

🔥 Regra imortal:
Fila cheia é consequência, não diagnóstico.


8️⃣ Guia de estudo prático 📚

Conceitos

  • Mensageria confiável

  • Backpressure

  • Throughput vs Latência

  • Observabilidade

  • Root cause analysis

Exercício Bellacosa

👉 Pegue um relatório SMF do MQ
👉 Monte uma timeline manual
👉 Marque onde o fluxo parou


🎯 Aplicações práticas desse entendimento

  • Integração mainframe-cloud

  • Sistemas event-driven críticos

  • Análise de gargalos

  • Prevenção de incidentes

  • Auditoria e compliance

🔥 Comentário final:
Quem entende SMF do MQ já entende tracing distribuído — só não chamava assim.


🖤 Epílogo — 03:19, filas sob controle

Enquanto o mundo descobre tracing,
o mainframe segue entregando história completa, com provas.

El Jefe Midnight Lunch assina:
“Mensagem não mente. E SMF nunca esquece.”

 

sexta-feira, 19 de janeiro de 2018

💡 Mid-Week Tech Insight | IBM MQ for z/OS & SMF Data



 💡 Mid-Week Tech Insight | IBM MQ for z/OS & SMF Data

Mensageria crítica explicada para quem já confia mais no SMF do que em dashboard bonito




☕ 02:22 — Quando a fila começa a crescer em silêncio

Todo mainframer já viveu esse momento:
o sistema “está no ar”, ninguém reclamou…
mas o depth da fila começa a subir.

No mundo distribuído isso vira pânico tardio.
No z/OS, isso vira SMF bem lido.

Este artigo é sobre IBM MQ for z/OS + SMF como fundação real de aplicações distribuídas críticas — sem hype, sem romantização.


1️⃣ Um pouco de história: quando mensageria virou espinha dorsal 🧬

Antes de “event-driven” virar buzzword:

  • MQ já desacoplava sistemas

  • Garantia entrega

  • Preservava ordem

  • Sobrevivia a falhas

📌 Comentário Bellacosa:
MQ não nasceu para “escala web”.
Nasceu para não perder mensagem.


2️⃣ Por que SMF é a alma do MQ no z/OS 🧠

No z/OS:

  • Nada sério existe sem SMF

  • Performance sem SMF é palpite

No MQ:

  • SMF mostra o que realmente aconteceu

  • Não o que alguém acha que aconteceu

🔥 Tradução direta:
SMF é o trace definitivo do MQ.


3️⃣ O que o SMF revela sobre o MQ (e ninguém vê) 🔍

Com SMF você enxerga:

  • Volume de mensagens

  • Taxa de PUT / GET

  • Uso de CPU e I/O

  • Esperas

  • Gargalos por fila ou aplicação

😈 Easter egg:
Quem analisa SMF sabe que fila cheia não é causa — é sintoma.


4️⃣ MQ no mundo distribuído: o elo invisível 🌍

Aplicações modernas:

  • Microservices

  • Eventos

  • APIs

Mas no core:

  • MQ continua segurando o mundo

📌 Comentário ácido:
Kafka fala alto.
MQ entrega calado.


5️⃣ Passo a passo mental: analisando MQ via SMF 🧭

1️⃣ Observe o crescimento da fila
2️⃣ Correlacione com horário e carga
3️⃣ Analise PUT vs GET
4️⃣ Verifique latência e espera
5️⃣ Avalie consumo de CPU
6️⃣ Identifique aplicação causadora
7️⃣ Só então ajuste parâmetros

🔥 Regra de ouro:
Nunca aumente buffer antes de entender o gargalo.


6️⃣ SMF vs Observabilidade moderna (o encontro dos mundos) 📊

MainframeMundo distribuído
SMF MQTraces de mensageria
RMFMétricas de throughput
Queue DepthLag de consumidor
PUT/GETProducer / Consumer
AbendIncident

😈 Curiosidade:
O que hoje chamam de “lag” você sempre chamou de fila crescendo.


7️⃣ Erros comuns (e caros) ⚠️

❌ Ignorar SMF e confiar só em alertas
❌ Tratar MQ como “infra”
❌ Ajustar parâmetros sem evidência
❌ Não correlacionar com carga real

📌 Comentário Bellacosa:
Mensageria sem visibilidade vira buraco negro.


8️⃣ Guia de estudo prático 📚

Conceitos

  • Mensageria confiável

  • Desacoplamento real

  • Backpressure

  • Observabilidade

  • Capacidade

Exercício

👉 Pegue dados SMF do MQ
👉 Monte uma linha do tempo
👉 Relacione com batch, online e APIs


🎯 Aplicações reais no mundo enterprise

  • Core bancário

  • Integração mainframe-cloud

  • Sistemas regulados

  • Alta disponibilidade

  • Processamento assíncrono crítico

🔥 Comentário final:
Sem MQ, o distribuído cai.
Sem SMF, ninguém sabe por quê.


🖤 Epílogo — 03:05, filas sob controle

Enquanto alguns discutem se mensageria é “moderna”,
o MQ segue processando bilhões de mensagens… com SMF contando a verdade.

El Jefe Midnight Lunch assina:
“Mensagens podem esperar. Diagnóstico não.”

 

segunda-feira, 2 de julho de 2012

🧠 “SMF como fonte de verdade para observabilidade corporativa”

 


🧠 “SMF como fonte de verdade para observabilidade corporativa”


Porque antes de existir observability platform, já existia evidência



☕ 01:38 — Quando o gráfico mente, mas o SMF não

Todo mainframer aprende cedo uma verdade incômoda:
logs contam histórias, métricas sugerem hipóteses, mas o SMF registra fatos.

Enquanto o mundo distribuído ainda debate o que é single source of truth,
o z/OS já resolveu isso há décadas — e deu o nome de System Management Facility.


🧬 Um pouco de história (quando observabilidade não tinha marketing)

O SMF nasceu para:

  • auditoria

  • cobrança

  • capacidade

  • performance

  • rastreabilidade

Não para “monitorar bonito”,
mas para provar o que aconteceu.

📌 Comentário Bellacosa:
SMF nunca foi sexy. Foi confiável. E isso envelhece melhor.


🔍 O que o SMF realmente é (traduzindo para cloudês)

No mundo moderno:

  • Logs

  • Metrics

  • Traces

No z/OS:

  • Tudo isso… em um formato só

  • Com timestamp confiável

  • Com contexto de sistema

  • Com impacto mensurável

🔥 Tradução direta:
SMF é observabilidade com evidência jurídica.


🧠 SMF como “fonte de verdade”

Por que o SMF é a source of truth?

✔️ É gerado pelo sistema operacional
✔️ Não depende da aplicação “colaborar”
✔️ Não perde evento por backpressure
✔️ Não é amostrado
✔️ Não é opinativo

😈 Easter egg:
Se o SMF não viu, provavelmente não aconteceu.


📊 Comparação honesta: SMF x Observabilidade moderna

Observabilidade modernaSMF
Métricas amostradasDados completos
Traces instrumentadosEvidência sistêmica
Logs verbososRegistros estruturados
DashboardsCapacidade histórica
AlertasDiagnóstico pós-morte

📌 Comentário ácido:
Dashboard serve para avisar.
SMF serve para explicar.


🧭 Passo a passo mental: usando SMF como observabilidade

1️⃣ Coleta contínua (SMF ativo é pré-requisito)
2️⃣ Classificação por tipo (CPU, I/O, CICS, DB2, MQ…)
3️⃣ Correlação temporal
4️⃣ Análise de impacto real
5️⃣ Conclusão baseada em dado, não sensação

🔥 Regra de ouro:
Sem correlação, métrica vira superstição.


🧩 SMF e aplicações distribuídas (onde os mundos se encontram)

Hoje, arquiteturas são:

  • híbridas

  • distribuídas

  • event-driven

O SMF entra como:

  • referência de carga real

  • baseline de comportamento

  • âncora de verdade

📌 Exemplo prático:
Quando a API “fica lenta”, o SMF diz:

  • se foi CPU

  • se foi I/O

  • se foi concorrência

  • ou se foi culpa de quem chamou demais


📚 Guia de estudo para o mainframer moderno

Conceitos essenciais

  • Observabilidade ≠ Monitoramento

  • Correlação ≠ Alerta

  • Evidência ≠ Opinião

  • Capacidade ≠ Pico momentâneo

Exercício recomendado

👉 Pegue um incidente passado
👉 Releia só o SMF
👉 Ignore dashboards
👉 Reescreva a RCA

O resultado costuma ser… desconfortável — e correto.


🎯 Aplicações reais no mundo corporativo

  • Auditoria e compliance

  • Capacity planning sério

  • SRE corporativo

  • Integração com AIOps

  • Base para observabilidade híbrida

🔥 Comentário Bellacosa:
Todo AIOps sério começa com dado confiável.
E dado confiável tem sobrenome: SMF.


🖤 Epílogo — 03:27, incidente encerrado

Quando o ruído some,
quando o gráfico contradiz o discurso,
quando a RCA precisa sobreviver a auditoria…

é o SMF que fica.

El Jefe Midnight Lunch assina:
“Observabilidade é saber. SMF é provar.”