Translate

Mostrar mensagens com a etiqueta sysprog. Mostrar todas as mensagens
Mostrar mensagens com a etiqueta sysprog. Mostrar todas as mensagens

quinta-feira, 18 de junho de 2026

Git, GitHub e DevOps para Profissionais IBM Z Por que COBOL Developers, Sysprogs e Sysadmins precisam dominar Git em 2026

 

Bellacosa Mainframe e o Git Github e DevOps para Mainframers

☕🚀 Um Café no Bellacosa Mainframe

Git, GitHub e DevOps para Profissionais IBM Z

Por que COBOL Developers, Sysprogs e Sysadmins precisam dominar Git em 2026

"Deleted your code by mistake? Without Git, it's gone forever."

Confesso que, ao observar aqueles infográficos coloridos sobre Git e DevOps, senti algo curioso.

Em poucos segundos eles conseguiram condensar uma transformação tecnológica que levou quase quarenta anos para acontecer.

Para muitos jovens desenvolvedores, Git sempre existiu.

Para nós, veteranos do Mainframe, sabemos que não foi assim.

Nós vivemos outra realidade.

Vivemos a era dos datasets PDS.

Vivemos a era dos backups manuais.

Vivemos a era do Panvalet.

Do Librarian.

Do Endevor.

Do Changeman.

Do SCLM.

Do ISPW.

Do membro COBOL001.

Do COBOL001.BKP.

Do COBOL001.OLD.

Do COBOL001.TESTE.

Do COBOL001.NOVO.

Do COBOL001.NOVO2.

Do COBOL001.NOVO3.

E, inevitavelmente, do lendário:

COBOL001.FINAL

COBOL001.FINAL2

COBOL001.FINAL_DEFINITIVO

COBOL001.FINAL_DEFINITIVO_OK

COBOL001.AGORA_VAI

Parece piada.

Mas muitos de nós trabalhamos exatamente dessa maneira.

E foi justamente para resolver esse caos que surgiu uma das ferramentas mais importantes da história da Engenharia de Software.

Git.

E não estou exagerando.

Git talvez seja tão revolucionário para o desenvolvimento moderno quanto o JES2 foi para processamento batch, quanto o CICS foi para processamento online ou quanto o DB2 foi para persistência transacional.

Git mudou a maneira como produzimos software.

Bellacosa Mainframe e a evolucao da gestao dos fontes

A primeira geração do controle de versões

Antes do Git existiam várias abordagens.

RCS.

SCCS.

CVS.

Visual SourceSafe.

Subversion.

ClearCase.

Perforce.

Cada um tentou resolver o mesmo problema.

Como permitir que múltiplas pessoas trabalhem no mesmo código sem destruir o trabalho umas das outras?

No Mainframe, resolvemos isso de forma diferente.

Panvalet.

Librarian.

Endevor.

ISPW.

Changeman.

Essas ferramentas foram brilhantes.

E continuam sendo.

Especialmente em ambientes regulados.

Bancos.

Seguradoras.

Governo.

Utilities.

Mas havia uma diferença.

Grande parte delas era centralizada.

Tudo dependia de um servidor.

Git mudou isso.

Git é distribuído.

E isso altera completamente a arquitetura do desenvolvimento.

O que realmente é Git?

A maioria dos cursos ensina:

Git é um sistema de versionamento.

Tecnicamente está correto.

Mas é uma definição pobre.

Git é muito mais.

Git é um banco de dados.

Git é uma máquina do tempo.

Git é um mecanismo de auditoria.

Git é uma ferramenta de colaboração.

Git é um sistema de rastreabilidade.

Git é um gatilho para automação.

Git é praticamente o sistema nervoso central do DevOps moderno.

Cada commit registra:

Quem alterou.

Quando alterou.

Por que alterou.

Qual requisito atendeu.

Qual incidente corrigiu.

Qual sprint participou.

Qual história de usuário foi implementada.

Qual vulnerabilidade foi mitigada.

Git não apenas salva arquivos.

Git preserva conhecimento organizacional.

O segredo escondido do Git

Poucos profissionais conhecem sua arquitetura interna.

Git não armazena arquivos.

Git armazena objetos.

Blob.

Tree.

Commit.

Tag.

Blob representa dados.

Tree representa diretórios.

Commit representa estados.

Tag representa marcos.

Cada commit possui um hash.

Durante muitos anos SHA-1.

Hoje caminhando para SHA-256.

Um commit não é uma diferença.

Ele é uma fotografia completa.

Um snapshot.

É por isso que Git consegue voltar meses no passado.

Como um SMF para código-fonte.

Aliás...

Talvez essa seja a analogia perfeita para um sysprog.

Git é quase um SMF de desenvolvimento.

Cada alteração gera um registro permanente.

O Sysprog e o Git

Talvez alguns sysprogs pensem:

"Mas Git é coisa de desenvolvedor."

Não.

Não mais.

Hoje praticamente toda infraestrutura está migrando para Infrastructure as Code.

Parmlibs.

Policies.

WLM.

NetView.

SA z/OS.

Ansible.

Terraform.

Scripts REXX.

Procedures.

JCL.

USS scripts.

Tudo pode estar em Git.

Imagine uma alteração em uma política WLM.

Antigamente:

Editar.

Salvar.

Copiar.

Torcer.

Hoje:

Criar branch.

Modificar.

Commit.

PR.

Review.

Merge.

Deploy automatizado.

Rollback imediato.

A governança melhora absurdamente.

O Sysadmin moderno também virou desenvolvedor

Existe uma transformação interessante acontecendo.

Sysadmins estão programando.

Desenvolvedores estão automatizando infraestrutura.

DBAs escrevem pipelines.

Sysprogs utilizam APIs REST.

Todos começam a convergir.

A linha entre operações e desenvolvimento desaparece.

Foi exatamente isso que criou DevOps.

DevOps não é ferramenta

Essa talvez seja a maior confusão do mercado.

DevOps não é Jenkins.

Não é GitHub.

Não é Kubernetes.

Não é Docker.

Não é Ansible.

DevOps é cultura.

É reduzir silos.

Eliminar burocracias.

Aproximar pessoas.

Automatizar processos.

Aumentar feedback.

Reduzir tempo de entrega.

No Mainframe isso é extremamente relevante.

Porque o Mainframe sempre teve uma cultura muito compartimentalizada.

Equipe COBOL.

Equipe DB2.

Equipe CICS.

Equipe Storage.

Equipe RACF.

Equipe Sysprog.

Equipe Operações.

Equipe Middleware.

Equipe Rede.

Equipe Segurança.

DevOps propõe outra visão.

Todos trabalham pelo mesmo objetivo.

Entregar valor ao negócio.

GitHub não é Git

Muitos iniciantes confundem.

Git é tecnologia.

GitHub é plataforma.

GitLab é plataforma.

Bitbucket é plataforma.

Azure DevOps é plataforma.

Git continua sendo Git.

Independentemente da hospedagem.

GitHub adicionou uma camada extremamente poderosa.

Issues.

Actions.

Codespaces.

Security.

Dependabot.

Packages.

Container Registry.

Wiki.

Pull Requests.

Tudo integrado.

Pull Request: a maior revolução social do desenvolvimento

Eu particularmente considero Pull Request uma das melhores invenções da engenharia moderna.

Porque ela resolve algo difícil.

Compartilhar conhecimento.

Imagine um desenvolvedor COBOL júnior.

Ele escreve:

MOVE WS-CPF TO WS-TEMP

Um desenvolvedor sênior comenta:

"Poderíamos validar antes."

Outro comenta:

"Talvez usar EVALUATE seja melhor."

Outro:

"Precisamos mascarar LGPD."

Resultado?

O código melhora.

O profissional melhora.

A equipe melhora.

A empresa melhora.

PR é mentoria embutida.

O medo do merge conflict

Todo desenvolvedor já sentiu frio na barriga.

git pull

CONFLICT

Automatic merge failed.

Para iniciantes parece um desastre.

Para equipes maduras é rotina.

Conflitos indicam colaboração.

Duas pessoas trabalharam na mesma área.

Git apenas pede ajuda.

Ele não consegue decidir sozinho.

Você decide.

Git apenas documenta.

Git Flow versus GitHub Flow

Durante anos utilizamos Git Flow.

Main.

Develop.

Feature.

Release.

Hotfix.

Funciona muito bem.

Especialmente em bancos.

Porém empresas modernas começaram simplificar.

GitHub Flow.

Main.

Feature.

PR.

Merge.

Deploy.

Google foi além.

Trunk Based Development.

Branches curtíssimas.

Commits pequenos.

Integração contínua.

Menos divergência.

Menos conflitos.

Mais velocidade.

Git para COBOL Developers

Aqui entramos em um ponto fascinante.

Durante muito tempo dizia-se:

COBOL não combina com Git.

Hoje isso é completamente falso.

IBM DBB.

IBM Dependency Based Build.

zAppBuild.

Z Open Editor.

Rocket Git.

Git Integration for Endevor.

ISPW Git Integration.

IDz.

Wazi Developer.

VS Code.

Tudo isso mudou o cenário.

Hoje um desenvolvedor COBOL pode trabalhar assim.

Abrir VS Code.

Editar programa COBOL.

Executar testes.

Commit.

Push.

Criar PR.

Executar pipeline.

Compilar.

Linkedit.

DB2 Bind.

Newcopy CICS.

Deploy.

Exatamente como Java.

Exatamente como Python.

Exatamente como Node.

Jenkins: o operador automático

Se Git é o cérebro.

Jenkins é o operador.

Ele observa commits.

Dispara builds.

Executa testes.

Compila COBOL.

Gera relatórios.

Aciona SonarQube.

Publica artefatos.

Executa deploy.

Notifica equipes.

No fundo, Jenkins faz o papel que muitos operadores humanos executavam.

Só que 24 horas por dia.

Sem esquecer etapas.

Sem distrações.

GitOps: talvez a próxima revolução

GitOps é simples.

Tudo é Git.

Deseja mudar um cluster Kubernetes?

Commit.

Deseja alterar firewall?

Commit.

Deseja atualizar pipeline?

Commit.

Deseja modificar política?

Commit.

Git torna-se a fonte única da verdade.

Single Source of Truth.

Isso é extremamente poderoso.

Porque elimina configurações manuais.

Elimina servidores "snowflake".

Elimina ambientes misteriosos.

Tudo fica reproduzível.

E a segurança?

Segurança também mudou.

DevSecOps nasceu justamente aqui.

SAST.

DAST.

Dependency Scan.

Secrets Detection.

SBOM.

Tudo integrado ao pipeline.

O desenvolvedor faz commit.

Ferramentas verificam.

Bibliotecas vulneráveis.

Credenciais expostas.

Falhas conhecidas.

Antes de chegar em produção.

No Mainframe isso pode incluir:

RACF reviews.

JCL analysis.

CICS security checks.

DB2 privilege validation.

SMF auditing.

O papel do Sysprog em 2026

Antigamente o Sysprog era apenas administrador.

Hoje é arquiteto.

Automatizador.

Consultor.

Especialista em APIs.

Especialista em observabilidade.

Especialista em pipelines.

Especialista em integração.

Especialista em segurança.

Sysprog moderno entende:

Git.

GitHub.

GitLab.

Ansible.

Python.

REXX.

Jenkins.

OpenShift.

Containers.

z/OSMF.

Zowe.

REST APIs.

Porque o Mainframe deixou de ser uma ilha.

Ele tornou-se parte do ecossistema corporativo.

O novo profissional IBM Z

Acredito que o profissional IBM Z de maior valor em 2026 possui uma característica interessante.

Ele pensa como um desenvolvedor.

Age como um administrador.

Automatiza como um engenheiro DevOps.

Protege como um especialista em segurança.

E governa como um arquiteto.

Ele consegue conversar com:

Desenvolvedor Java.

Equipe Cloud.

Kubernetes.

Segurança.

Storage.

Networking.

Data Science.

IA.

Sem abandonar aquilo que torna o Mainframe único.

Confiabilidade.

Escalabilidade.

Disponibilidade.

Integridade transacional.

Processamento massivo.

Pensando durante o café

Talvez a grande mensagem escondida por trás daqueles simpáticos desenhos coloridos seja esta:

Git não substitui o conhecimento Mainframe.

Git potencializa o conhecimento Mainframe.

Ele não aposenta COBOL.

Ele amplia o alcance do COBOL.

Ele não elimina o Sysprog.

Ele transforma o Sysprog em um engenheiro de plataforma.

Ele não mata operações.

Ele automatiza operações repetitivas.

A próxima geração de profissionais IBM Z provavelmente não conhecerá Panvalet.

Talvez nunca utilize Librarian.

Possivelmente jamais veja um Changeman clássico.

Mas certamente abrirá um Pull Request.

Criará uma branch.

Executará uma pipeline.

Fará deploy automatizado.

E continuará processando bilhões de transações por dia em um IBM Z.

Porque, no final das contas, o objetivo nunca foi Git.

Nunca foi GitHub.

Nunca foi Jenkins.

Nunca foi Kubernetes.

O objetivo sempre foi o mesmo desde os tempos do System/360.

Entregar software confiável.

Mais rápido.

Mais seguro.

Mais auditável.

Mais sustentável.

E, se possível, com uma boa xícara de café ao lado do teclado 3270.

quarta-feira, 10 de junho de 2026

☕💣🚨 LABORATÓRIO IMS PARA SYSPROGS E SYSADMINS

 

Bellacosa Mainframe e um laboratorio pratico IMS DB

☕💣🚨 LABORATÓRIO IMS PARA SYSPROGS E SYSADMINS

10 Incidentes Reais de Monitoramento e Troubleshooting no IMS Mainframe

Este laboratório foi projetado para colocar o aluno em situações próximas das encontradas em bancos, seguradoras e ambientes corporativos que utilizam IMS TM e IMS DB.

Objetivo:

  • Desenvolver raciocínio de troubleshooting

  • Interpretar sintomas

  • Utilizar monitoramento

  • Identificar causa raiz

  • Aplicar correções


LAB 1 — Filas OTMA Crescendo Sem Parar

Cenário

Usuários reclamam que operações via aplicativo móvel estão lentas.

Monitoramento:

OMEGAMON IMS

OTMA Queue Depth

08:00 -> 100
08:05 -> 500
08:10 -> 1500
08:15 -> 3500

O que investigar

Verificar:

/DIS TMEMBER
/DIS TRAN

Analisar:

  • IMS Connect

  • OTMA

  • MPPs disponíveis


Diagnóstico

As mensagens chegam.

Os programas não conseguem consumi-las.


Causa Raiz

Todas as MPPs estão ocupadas.


Solução

Aumentar MPPs:

/START REGION TYPE(MPP)

ou corrigir programa que está monopolizando processamento.


LAB 2 — IMS Connect Respondendo Lentamente

Cenário

Aplicativo mobile demora 15 segundos.

Terminal IMS continua rápido.


Monitoramento

PING OK

IMS TM OK

IMS Connect Response
15 segundos

Investigação

Verificar:

NETSTAT
AT-TLS
TCPIP

Diagnóstico

Handshake TLS excessivamente lento.


Causa

Certificado expirado gerando renegociações.


Solução

Atualizar certificados RACF.

Reiniciar componentes TLS.


LAB 3 — Região MPP Consumindo CPU Excessiva

Cenário

CPU dispara para 95%.


Monitoramento

RMF

IMSMPR01

CPU = 92%

Investigação

Verificar:

/DIS REGION

Analisar dumps.


Diagnóstico

Loop lógico no programa COBOL.


Causa

GN executado sem condição de parada.


Solução

Corrigir programa.

Recompilar.

Reimplantar.


LAB 4 — Banco IMS Não Abre

Cenário

Após IPL:

/START DB

Falha.


Mensagem

DATABASE NOT AVAILABLE

Investigação

Consultar:

DBRC
RECON

Diagnóstico

Image Copy inconsistente.


Causa

Backup interrompido.


Solução

Executar Recovery.

Gerar nova Image Copy.


LAB 5 — Shared Queue Congestionada

Cenário

IMSplex apresenta lentidão.


Monitoramento

CQS Queue Depth

Normal: 300

Atual: 25.000

Investigação

Verificar:

CQS
CF
Shared Queues

Diagnóstico

Estrutura da Coupling Facility saturada.


Solução

Expandir estrutura.

Redistribuir carga.


LAB 6 — Falha de Comunicação Mobile → IMS

Cenário

Aplicativo recebe:

HTTP 503

Investigação

Fluxo:

Mobile
 |
API
 |
z/OS Connect
 |
IMS Connect

Diagnóstico

IMS Connect indisponível.


Verificação

D A,L

Solução

Reiniciar:

S HWS

LAB 7 — Crescimento Anormal de Storage

Cenário

IMS termina com:

S878

Monitoramento

Region Storage

31-bit exhausted

Investigação

Analisar:

Buffers
Pools
Storage reports

Diagnóstico

Buffer pool configurado incorretamente.


Solução

Redimensionar buffers.

Migrar estruturas para 64 bits.


LAB 8 — Tempo de Resposta Intermitente

Cenário

Usuário reclama:

Às vezes rápido.
Às vezes lento.

Monitoramento

RMF

I/O Peaks

Investigação

Verificar:

  • DASD

  • Storage Controller

  • Canal FICON


Diagnóstico

Contenção de I/O.


Solução

Redistribuir datasets.

Balancear volumes.


LAB 9 — Falha de Recovery

Cenário

Recovery falha.


Mensagem

LOG RECORD MISSING

Investigação

Analisar:

RECON
Archive Logs
DBRC

Diagnóstico

Log arquivado ausente.


Solução

Restaurar log perdido.

Reexecutar recovery.


LAB 10 — O Incidente das 2 da Manhã

Cenário

Todos os sintomas aparecem ao mesmo tempo.

Filas crescendo
CPU alta
Usuários reclamando
Mobile lento

Monitoramento

OMEGAMON
RMF
IMS
TCPIP

Investigação

Passo 1

CPU

Passo 2

Storage

Passo 3

IMS Connect

Passo 4

MPP

Passo 5

OTMA

Diagnóstico

Uma única MPP travada.

Todas as filas aguardando.


Solução

Cancelar região problemática.

/CANCEL REGION

Iniciar nova região.

/START REGION TYPE(MPP)

Filas normalizam.

Sistema volta ao normal.


Resultado Esperado do Laboratório

Ao concluir os 10 incidentes o aluno terá contato com:

✅ IMS TM

✅ IMS Connect

✅ OTMA

✅ MPP

✅ BMP

✅ Shared Queues

✅ CQS

✅ IMSplex

✅ DBRC

✅ Recovery

✅ Storage

✅ Performance

✅ OMEGAMON

✅ RMF

✅ RACF

✅ TCP/IP

E principalmente aprenderá a pensar como um Sysprog ou Sysadmin experiente:

"Não procurar apenas o erro, mas entender o fluxo completo da transação do usuário até o IMS Database."

☕💣🚀 Regra de ouro do laboratório: em ambientes IMS, o sintoma raramente está no mesmo lugar da causa raiz. O trabalho do Sysprog e do Sysadmin é seguir a trilha da transação até encontrar o verdadeiro culpado.


sábado, 6 de junho de 2026

IMS DB: A História do Gigante Invisível Que Continua Movendo o Mundo sob a otica de um SysProg

 

Bellacosa Mainframe e o IMS DB na visão de um SysProg

☕💣🚀 OPERADOR, O SYSProg ACABOU DE ESBARRAR NO IMS!

A História do Gigante Invisível Que Continua Movendo o Mundo

Existe uma cena que se repete silenciosamente em datacenters espalhados pelo planeta.

São duas horas da manhã.

O celular do operador toca.

Um alerta vermelho aparece na tela.

Uma aplicação crítica parou de responder.

O aplicativo do banco está lento.

As transações estão acumulando.

O monitoramento mostra filas crescendo.

O incidente é aberto.

Em poucos minutos surgem os personagens clássicos do mundo Mainframe:

  • Operação

  • Sysadmin

  • DBA

  • Desenvolvedor COBOL

  • Especialista de rede

  • Sysprog

E então alguém faz a pergunta que muda completamente a investigação:

— Essa aplicação usa IMS?

Silêncio.

Porque nesse momento todos sabem que entraram em um território especial.

Um território que nasceu antes da chegada do homem à Lua.

Um território que continua processando bilhões de transações diariamente.

Um território chamado IMS.


O Dia em Que o Sysprog Descobre Que Existe Vida Além do JES2

Todo Sysprog conhece bem alguns velhos amigos:

  • z/OS

  • JES2

  • RACF

  • VTAM

  • TCP/IP

  • USS

  • WLM

  • SDSF

São componentes presentes no cotidiano.

Mas cedo ou tarde surge aquele ambiente misterioso.

Uma região diferente.

Um started task estranho.

Um conjunto de logs desconhecidos.

Uma arquitetura enorme.

E então aparece um nome:

IMS.

Muitos profissionais passam anos trabalhando em Mainframe sem perceber o tamanho da presença do IMS dentro das grandes corporações.

Até o dia em que precisam investigar um problema.

E aí tudo muda.


O Gigante Invisível

O curioso sobre o IMS é que ele raramente aparece.

Ninguém abre o aplicativo do banco pensando:

"Vou consultar um banco de dados hierárquico criado em 1966."

Ninguém compra uma passagem aérea pensando:

"Espero que o IMS esteja funcionando."

Ninguém faz um PIX imaginando:

"Obrigado, IMS."

Mas milhões de transações passam por ele diariamente.

O IMS é invisível para o usuário final.

Mas completamente visível para quem trabalha na infraestrutura.

Especialmente para o Sysprog.


O Chamado das Três da Manhã

Imagine a situação.

O monitoramento começa a registrar degradação.

O painel do OMEGAMON mostra filas crescendo.

As mensagens OTMA começam a acumular.

O tempo de resposta aumenta.

A aplicação continua ativa.

O z/OS continua saudável.

O processador está tranquilo.

Mas alguma coisa está errada.

O Sysprog inicia a investigação.

Primeiro verifica:

  • CPU

  • Storage

  • Paging

  • Coupling Facility

  • WLM

Tudo parece normal.

Então ele olha para o ambiente IMS.

E percebe algo interessante.

As regiões MPP estão saturadas.


O Primeiro Contato Com o Mundo IMS

Nesse momento muitos profissionais descobrem que o IMS não é apenas um banco de dados.

Na verdade existem dois mundos.

O primeiro:

IMS DB.

Responsável pelos dados.

O segundo:

IMS TM.

Responsável pelas transações.

É nesse segundo mundo que o Sysprog costuma interagir com maior frequência.

Porque ali vivem:

  • Filas

  • Mensagens

  • Regiões

  • Processamento

  • Balanceamento

  • Integração

É praticamente um sistema operacional dentro do sistema operacional.


O Que o Sysprog Enxerga

O desenvolvedor COBOL enxerga:

Dados.

O DBA enxerga:

Segmentos.

O usuário enxerga:

Aplicações.

O Sysprog enxerga:

Infraestrutura.

Ele observa:

  • MPPs

  • BMPs

  • IFPs

  • JMPs

  • Control Region

  • IMS Connect

  • CQS

  • SCI

  • OM

  • RM

E começa a entender que o IMS é muito mais parecido com um ecossistema do que com um simples banco de dados.


O Momento da Descoberta

Todo Sysprog passa por um momento de revelação.

É quando percebe que o fluxo moderno pode ser algo assim:

Smartphone.

API REST.

z/OS Connect.

IMS Connect.

IMS TM.

Programa COBOL.

IMS DB.

Tudo funcionando em poucos milissegundos.

O usuário acredita que está conversando com uma arquitetura moderna baseada em cloud.

Na realidade existe um software cuja origem remonta ao Projeto Apollo.

E isso é fascinante.


O Mistério do IMS Connect

Uma das áreas onde o Sysprog mais interage atualmente é o IMS Connect.

Porque ele é a ponte entre dois mundos.

De um lado:

  • Mobile

  • APIs

  • Cloud

  • Microserviços

Do outro:

  • IMS

  • COBOL

  • DL/I

  • Bancos hierárquicos

Quando surge um problema de conectividade, o Sysprog frequentemente é chamado.

Ele analisa:

  • TCP/IP

  • Portas

  • TLS

  • Certificados

  • RACF

  • AT-TLS

E muitas vezes descobre que o problema não está no IMS.

Está na infraestrutura.


Quando o Problema É Performance

Performance é outro território clássico.

Imagine uma instituição financeira.

Milhões de transações.

Centenas de regiões.

Milhares de usuários simultâneos.

Tudo funcionando perfeitamente.

Até que algo muda.

Talvez:

  • Um novo aplicativo

  • Uma campanha comercial

  • Um aumento inesperado de carga

De repente o ambiente começa a sofrer.

O Sysprog entra em ação.

Analisa:

  • Buffers

  • Storage

  • CPU

  • I/O

  • Coupling Facility

  • Shared Queues

E percebe que o IMS continua fazendo exatamente aquilo para o qual foi criado:

processar volumes absurdos de dados.


O Dia em Que o Sysprog Conhece o IMSplex

Se existe um conceito capaz de impressionar um Sysprog, esse conceito é o IMSplex.

Imagine vários IMS funcionando como uma única entidade lógica.

Algo semelhante ao Parallel Sysplex.

Mas voltado para o universo IMS.

O Sysprog passa então a lidar com:

  • SCI

  • OM

  • RM

  • CQS

E descobre que a arquitetura é muito mais sofisticada do que imaginava.


Recovery: O Momento da Verdade

Existe uma situação que separa curiosos de especialistas.

Recovery.

Quando tudo funciona, qualquer ambiente parece simples.

Mas quando ocorre uma falha séria...

A verdadeira engenharia aparece.

É nesse momento que surgem:

  • DBRC

  • Logs

  • Image Copies

  • Checkpoints

O Sysprog participa do processo.

Nem sempre executando o recovery diretamente.

Mas garantindo que toda a infraestrutura necessária esteja disponível.


A Grande Lição do IMS

Talvez a maior lição que o IMS ensine seja esta:

Desempenho não nasce da moda.

Nasce da arquitetura.

O IMS foi criado em uma época em que recursos eram escassos.

CPU era cara.

Memória era rara.

Disco era limitado.

Cada acesso precisava ser cuidadosamente planejado.

Por isso o produto foi construído com obsessão por eficiência.

Décadas depois, essa obsessão continua produzindo resultados.


O Futuro do IMS

Muita gente imagina que o IMS seja um fóssil.

Mas basta observar as versões mais recentes.

IMS Connect.

APIs REST.

Integração com Java.

Catálogo IMS.

Managed ACBs.

Observabilidade.

Uso ampliado de memória de 64 bits.

O produto continua evoluindo.

Não para competir com bancos modernos.

Mas para continuar fazendo aquilo que sempre fez melhor:

executar cargas críticas em escala gigantesca.


Por Que um Sysprog Deve Aprender IMS?

Porque cedo ou tarde ele vai encontrá-lo.

Talvez durante uma migração.

Talvez durante uma investigação.

Talvez durante um incidente crítico.

Talvez durante uma modernização.

Quando isso acontecer, entender IMS fará toda a diferença.

Não é necessário se tornar um DBA IMS.

Não é necessário dominar DL/I.

Mas compreender:

  • Arquitetura

  • Regiões

  • IMS Connect

  • IMSplex

  • DBRC

  • Recovery

  • Performance

transforma completamente a capacidade de diagnosticar problemas.


Conclusão

☕💣🚀

Operador...

Existe uma boa chance de que neste exato momento algum aplicativo bancário esteja consultando um banco IMS.

Existe uma boa chance de que alguma companhia aérea esteja processando reservas através dele.

Existe uma boa chance de que algum sistema de seguros esteja executando milhões de transações sobre uma arquitetura criada há quase seis décadas.

E existe uma boa chance de que, em algum momento da sua carreira, você receba uma ligação no meio da madrugada e escute a frase:

"Precisamos da ajuda do Sysprog. O IMS está envolvido."

Quando esse dia chegar, você descobrirá que o IMS não é apenas um banco de dados.

Ele é um dos pilares invisíveis que sustentam o mundo digital moderno.

E entender como ele funciona é uma das habilidades mais valiosas que um profissional de Mainframe pode desenvolver.

Esse artigo segue o estilo narrativo do Bellacosa Mainframe: abertura impactante, storytelling operacional, visão prática de Sysprog, curiosidades históricas, arquitetura técnica e fechamento inspiracional.


domingo, 31 de maio de 2026

☕🔥💣 O SYSprog PADAWAN E A ARTE DA GUERRA CONTRA O CAOS

 

Bellacosa Mainframe a arte da guerra contra o caos conheça o RCA

☕🔥💣 O SYSprog PADAWAN E A ARTE DA GUERRA CONTRA O CAOS

Root Cause Analysis no IBM Mainframe: Por Que Reiniciar o CICS Não Resolve Seus Problemas

Existe uma frase muito comum nos corredores dos data centers:

"Reinicia que volta."

Durante décadas ela funcionou.

O CICS travou?

Reinicia.

O batch falhou?

Roda de novo.

O MQ congestionou?

Dá STOP e START.

O JES2 ficou estranho?

Cancela alguns jobs.

O storage explodiu?

Aumenta a região.

O problema é que essa mentalidade criou gerações de profissionais especialistas em apagar incêndios, mas não necessariamente especialistas em eliminar incêndios.

E existe uma diferença gigantesca entre as duas coisas.

O verdadeiro profissional de Mainframe moderno não é aquele que resolve o incidente mais rápido.

É aquele que garante que o incidente nunca mais aconteça.

É aí que entra uma das disciplinas mais importantes da engenharia moderna:

Root Cause Analysis (RCA)

Ou, em português:

Análise de Causa Raiz

Uma habilidade que separa o operador comum do engenheiro de confiabilidade.


O INCIDENTE NÃO É O PROBLEMA

Este é talvez o conceito mais importante de todo o artigo.

Quando um sistema cai, aquilo que você vê não é o problema.

É apenas a consequência visível.

Imagine uma transação CICS que começa a responder lentamente.

O usuário reclama.

O suporte abre um chamado.

O operador percebe aumento de CPU.

O time de infraestrutura aumenta recursos.

Tudo parece resolvido.

Mas alguns dias depois o problema volta.

Por quê?

Porque ninguém investigou a causa raiz.

A lentidão era apenas um sintoma.

O problema verdadeiro talvez fosse:

  • SQL ineficiente

  • Índice DB2 corrompido

  • Loop em programa COBOL

  • Fila MQ congestionada

  • Deadlock de recursos

  • Automação mal configurada

Resolver o sintoma gera alívio.

Resolver a causa gera evolução.


O MAIOR PECADO DA TI MODERNA

A Harvard Business Review publicou um estudo mostrando que a maioria dos executivos acredita que suas organizações são ruins em diagnosticar problemas.

Isso não surpreende.

A cultura corporativa moderna recompensa velocidade.

Poucas vezes recompensa investigação.

A pressão é sempre:

"Volta o sistema agora."

Raramente alguém pergunta:

"Por que ele caiu?"

E menos ainda:

"Como impedimos que isso aconteça novamente?"


O DETETIVE DIGITAL

Um bom profissional de RCA pensa como um investigador.

Quando ocorre uma falha ele não procura imediatamente uma solução.

Primeiro procura evidências.

Ele coleta:

  • SYSLOG

  • JESMSGLG

  • SMF

  • RMF

  • Dumps

  • Traces

  • Mensagens CICS

  • Logs DB2

  • Eventos MQ

  • Métricas OMEGAMON

Cada informação conta parte da história.

Nenhum log isolado revela a verdade completa.

O segredo está na correlação.


O CASO DO BATCH QUE ATRASAVA TODA SEXTA-FEIRA

Vamos analisar um exemplo realista.

Toda sexta-feira o processamento noturno atrasava duas horas.

A primeira reação foi aumentar os initiators JES2.

Funcionou por algumas semanas.

Depois o atraso voltou.

Nova tentativa:

Mais CPU.

Mais memória.

Mais canais.

Nada resolveu.

Quando uma análise de causa raiz foi finalmente realizada, descobriu-se que um programa COBOL executava uma consulta DB2 sem índice adequado.

Toda sexta-feira havia crescimento no volume de dados.

A consulta que normalmente levava segundos passava a consumir minutos.

Um único SQL provocava efeito cascata em dezenas de jobs dependentes.

A verdadeira solução não foi comprar hardware.

Foi corrigir um SQL.


O MÉTODO DOS CINCO PORQUÊS

Uma técnica clássica de RCA é conhecida como:

Five Whys

Cinco Porquês.

Exemplo:

Problema:

Batch falhou.

Por quê?

Dataset estava bloqueado.

Por quê?

Outro job mantinha ENQ.

Por quê?

Entrou em loop.

Por quê?

SQL aguardava retries.

Por quê?

Índice DB2 estava inconsistente.

Agora temos a causa raiz.

Observe que a resposta verdadeira apareceu apenas após várias camadas de investigação.


O INIMIGO INVISÍVEL CHAMADO CULTURA

Muitas vezes a causa raiz não está no software.

Nem no hardware.

Nem na rede.

Está nas pessoas.

Considere o seguinte cenário.

Um deploy derruba produção.

A primeira conclusão costuma ser:

"O desenvolvedor errou."

Mas uma análise profunda pode revelar:

  • Prazo impossível

  • Falta de testes

  • Ausência de homologação

  • Pressão da gestão

  • Processo de aprovação falho

O erro humano foi apenas o último elo da corrente.

A verdadeira falha estava no sistema organizacional.


O MODELO DE CONGRUÊNCIA

Uma abordagem extremamente interessante utilizada em liderança organizacional é o Modelo de Congruência.

Ele analisa cinco dimensões:

Trabalho

O que precisa ser feito?

Dependências

Quem depende de quem?

Capacidades

As pessoas possuem conhecimento suficiente?

Estrutura

A organização facilita ou dificulta o trabalho?

Cultura

Os comportamentos desejados são incentivados?

No Mainframe isso é extremamente aplicável.

Não adianta investir milhões em Z17 se:

  • a equipe não recebe treinamento

  • a documentação está desatualizada

  • os processos são confusos

  • ninguém entende as integrações


O MAINFRAME MODERNO É UM ECOSSISTEMA

Nos anos 80 era relativamente fácil identificar falhas.

Hoje um único fluxo pode envolver:

  • COBOL

  • CICS

  • DB2

  • MQ

  • APIs REST

  • Kafka

  • Cloud

  • Linux on Z

  • Zowe

  • DevOps

A causa raiz pode estar em qualquer lugar.

Ou em vários lugares simultaneamente.

Por isso a investigação precisa ser sistêmica.


A ARMADILHA DO "SEMPRE FOI ASSIM"

Uma das causas mais perigosas de incidentes recorrentes é a complacência.

Frases famosas:

"Isso acontece às vezes."

"Sempre fizemos assim."

"Nunca deu problema."

São frases que deveriam acender alertas imediatos.

Porque normalmente escondem riscos acumulados durante anos.


COMO REALIZAR UM RCA NO MAINFRAME

Passo 1 — Definir o Problema

Não investigue algo genérico.

Errado:

"O sistema está ruim."

Correto:

"O CICS CICSPRD apresentou aumento de resposta de 0,3 para 8 segundos entre 14h e 15h."

Problemas bem definidos geram investigações eficientes.


Passo 2 — Coletar Evidências

Reúna:

  • logs

  • métricas

  • dumps

  • relatórios

  • eventos

Sem dados você possui apenas opiniões.


Passo 3 — Construir a Linha do Tempo

Pergunte:

O que aconteceu primeiro?

O que aconteceu depois?

Qual evento precedeu a falha?

Muitas causas aparecem quando organizamos os fatos cronologicamente.


Passo 4 — Correlacionar Eventos

Um erro aparentemente isolado pode estar conectado a dezenas de outros eventos.

O desafio é encontrar essas relações.


Passo 5 — Aplicar os Cinco Porquês

Continue perguntando:

Por quê?

Até chegar à origem.


Passo 6 — Validar a Hipótese

A hipótese precisa ser comprovada.

Não basta parecer correta.

Ela deve explicar:

  • o incidente

  • os sintomas

  • a recorrência


Passo 7 — Criar Plano de Ação

A correção deve:

  • eliminar a causa

  • reduzir riscos

  • ser mensurável


FERRAMENTAS ESSENCIAIS PARA RCA NO Z/OS

RMF

Identifica gargalos de performance.

SMF

Registra praticamente tudo que acontece.

IPCS

Análise de dumps.

OMEGAMON

Observabilidade avançada.

SDSF

Investigação operacional.

NetView

Correlação de eventos.

System Automation

Automação e recuperação.

JES2

Análise de filas, execução e spool.


O FUTURO: AIOPS E RCA AUTOMATIZADO

Estamos entrando em uma era fascinante.

Ferramentas modernas conseguem:

  • detectar anomalias

  • prever falhas

  • correlacionar eventos

  • sugerir causas prováveis

AIOps não substitui o analista.

Mas amplifica sua capacidade.

O profissional moderno utilizará IA para acelerar investigações complexas.


ONDE A MAIORIA DAS EMPRESAS ERRA

As falhas mais comuns são:

Falta de documentação

Sem histórico não existe aprendizado.

Ausência de postmortem

O incidente é resolvido e esquecido.

Busca por culpados

Pessoas escondem erros quando temem punição.

Falta de métricas

Sem observabilidade não existe RCA.

Correções paliativas

Workarounds substituem soluções definitivas.


COMO EVOLUIR SUA ORGANIZAÇÃO

Empresas maduras desenvolvem cultura de aprendizado.

Após cada incidente perguntam:

  • O que aconteceu?

  • Por que aconteceu?

  • Como detectamos?

  • Como evitaremos recorrência?

  • O que aprendemos?

Essa simples mudança transforma organizações.


O SYSprog PADAWAN E O MESTRE

O Padawan reinicia.

O Mestre investiga.

O Padawan fecha chamados.

O Mestre elimina problemas.

O Padawan trata sintomas.

O Mestre trata causas.

O Padawan celebra quando o sistema volta.

O Mestre celebra quando o sistema não cai novamente.

Essa é a verdadeira evolução profissional.


CONCLUSÃO

Root Cause Analysis não é apenas uma metodologia.

É uma filosofia.

É a diferença entre sobreviver e evoluir.

No mundo do IBM Z17, DevOps, observabilidade, automação e inteligência artificial, a capacidade de descobrir a causa raiz tornou-se uma das habilidades mais valiosas da engenharia moderna.

Porque reiniciar um sistema pode resolver um incidente.

Mas apenas entender a causa raiz pode impedir que ele volte.

E é exatamente isso que separa um operador de console de um arquiteto da estabilidade.

No final das contas, o verdadeiro inimigo nunca foi o abend.

Nunca foi o dump.

Nunca foi o job cancelado.

O verdadeiro inimigo sempre foi aquilo que ninguém investigou.


sexta-feira, 29 de maio de 2026

☕🔥 “DO 3270 AO DEVOPS” — O GUIA DEFINITIVO DO SYSprog PADAWAN PARA IBM Z SYSTEM AUTOMATION, ZOWE E APIs MODERNAS

 

Bellacosa Mainframe e o IBM Z System Automation


☕🔥 “DO 3270 AO DEVOPS” — O GUIA DEFINITIVO DO SYSprog PADAWAN PARA IBM Z SYSTEM AUTOMATION, ZOWE E APIs MODERNAS

Existe um momento na vida de todo sysprog padawan em que ele percebe uma verdade assustadora:

“O mainframe moderno não vive mais apenas de ISPF, SDSF e comandos verdes.”

E nesse instante começa a jornada.

Uma jornada que leva o operador clássico do:

  • INGLIST

  • INGAMS

  • TSO

  • NetView

  • Automation Table

para um novo universo:

  • REST APIs

  • Swagger

  • Zowe CLI

  • Ansible

  • YAML

  • DevOps

  • GitOps

  • AIOps

Sim…
o IBM Z mudou.

E se você ainda imagina que automação no mainframe significa apenas:

START CICS
STOP DB2

então prepare seu café porque hoje vamos entrar no:

IBM Z System Automation MODERNO.


☕ O QUE É IBM Z SYSTEM AUTOMATION?

O IBM Z System Automation (SA z/OS):

é o cérebro operacional do mainframe.

Ele é responsável por:

  • iniciar subsistemas

  • parar aplicações

  • monitorar ambientes

  • tratar falhas

  • executar recovery automático

  • coordenar dependências

Pense nele como:

o “Kubernetes” do mundo enterprise tradicional.


🔥 EXEMPLO PRÁTICO

Imagine:

Você possui:

  • DB2

  • CICS

  • MQ

  • Batch

  • WebSphere

Tudo depende um do outro.

O SA sabe:

  • o que iniciar primeiro

  • o que depende do quê

  • como reagir a falhas

  • como automatizar recovery


☕ O MUNDO ANTIGO DO SYSprog

Durante décadas:

o mainframe foi operado principalmente via 3270.

Comandos clássicos:

INGLIST
INGAMS
INGREQ
INGSET

Painéis verdes.
PF Keys.
Automation Tables.
Policy Database.

Funcionava maravilhosamente.

E ainda funciona.

Mas o mundo mudou.


🔥 O PROBLEMA

Enquanto Linux e Cloud evoluíam para:

  • APIs

  • pipelines

  • automação declarativa

  • integração CI/CD

o mainframe parecia isolado.

Até que a IBM começou uma revolução silenciosa.


☕ NASCE O SYSTEM AUTOMATION OPERATIONS REST SERVER

Esse componente:

mudou tudo.

O SA ganhou:

APIs REST modernas.

Agora qualquer software consegue conversar com o mainframe usando:

  • HTTP

  • JSON

  • REST

  • CURL


🧠 O QUE ISSO SIGNIFICA?

Antes:

Operador
   ↓
3270
   ↓
NetView

Agora:

Pipeline DevOps
      ↓
REST API
      ↓
IBM Z System Automation

☕ O QUE O REST SERVER CONSEGUE FAZER?

Ele permite:

✅ listar resources
✅ iniciar aplicações
✅ parar subsistemas
✅ criar dynamic resources
✅ deletar resources
✅ refresh policy
✅ consultar requests
✅ interagir com automation managers


🔥 MAS EXISTE UMA LIMITAÇÃO IMPORTANTE

O REST API:

NÃO edita a policy.

Ele opera:

o runtime.

Ou seja:

  • você controla recursos

  • mas não altera definições da policy

Isso é importante para:

  • segurança

  • governança

  • integridade operacional


☕ SWAGGER UI — O LABORATÓRIO SECRETO DO SYSprog

Depois que o REST Server está ativo:

nasce o Swagger UI.

URL típica:

http://server:port/ibm/sa/swagger-ui/index.html

🔥 O QUE É ISSO?

Uma interface web interativa que mostra:

  • endpoints

  • parâmetros

  • JSON

  • responses

  • códigos HTTP

E MAIS:

você pode testar chamadas ao vivo.


☕ EXEMPLO REAL

Consultar resources:

GET /resources

Resposta:

{
 "resource":"CICSA",
 "status":"UP"
}

🔥 AGORA O SYSprog COMEÇA A VIRAR DEVOPS ENGINEER

Porque:

APIs permitem integração total.


☕ CURL — O PODER BRUTO

O Swagger ainda mostra comandos CURL.

Exemplo:

curl -X GET https://server/resources

Agora imagine:

  • scripts

  • automação

  • pipelines

  • monitoramento externo

Tudo falando com SA.


☕ E ENTÃO SURGE O ZOWE CLI

O Zowe foi outra revolução gigantesca.

Ele trouxe:

shell moderno para o mainframe.


🔥 ANTES

3270

🔥 AGORA

zowe sa list resources

🧠 O ZOWE É COMO UM “LINUX TERMINAL” PARA z/OS

E isso reduz brutalmente:

a barreira de entrada no mainframe.


☕ POR QUE ISSO É IMPORTANTE?

Hoje muitos profissionais:

  • conhecem Linux

  • usam Git

  • usam shell

  • usam pipelines

Mas:

  • não conhecem ISPF

  • não conhecem PF Keys

  • não conhecem 3270

O Zowe resolve isso.


☕ COMO O ZOWE FUNCIONA?

Arquitetura:

Zowe CLI
    ↓
SA Plug-in
    ↓
REST Server
    ↓
IBM Z System Automation

🔥 O ZOWE NÃO SUBSTITUI O NETVIEW

Ele é:

uma interface adicional.


☕ INSTALANDO O ZOWE

Pré-requisitos:

✅ Node.js
✅ npm
✅ gnome-keyring (Linux)

Instalação:

npm install -g @zowe/cli

☕ INSTALANDO O PLUGIN SA

zowe plugins install

☕ COMANDOS IMPORTANTES

Listar resources:

zowe sa list resources

Deletar dynamic resource:

zowe sa del res --name TESTE1

Ajuda:

zowe sa --help

Ajuda HTML:

zowe sa --help-web

☕ DYNAMIC RESOURCES — O CONCEITO MAIS IMPORTANTE

Isso aqui muda completamente a automação do mainframe.


🔥 O QUE É UM DYNAMIC RESOURCE?

Um recurso criado:

em runtime.

Sem:

  • rebuild

  • refresh completo

  • restart global


🧠 ISSO É MUITO “CLOUD-LIKE”


☕ ANALOGIA MODERNA

CloudSA
PodDynamic Resource
kubectlZowe
YAMLPlaybook
DeploymentTemplate

☕ ENTRA O ANSIBLE

Agora chegamos ao nível Jedi.


🔥 O QUE É O ANSIBLE?

Ferramenta de automação declarativa baseada em:

YAML.


🧠 “DECLARATIVA” SIGNIFICA:

Você descreve:

o estado desejado.

E o Ansible executa.


☕ IBM Z SYSTEM AUTOMATION ANSIBLE COLLECTION

A IBM criou uma collection específica para SA.

Ela oferece duas roles:

sa_create_dynamic_resource
sa_delete_dynamic_resource

☕ EXEMPLO DE PLAYBOOK

- hosts: zos
  roles:
    - sa_create_dynamic_resource

🔥 O QUE ACONTECE?

Playbook
   ↓
REST API
   ↓
SA REST Server
   ↓
INGDYN CREATE

☕ ISSO É REVOLUCIONÁRIO

Porque agora:

o mainframe entra no pipeline DevOps.


☕ CENÁRIO REAL

Imagine:

Developer faz:

git push

Pipeline executa:

Ansible
 ↓
Deploy
 ↓
Create dynamic resource
 ↓
Start application

Tudo automático.


☕ O SYSprog DO FUTURO

O profissional moderno não será apenas:

operador de console.

Ele será:

  • automation engineer

  • platform engineer

  • DevOps specialist

  • API integrator


☕ AIOPS — O PRÓXIMO PASSO

A IBM está indo além.

Agora fala-se em:

AIOps.

Artificial Intelligence for IT Operations.


🔥 O OBJETIVO

Usar:

  • analytics

  • machine learning

  • observability

  • automation

para criar:

sistemas autônomos.


☕ O SA FAZ PARTE DISSO

Hoje o SA integra:

  • observabilidade

  • automation

  • REST APIs

  • eventos

  • workflows


☕ O SYSprog PADAWAN PRECISA ENTENDER UMA VERDADE

O mainframe:

não está parado no tempo.

Na verdade:

ele está se tornando uma plataforma híbrida programável.


☕ O QUE VOCÊ DEVE ESTUDAR AGORA?

Depois desse curso:

  • REST APIs

  • JSON

  • YAML

  • Python

  • Zowe

  • Ansible

  • Git

  • OpenShift

  • z/OSMF

  • SMU


☕ DICA DE OURO DO LOBO VELHO

Aprenda:

os dois mundos.

Porque o profissional mais poderoso será aquele que souber:

✅ INGLIST
✅ NetView
✅ Policy
✅ Automation Tables

MAS TAMBÉM:

✅ APIs
✅ Zowe
✅ YAML
✅ Ansible
✅ DevOps


☕ CONCLUSÃO

O IBM Z moderno está atravessando a maior transformação operacional desde o surgimento do Sysplex.

O que antes era:

  • centralizado

  • fechado

  • baseado em 3270

está se tornando:

  • orientado a APIs

  • integrado a pipelines

  • declarativo

  • automatizado

  • cloud-aware

E o IBM Z System Automation é uma das peças centrais dessa transformação.

O sysprog padawan que aprender isso agora:

estará anos à frente do mercado.

Porque o futuro do mainframe:

não é abandonar o legado.

É integrar o legado ao futuro.


quinta-feira, 28 de maio de 2026

☕🔥💣 “O SYSprog PADAWAN E A ARTE DA GUERRA CONTRA O CAOS” — ROOT CAUSE ANALYSIS NO MAINFRAME Z17, DEVOPS, CICS, JES2 E A CAÇADA À CAUSA RAIZ

 

Bellacosa Mainframe e root cause analysis em Mainframe


☕🔥💣 “O SYSprog PADAWAN E A ARTE DA GUERRA CONTRA O CAOS” — ROOT CAUSE ANALYSIS NO MAINFRAME Z17, DEVOPS, CICS, JES2 E A CAÇADA À CAUSA RAIZ

Quando o operador para de apagar incêndios e começa a eliminar demônios do datacenter

Existe um momento na vida de todo Sysprog Padawan em que ele percebe uma verdade brutal do universo corporativo:

“Reiniciar o JOB não resolveu o problema…”

Apenas escondeu o cadáver.

E é exatamente nesse momento que nasce a verdadeira disciplina do guerreiro IBM Z:
a arte da Root Cause Analysis — ou simplesmente RCA.

No universo do mainframe moderno, onde bilhões de transações passam por CICS, DB2, MQ, IMS e JES2, problemas não aparecem do nada.

Todo ABEND possui uma origem.

Todo LOOP tem um motivo.

Todo dataset corrompido conta uma história.

E todo operador experiente sabe:

“O sintoma mente. A causa raiz não.”

Hoje vamos mergulhar profundamente no universo da RCA no estilo Bellacosa Mainframe, explorando:

  • história,

  • filosofia,

  • métodos,

  • guerra operacional,

  • automação,

  • observabilidade,

  • DevOps,

  • IA operacional,

  • e sobrevivência psicológica em ambientes z/OS críticos.

Prepare o café.
Abra o SDSF.
E mantenha o dump por perto.

Porque o LOBO da causa raiz está observando.


☕ O QUE É ROOT CAUSE ANALYSIS?

Root Cause Analysis é a ciência de descobrir a verdadeira origem de um problema.

Não o sintoma.
Não o efeito.
Não o caos superficial.

Mas sim:
o gatilho original que iniciou a cascata da destruição.

Na definição da IBM:

“RCA é o processo de identificar a raiz de um problema para evitar sua recorrência.”

O detalhe importante aqui é:

EVITAR RECORRÊNCIA.

Porque qualquer novato consegue:

  • cancelar TASK,

  • reiniciar STC,

  • reciclar CICS,

  • dar IPL no desespero.

Mas poucos conseguem impedir o problema de voltar.


☕ A DIFERENÇA ENTRE OPERADOR E ENGENHEIRO

Operador reativo:

“Voltou a funcionar? Ótimo.”

Engenheiro RCA:

“Por que parou?”

Essa diferença separa:

  • operadores comuns,

  • Sysprogs lendários.


☕ A ORIGEM HISTÓRICA DA RCA

A RCA não nasceu na TI.

Ela surgiu em ambientes extremos.

Segunda Guerra Mundial

Engenheiros militares precisavam descobrir:

  • por que aviões caíam,

  • por que motores explodiam,

  • por que radares falhavam.

Não havia espaço para tentativa e erro.

A falha matava pessoas.

A filosofia então evoluiu para:

  • engenharia industrial,

  • indústria nuclear,

  • aviação,

  • automóveis,

  • telecom,

  • e finalmente TI corporativa.


☕ TOYOTA E O MÉTODO DOS 5 WHYs

Nos anos 1950, Taiichi Ohno criou o famoso:

“5 Porquês”

A lógica era simples:

Continue perguntando “por quê?” até encontrar a verdade.


☕ EXEMPLO MAINFRAME REALÍSTICO

Problema:

JOB noturno ABEND S0C7.


Por quê?

Campo numérico inválido.


Por quê?

Arquivo veio com caracteres errados.


Por quê?

Conversão ASCII/EBCDIC falhou.


Por quê?

Novo middleware FTP alterou encoding.


Por quê?

Mudança entrou sem homologação.


CAUSA RAIZ:

Processo DevOps inadequado.

Perceba:
o COBOL não era o vilão.

O problema estava na governança.


☕ O MAIOR ERRO DOS PADAWANS

Todo Sysprog iniciante acredita em sintomas.

Mas sintomas enganam.

Exemplo clássico:

Sintoma:

CPU alta.

O Padawan pensa:

“Precisamos de mais processador.”

O mestre RCA responde:

“Não.
Precisamos descobrir QUEM está consumindo CPU.”

Pode ser:

  • loop COBOL,

  • SQL ruim,

  • runaway task,

  • lock contention,

  • buffer inadequado,

  • storage leak,

  • automação defeituosa.

A CPU alta é apenas o grito do sistema.


☕ OS 3 TIPOS DE CAUSAS

A IBM divide RCA em três dimensões.


1. CAUSAS FÍSICAS

Hardware.
Infraestrutura.
Equipamentos.

Exemplos:

  • DASD defeituoso

  • canal FICON instável

  • controladora falhando

  • memória ECC corrompida

  • falha elétrica


☕ EXEMPLO Z/OS

O JES2 começa a apresentar I/O ERROR.

Batch falha aleatoriamente.

Após investigação:

Causa raiz:

microfissura em controladora storage.


2. CAUSAS HUMANAS

O terror invisível do datacenter.

Exemplos:

  • operador cancelando STC errada,

  • PROC alterada incorretamente,

  • DELETE DATASET acidental,

  • parâmetro inválido,

  • JCL truncado.


☕ O CLÁSSICO ERRO DO PADAWAN

//STEP01 EXEC PGM=IEFBR14
//DD1 DD DSN=PROD.CLIENTES,
// DISP=(OLD,DELETE,DELETE)

Parabéns.

Você acabou de invocar o demônio ancestral do DELETE em produção.


3. CAUSAS ORGANIZACIONAIS

As mais perigosas.

Porque sobrevivem por anos.

Exemplos:

  • ausência de documentação,

  • treinamento ruim,

  • processo inexistente,

  • automação incompleta,

  • cultura tóxica,

  • deploy sem governança.


☕ A VERDADE SOMBRIA

Grandes falhas raramente acontecem por um único motivo.

Elas acontecem porque:

múltiplas pequenas falhas se alinham.

Igual peças de dominó.


☕ O CICLO DA DESTRUIÇÃO OPERACIONAL

  1. Pequena falha ignorada

  2. Monitoramento ruim

  3. Automação incompleta

  4. Time cansado

  5. Mudança mal testada

  6. Alertas ignorados

  7. Deploy na sexta-feira

  8. Caos absoluto


☕ O PROCESSO COMPLETO DE RCA

Agora entramos na disciplina guerreira.


ETAPA 1 — IDENTIFICAR O PROBLEMA

Definição ruim:

“O sistema caiu.”

Definição profissional:

“O CICS PAY01 apresentou degradação progressiva após aumento de lock contention DB2 causado por crescimento anômalo de filas MQ.”

Agora sim existe material técnico.


☕ ETAPA 2 — MONTAR O TIME RCA

Você precisa reunir:

  • operadores,

  • Sysprogs,

  • DBAs,

  • DevOps,

  • segurança,

  • storage,

  • redes,

  • automação.

Porque falhas modernas são híbridas.


☕ ETAPA 3 — COLETA DE DADOS

Aqui começa a arqueologia digital.

Ferramentas clássicas:

  • SDSF

  • RMF

  • SMF

  • IPCS

  • NetView

  • OMEGAMON

  • SYSLOG

  • dumps

  • traces

  • logs MQ

  • logs DB2


☕ O PODER DOS LOGS

Logs são fósseis digitais.

Eles contam a história da tragédia.

O problema é:

Padawans não leem logs.

Eles olham apenas:

  • RC=12

  • ABEND=S806

  • IEC141I

E entram em pânico.


☕ ETAPA 4 — BRAINSTORM DAS CAUSAS

Aqui existe uma regra sagrada:

NÃO ASSUMA NADA.

O maior inimigo da RCA é:

“Já sei o que aconteceu.”

Porque normalmente você NÃO sabe.


☕ ETAPA 5 — DETERMINAR A CAUSA RAIZ

Agora elimina-se hipótese por hipótese.

Até restar:

  • evidência,

  • causalidade,

  • sequência lógica.


☕ ETAPA 6 — IMPLEMENTAR A SOLUÇÃO

Agora nasce a verdadeira engenharia.

Não basta corrigir.

É preciso:

  • automatizar,

  • prevenir,

  • monitorar,

  • alertar,

  • documentar.


☕ MÉTODOS RCA MAIS IMPORTANTES


☕ 5 WHYs

Simples.
Poderoso.
Mortal.

Excelente para:

  • incidentes operacionais,

  • falhas batch,

  • troubleshooting rápido.


☕ FMEA

Failure Mode and Effects Analysis.

Muito usado em:

  • bancos,

  • aviação,

  • missão crítica.

Objetivo:

Prever COMO o sistema pode falhar antes do desastre.


☕ ISHIKAWA (FISHBONE)

O famoso diagrama espinha de peixe.

Divide problemas em categorias:

  • pessoas,

  • máquinas,

  • processos,

  • ambiente,

  • software,

  • gestão.

Excelente para war rooms.


☕ PARETO

80% dos problemas vêm de 20% das causas.

Exemplo real:

  • 70% dos ABENDs vêm de input inválido.

  • 15% vêm de espaço.

  • 10% vêm de lock.

  • 5% diversos.

Ataque os 20%.
Ganhe estabilidade absurda.


☕ RCA EM DEVOPS

No DevOps moderno:

TODO INCIDENTE GERA POSTMORTEM.

Mas aqui existe uma mudança filosófica gigantesca.


☕ BLAMELESS POSTMORTEM

Google popularizou:

“Postmortem sem caça às bruxas.”

Objetivo:

Não destruir pessoas.
Mas aprender.

Porque sistemas falham.
Humanos erram.
Processos quebram.

A maturidade está em aprender rápido.


☕ RCA NO MAINFRAME MODERNO

O IBM Z atual é extremamente avançado.

Hoje temos:

  • observabilidade,

  • IA operacional,

  • automação,

  • analytics,

  • machine learning.

Ferramentas modernas:

  • IBM Instana

  • OMEGAMON

  • System Automation

  • NetView

  • z/OSMF

  • SMF Analytics


☕ EXEMPLO REAL — O APOCALIPSE DO PIX

Imagine:

Sexta-feira.
18:05.
PIX nacional congestionado.

Sintomas:

  • CICS lento

  • MQ crescendo

  • DB2 travando

  • CPU disparando

Padawans entram em desespero.


☕ INVESTIGAÇÃO

A RCA descobre:

Deploy DevOps alterou frequência de COMMIT.

Resultado:

  • lock contention,

  • timeout,

  • crescimento de filas,

  • efeito cascata.


☕ CAUSA RAIZ

Mudança sem teste de carga.


☕ SOLUÇÃO

  • rollback,

  • observabilidade,

  • testes automáticos,

  • limites MQ,

  • monitoramento preditivo.

Agora o sistema ficou MAIS FORTE que antes.

Esse é o verdadeiro objetivo da RCA.


☕ A ERA DA IA OPERACIONAL

Hoje AIOps tenta prever:

  • anomalias,

  • falhas,

  • gargalos,

  • tendências,

  • causas prováveis.

O futuro do Sysprog não é apenas reagir.

Será:

prever o desastre antes dele nascer.


☕ O VERDADEIRO NÍVEL MESTRE

O Sysprog lendário não luta contra incêndios.

Ele elimina as condições que permitem incêndios.


☕ LIÇÕES FINAIS PARA O SYSprog PADAWAN

Nunca confie no primeiro sintoma.

Nunca assuma a primeira hipótese.

Nunca ignore pequenos alertas.

Nunca faça deploy sexta-feira.

Nunca delete dataset sem olhar duas vezes.

Nunca subestime logs.

Nunca trate apenas o efeito.


☕ CONCLUSÃO

Root Cause Analysis não é apenas metodologia.

É mentalidade.

É disciplina.

É engenharia real.

No mundo IBM Z moderno, onde bilhões dependem da estabilidade do sistema, RCA separa:

  • operadores comuns,

  • arquitetos da confiabilidade.

Quando você aprende RCA:

você deixa de ser alguém que “reinicia sistemas”.

E se torna alguém que entende o funcionamento profundo do caos.

E no momento em que você compreende o caos…

você começa a dominar o datacenter.

☕🔥💣

☕🔥💣 CHECKLIST DEFINITIVO DE RCA PARA O SYSprog PADAWAN

Bellacosa Mainframe apresenta um checklist de RCA para sysprog junior


☕🔥💣 CHECKLIST DEFINITIVO DE RCA PARA O SYSprog PADAWAN

Como Evoluir de Apagador de Incêndios para Caçador de Causas Raiz

A maioria dos Sysprogs juniores aprende primeiro a resolver incidentes.

Poucos aprendem a impedir que eles aconteçam novamente.

O objetivo deste checklist é desenvolver a mentalidade de investigação que transforma um operador técnico em um verdadeiro engenheiro de confiabilidade.


🔍 NÍVEL 1 — FUNDAMENTOS DO INVESTIGADOR

Conhecer a arquitetura do ambiente

☐ Entender o fluxo completo da aplicação

☐ Conhecer as LPARs existentes

☐ Entender Sysplex

☐ Conhecer JES2/JES3

☐ Entender CICS

☐ Entender DB2

☐ Entender MQ

☐ Conhecer Storage Management

☐ Entender WLM

☐ Conhecer SDSF profundamente

Objetivo

Parar de enxergar componentes isolados e começar a enxergar o ecossistema.


📋 NÍVEL 2 — COLETA DE EVIDÊNCIAS

Antes de agir:

☐ Registrar horário exato do incidente

☐ Identificar quem reportou

☐ Verificar impacto

☐ Capturar mensagens de erro

☐ Salvar logs

☐ Salvar SYSLOG

☐ Salvar JESMSGLG

☐ Salvar JESJCL

☐ Salvar JESYSMSG

☐ Registrar alterações recentes

☐ Verificar deploys recentes

Regra de ouro

Nunca altere o ambiente antes de coletar evidências.


🔥 NÍVEL 3 — ANÁLISE JES2

☐ Verificar initiators

☐ Verificar classes

☐ Verificar backlog

☐ Verificar spool

☐ Verificar HOLDs

☐ Verificar jobs looping

☐ Verificar jobs aguardando recursos

☐ Verificar ENQ contention

☐ Verificar mensagens $HASP

Pergunta obrigatória

O problema começou no JES2 ou chegou até ele?


💾 NÍVEL 4 — STORAGE E MEMÓRIA

☐ Verificar CSA

☐ Verificar ECSA

☐ Verificar SQA

☐ Verificar ESQA

☐ Verificar Private Area

☐ Procurar storage leaks

☐ Analisar crescimento anormal

☐ Verificar mensagens IEA e IEF

☐ Consultar RMF

Atenção

Muitos "problemas de sistema" são apenas vazamentos de memória.


⚡ NÍVEL 5 — PERFORMANCE

☐ Verificar CPU

☐ Verificar I/O

☐ Verificar Paging

☐ Verificar DASD

☐ Verificar Coupling Facility

☐ Verificar WLM

☐ Verificar gargalos

☐ Comparar com baseline

☐ Analisar tendências

Objetivo

Entender se a degradação é sintoma ou causa.


🖥️ NÍVEL 6 — RCA EM CICS

☐ Verificar transações lentas

☐ Verificar tasks pendentes

☐ Verificar Short On Storage

☐ Verificar TD Queues

☐ Verificar TS Queues

☐ Verificar DB2 Attach

☐ Verificar MQ Attach

☐ Verificar abends

☐ Verificar dumps

☐ Analisar traces

Nunca conclua

"CICS está lento"

sem descobrir:

"POR QUE está lento?"


🗄️ NÍVEL 7 — RCA EM DB2

☐ Verificar deadlocks

☐ Verificar lock escalation

☐ Verificar SQLCODEs

☐ Verificar buffer pools

☐ Verificar índices

☐ Procurar full table scan

☐ Verificar RUNSTATS

☐ Verificar REORG pendente

☐ Verificar crescimento de tabelas

Regra

Muitos problemas de CICS são, na verdade, problemas de DB2.


📬 NÍVEL 8 — RCA EM MQ

☐ Verificar Queue Depth

☐ Verificar canais

☐ Verificar backlog

☐ Verificar consumidores

☐ Verificar produtores

☐ Verificar DLQ

☐ Verificar mensagens presas

☐ Verificar timeouts

Lembre-se

Fila cheia normalmente é consequência.

Raramente é a causa raiz.


📊 NÍVEL 9 — OBSERVABILIDADE

☐ Utilizar OMEGAMON

☐ Utilizar RMF

☐ Utilizar SMF

☐ Utilizar NetView

☐ Utilizar Sysview

☐ Criar dashboards

☐ Definir baseline

☐ Identificar anomalias

☐ Correlacionar eventos

Meta

Parar de reagir.

Começar a prever.


🔎 NÍVEL 10 — TÉCNICAS DE INVESTIGAÇÃO

Five Whys

☐ Aplicar os 5 Porquês


Timeline Analysis

☐ Construir linha do tempo


Event Correlation

☐ Correlacionar eventos


Impact Analysis

☐ Medir impacto real


Trend Analysis

☐ Procurar recorrência


🤖 NÍVEL 11 — AUTOMAÇÃO E PREVENÇÃO

☐ Automatizar alertas

☐ Automatizar coleta de evidências

☐ Automatizar correções simples

☐ Criar scripts REXX

☐ Criar procedimentos de recuperação

☐ Integrar com SA z/OS

☐ Integrar com NetView

☐ Criar runbooks

Objetivo

Não resolver mais rápido.

Resolver menos vezes.


📚 NÍVEL 12 — CONHECIMENTO HISTÓRICO

☐ Manter base de incidentes

☐ Documentar RCA

☐ Criar Wiki interna

☐ Registrar lições aprendidas

☐ Catalogar soluções

☐ Criar biblioteca de dumps

☐ Registrar padrões recorrentes

Ouro do Sysprog

Experiência documentada vale mais que memória.


🧠 NÍVEL 13 — MENTALIDADE DE MESTRE

Antes de qualquer ação pergunte:

☐ O que aconteceu?

☐ Quando aconteceu?

☐ Quem foi impactado?

☐ O que mudou?

☐ Isso já aconteceu antes?

☐ O que os logs mostram?

☐ O que os dados mostram?

☐ Estou tratando sintoma ou causa?

☐ Como impedir recorrência?

☐ O que aprendi hoje?


🏆 CHECKLIST FINAL DO SYSprog MESTRE

Quando um incidente ocorrer:

❌ Não reinicie imediatamente

❌ Não assuma conclusões

❌ Não culpe usuários

❌ Não culpe desenvolvedores

❌ Não culpe infraestrutura

✅ Colete evidências

✅ Analise dados

✅ Correlacione eventos

✅ Pergunte "por quê?"

✅ Encontre a causa raiz

✅ Elimine a recorrência

✅ Documente a descoberta

✅ Compartilhe conhecimento


☕ Regra Suprema do Bellacosa Mainframe

"O Padawan reinicia o CICS.

O Sysprog investiga o dump.

O Mestre encontra a causa raiz.

O Arquiteto faz o problema desaparecer para sempre." 🚀💣🔥

 

domingo, 24 de maio de 2026

☕🖥️ A GRANDE ORQUESTRA DO IBM MAINFRAME — QUEM SÃO OS GUARDIÕES DO DATACENTER MAIS PODEROSO DO MUNDO? 🔥

 

Bellacosa Mainframe e a grande orquestra do IBM Mainframe

☕🖥️ A GRANDE ORQUESTRA DO IBM MAINFRAME — QUEM SÃO OS GUARDIÕES DO DATACENTER MAIS PODEROSO DO MUNDO? 🔥

A imagem mostra algo que muita gente fora do universo mainframe nunca entende direito:

👉 um ambiente IBM Mainframe NÃO funciona apenas com “programadores COBOL”.

Ele é praticamente uma cidade tecnológica viva.

Cada profissional controla uma parte crítica do ecossistema.
Quando tudo funciona… ninguém percebe.
Quando algo falha… bancos, governos, seguradoras, cartões, aeroportos e bolsas de valores podem literalmente parar.

Vamos entrar no “datacenter secreto” no estilo Bellacosa Mainframe. ☕💾


🧠 VISÃO GERAL DA EQUIPE MAINFRAME

Na prática, um grande ambiente IBM Z possui:

  • Operadores

  • SysProg

  • SysAdmin

  • Segurança RACF

  • Redes VTAM/TCPIP

  • Performance/Capacity

  • Automação

  • Gerentes do Computer Center

  • Desenvolvedores COBOL/PLI/Natural/Assembler

  • DBA DB2

  • Storage

  • Scheduler

  • Disaster Recovery

  • Middleware

Cada um possui poderes específicos.

E SIM…
há guerras silenciosas entre áreas. 😅


🧑‍💼 1. COMPUTER CENTER MANAGER

☕ “O Maestro do Datacenter”

É o comandante operacional.

Ele não necessariamente configura tudo…
mas coordena TUDO.


🎯 Conhecimento Básico

Precisa entender:

  • Mainframe architecture

  • SLA

  • Incident management

  • Capacity

  • Segurança

  • Auditoria

  • Gestão de crises

  • Escala 24x7

  • ITIL

  • Continuidade


🔥 Principais Atividades

  • Coordenar mudanças

  • Aprovar deploys críticos

  • Gerenciar incidentes severos

  • Controlar equipes

  • Planejar capacidade

  • Coordenar DRP (Disaster Recovery)


🛠️ Ferramentas

  • ServiceNow

  • Control-M

  • Omegamon

  • z/OSMF

  • Jira

  • CA7

  • Tivoli


📋 Responsabilidades

  • Garantir disponibilidade

  • Evitar indisponibilidade bancária

  • Controlar janelas batch

  • Aprovar mudanças críticas


🧨 Easter Egg

Em muitos bancos:

“Se o gerente do datacenter ligar de madrugada…
alguém vai perder o sono.”

😅


🤖 2. AUTOMATION ADMINISTRATOR

☕ “O Senhor dos Robôs do z/OS”

Esse cara automatiza o caos.

Sem ele:
o operador enlouquece.


🎯 Conhecimento Básico

  • REXX

  • NetView

  • System Automation

  • OPS/MVS

  • JES2

  • Console automation

  • SDSF


🔥 Principais Atividades

  • Automatizar mensagens

  • Reiniciar tasks automaticamente

  • Monitorar jobs

  • Criar respostas automáticas

  • Reduzir intervenção humana


🛠️ Ferramentas

  • IBM System Automation

  • CA OPS/MVS

  • NetView

  • REXX

  • SDSF


📋 Exemplo Real

Mensagem:

IEC161I DATA SET FULL

A automação pode:

  1. Detectar erro

  2. Abrir alerta

  3. Alocar novo volume

  4. Reiniciar processo

  5. Avisar operador

Tudo sozinho.

🔥


🧨 Curiosidade

Alguns ambientes possuem:

  • MAIS DE 100 MIL REGRAS AUTOMÁTICAS

Sim…
um “mini cérebro artificial” antes da IA moderna.


👨‍💻 3. SYSTEM PROGRAMMER (SYSPROG)

☕ “O Feiticeiro Supremo do Mainframe”

Esse é o mago negro do IBM Z.

Pouquíssimas pessoas chegam nesse nível.


🎯 Conhecimento Básico

Precisa dominar:

  • z/OS

  • JES2/JES3

  • IPL

  • PARMLIB

  • PROCLIB

  • VTAM

  • SMP/E

  • RACF

  • Dump analysis

  • APF

  • LPA

  • Catalog

  • Unix System Services

E muitas vezes:
Assembler.

😳


🔥 Principais Atividades

  • Instalar produtos IBM

  • Aplicar PTFs

  • Fazer IPL

  • Resolver abends sistêmicos

  • Ajustar performance

  • Gerenciar subsistemas


🛠️ Ferramentas

  • SMP/E

  • IPCS

  • SDSF

  • RMF

  • Omegamon

  • ISPF

  • HCD

  • z/OSMF


📋 Passo a Passo Real — IPL

Cenário:

Atualização crítica do z/OS.

Passos:

  1. Validar PARMLIB

  2. Verificar APF libraries

  3. Aplicar maintenance SMP/E

  4. Fazer backup

  5. Agendar janela

  6. Derrubar subsistemas

  7. Executar IPL

  8. Validar JES2

  9. Subir CICS/DB2

  10. Liberar produção


🧨 Easter Egg SysProg

Os SysProgs antigos dizem:

“Se você nunca derrubou um LPAR em produção…
você ainda é júnior.”

💀


🌐 4. NETWORK ADMINISTRATOR

☕ “O Guardião Invisível da VTAM”

Sem rede…
o terminal 3270 vira decoração.


🎯 Conhecimento Básico

  • VTAM

  • TCP/IP

  • SNA

  • OSA

  • HiperSockets

  • TN3270

  • FTP

  • MQ


🔥 Atividades

  • Configurar conectividade

  • Resolver timeout

  • Ajustar rotas

  • Integrar distribuído

  • Configurar criptografia


🛠️ Ferramentas

  • NETSTAT

  • VTAM commands

  • TCPIP stack

  • Wireshark

  • Omegamon Network


📋 Exemplo

Usuários não conseguem acessar CICS.

Investigação:

  1. TESTAR TN3270

  2. Verificar VTAM ACTIVE

  3. Validar TCPIP

  4. Conferir porta

  5. Analisar firewall

  6. Validar certificado TLS


🧨 Curiosidade

Muitos ambientes antigos ainda possuem:

  • SNA rodando em produção em 2026.

SIM.
Tecnologia dos anos 70 ainda movendo bilhões.

🔥


🔐 5. SECURITY ADMINISTRATOR

☕ “O Mestre do RACF”

Esse profissional controla:
quem pode tocar no quê.


🎯 Conhecimento Básico

  • RACF

  • ACF2

  • TopSecret

  • SAF

  • MFA

  • PassTickets

  • Digital Certificates


🔥 Atividades

  • Criar acessos

  • Auditar usuários

  • Segregar funções

  • Investigar violações

  • Configurar MFA


🛠️ Ferramentas

  • RACF commands

  • SMF

  • zSecure

  • CARLa

  • MFA Server


📋 Exemplo Passo a Passo

Novo analista COBOL:

  1. Criar USERID

  2. Associar GROUP

  3. Liberar TSO

  4. Liberar dataset

  5. Liberar CICS

  6. Validar DB2

  7. Ativar MFA


🧨 Easter Egg RACF

O maior medo de um sysprog:

ICH408I USER NOT AUTHORIZED

😅


📊 6. PERFORMANCE/CAPACITY SPECIALIST

☕ “O Economista do Mainframe”

Ele controla:
CPU = dinheiro.


🎯 Conhecimento

  • RMF

  • SMF

  • WLM

  • CPU tuning

  • IO tuning

  • Paging

  • Buffer pools


🔥 Atividades

  • Analisar gargalos

  • Planejar crescimento

  • Ajustar WLM

  • Reduzir MIPS/MSU

  • Evitar sobrecarga


🛠️ Ferramentas

  • RMF

  • MXG

  • Omegamon

  • Mainview

  • IntelliMagic


📋 Exemplo

Batch noturno atrasou.

Investigação:

  1. CPU saturation?

  2. IO contention?

  3. EXCP elevado?

  4. DB2 lock?

  5. Paging?

  6. Canal congestionado?


🧨 Curiosidade

Em bancos:

1% de otimização

milhões economizados.

💀


🖥️ 7. OPERATOR

☕ “O Piloto da Nave Mainframe”

Muita gente subestima o operador.

ERRO GRAVE.

Ele é quem mantém a operação viva 24x7.


🎯 Conhecimento Básico

  • JES2

  • SDSF

  • Console

  • Batch

  • CICS

  • IPL básico

  • Recovery

  • Procedures


🔥 Principais Atividades

  • Monitorar jobs

  • Responder mensagens

  • Controlar spool

  • Reiniciar tasks

  • Executar comandos

  • Acionar suporte


🛠️ Ferramentas

  • SDSF

  • HMC

  • Omegamon

  • NetView

  • Console z/OS


📋 Exemplo Real — Job Preso

Situação

Job travado há 4 horas.


Operador faz:

1. Verifica SDSF

ST
DA
QUEUE

2. Analisa mensagem

IEC501A

3. Descobre fita offline


4. Aciona storage


5. Monta volume


6. Responde console

R xx,YES

7. Job continua

🔥


🧨 Easter Egg Operador

Operador veterano consegue:

  • identificar problema “pelo barulho do console”.

Sim…
isso existe. 😅


👨‍💻 E OS DEVELOPERS?

☕ “Os Arquitetos do Negócio”

Os developers criam:

  • COBOL

  • PLI

  • Assembler

  • Natural

  • JCL

  • CICS

  • DB2


🎯 Conhecimento

  • Regras bancárias

  • Batch

  • Online

  • VSAM

  • SQL

  • APIs

  • MQ

  • Web Services


🔥 Atividades

  • Criar programas

  • Corrigir abends

  • Fazer tuning SQL

  • Integrar APIs

  • Modernizar legado


🛠️ Ferramentas

  • IDz

  • Endevor

  • Changeman

  • File-AID

  • Abend-AID

  • DB2 SPUFI


📋 Exemplo Real

PIX falhando.

Developer:

  1. Analisa logs

  2. Verifica MQ

  3. Confere DB2

  4. Debuga COBOL

  5. Ajusta timeout

  6. Faz bind DBRM

  7. Libera produção


💀 A VERDADE QUE NINGUÉM CONTA

No mainframe:

  • SysProg culpa rede

  • Rede culpa segurança

  • Segurança culpa developer

  • Developer culpa DB2

  • Operador culpa automação

  • Automação culpa mensagem IBM

  • IBM culpa maintenance faltando

😅


☕ O ECOSSISTEMA REAL

Um grande IBM Mainframe pode ter:

  • milhares de jobs/hora

  • petabytes

  • milhões de transações CICS

  • uptime absurdo

  • processamento financeiro global

E tudo depende dessa equipe funcionando como uma orquestra.


🧨 O MAIOR EASTER EGG DO MAINFRAME

A maioria das pessoas acha que:

“mainframe morreu.”

Enquanto isso…

  • bancos

  • cartões

  • bolsa

  • governos

  • aviação

  • seguradoras

continuam rodando em IBM Z silenciosamente.

💀🖥️☕

sábado, 23 de maio de 2026

☕🔥 “O SEGREDO SUJO DA PERFORMANCE NO MAINFRAME” — POR QUE CACHE VALE MAIS QUE CPU NO MUNDO COBOL/CICS

 

Bellacosa Mainframe e a alta performance no mainframe

☕🔥 “O SEGREDO SUJO DA PERFORMANCE NO MAINFRAME” — POR QUE CACHE VALE MAIS QUE CPU NO MUNDO COBOL/CICS

Quando alguém fala em performance, a maioria pensa imediatamente em:

  • CPU,

  • MIPS,

  • zIIP,

  • upgrade de hardware.

Mas no mundo IBM Mainframe existe uma verdade brutal:

☕ O MAIOR INIMIGO DA PERFORMANCE É O I/O.

E por isso:

CACHE É UMA DAS COISAS MAIS IMPORTANTES DO UNIVERSO z/OS.

A imagem mostra 9 estratégias modernas de caching.

Agora vamos traduzir isso para:

  • COBOL,

  • CICS,

  • DB2,

  • VSAM,

  • MQ,

  • Batch,

  • Sysplex,

no puro estilo Bellacosa Mainframe.


☕ 1. CACHE-ASIDE — “BUSQUE SÓ QUANDO PRECISAR”

Na imagem:

  • aplicação procura primeiro no cache,

  • se não encontrar, busca no banco.


🔥 Isso é praticamente a filosofia clássica do CICS

Exemplo:

Programa COBOL/CICS

EXEC CICS READQ TS
END-EXEC.

Se o dado:

  • já estiver em TSQ,

  • COMMAREA,

  • ou memória temporária,

não precisa acessar:

  • DB2,

  • VSAM,

  • disco físico.


☕ Exemplo real

Consulta de cliente VIP:

  • primeira busca → DB2,

  • próximas buscas → memória CICS.


🔥 Resultado

Menos:

  • EXCP,

  • lock,

  • espera,

  • canal I/O.

Mais:

  • TPS,

  • resposta rápida,

  • estabilidade.


☕ 2. READ-THROUGH — “O CACHE BUSCA AUTOMATICAMENTE”


🔥 No mainframe isso aparece muito em DB2 Buffer Pool

O programa COBOL:

nem sabe se o dado veio da memória ou do disco

O DB2 decide.


☕ Fluxo real

SELECT → Buffer Pool → se miss → DASD

🔥 O detalhe importante

Boa parte da má performance em DB2:

NÃO é SQL ruim

mas:

  • buffer pool inadequado,

  • hit ratio baixo,

  • excesso de I/O físico.


☕ Frase clássica de performance analyst

“Seu SELECT talvez esteja ótimo.

Seu disco é que está sofrendo.”


☕ 3. WRITE-THROUGH — “GRAVAR NO CACHE E NO BANCO AO MESMO TEMPO”


🔥 Aqui entra o lado paranoico do mainframe

O IBM Z odeia inconsistência.


☕ Exemplo bancário

PIX:

  • atualiza saldo,

  • atualiza log,

  • atualiza auditoria,

  • confirma persistência.

Tudo sincronizado.


☕ No DB2 isso lembra:

  • commit controlado,

  • logging,

  • buffer synchronization.


🔥 Benefício

Maior consistência.


☕ Problema

Mais latência.


🔥 Mainframe frequentemente escolhe:

CONSISTÊNCIA > VELOCIDADE

porque banco prefere:

“mais lento”

a:

“saldo corrompido”.

☕ 4. WRITE-BEHIND (WRITE-BACK) — “GRAVA DEPOIS”


🔥 Estratégia perigosamente poderosa

Primeiro:

  • grava em memória,

  • depois persiste assíncrono.


☕ No Mainframe aparece em:

  • buffers VSAM,

  • deferred write,

  • MQ persistence strategies,

  • DFSORT spill optimization.


☕ Benefício monstruoso

Reduz I/O físico.


🔥 Risco brutal

Se houver falha antes da persistência:

dado pode sumir.


☕ Por isso no mundo financeiro:

  • write-back é cuidadosamente controlado,

  • logging vira obrigatório,

  • recovery é crítico.


☕ 5. REFRESH-AHEAD — “ATUALIZE ANTES DE EXPIRAR”


🔥 Mainframe faz isso há décadas

Exemplo:

DB2 Prefetch

O sistema prevê páginas futuras.


☕ Outro exemplo

Batch COBOL:

  • pré-carrega tabelas,

  • carrega parâmetros em memória,

  • evita lookup repetitivo.


🔥 Filosofia do z/OS

“Se você SABE que vai precisar…

carregue antes.”


☕ 6. INVALIDATION — “JOGUE FORA O QUE FICOU VELHO”


🔥 Aqui mora um dos maiores pesadelos corporativos

DADO STALE


☕ Exemplo real

Usuário altera endereço.

Mas:

  • cache ainda possui dado antigo.

Resultado:

  • sistema A mostra endereço novo,

  • sistema B mostra antigo.


🔥 No Mainframe isso é gravíssimo

Porque:

  • múltiplos sistemas compartilham informação,

  • inconsistência pode virar problema legal.


☕ Técnicas usadas

  • cache invalidation,

  • commit synchronization,

  • DB2 coherency,

  • Sysplex cache coherence.


☕ 7. CACHE WARMING — “ESQUENTAR O CACHE”


🔥 Todo operador experiente conhece isso

Após IPL:

  • tudo está “frio”.


☕ Resultado clássico

Primeiros minutos:

  • I/O explode,

  • disco sofre,

  • response time piora.


🔥 Então muitos ambientes:

  • executam jobs de preload,

  • aquecem buffer pools,

  • pré-carregam tabelas críticas.


☕ Exemplo Bellacosa

Banco antes da abertura:

pré-carrega contas mais acessadas.

☕ 8. CACHE SHARDING — “DIVIDIR O CACHE”


🔥 Aqui entra Parallel Sysplex

Vários nós:

  • compartilham workload,

  • dividem memória,

  • reduzem contenção.


☕ Exemplo real

Cada região CICS:

  • mantém cache local,

  • mas sincroniza estado global.


🔥 Benefício

Escalabilidade monstruosa.


☕ Desafio

Coerência.


🔥 Porque o pesadelo é:

nó A sabe algo
nó B não sabe

☕ 9. TTL (TIME TO LIVE) — “TUDO TEM PRAZO DE VALIDADE”


🔥 No Mainframe isso é filosofia operacional

Nem todo dado pode viver eternamente no cache.


☕ Exemplos

Taxa de câmbio

TTL pequeno.


Tabela de estados brasileiros

TTL enorme.


🔥 O segredo

Equilibrar:

  • frescor,

  • performance,

  • consistência.


☕ O ERRO CLÁSSICO DOS INICIANTES

Pensar:

“Mais cache = sempre melhor”

🔥 NÃO.

Cache ruim pode gerar:

  • inconsistência,

  • stale data,

  • contenção,

  • explosão de memória,

  • recovery complexo.


☕ O QUE O MAINFRAME ENSINA SOBRE CACHE

Cache não é só velocidade.

É:

  • engenharia de previsibilidade,

  • redução de I/O,

  • estabilidade operacional,

  • proteção contra gargalos.


🔥 Porque no IBM Z:

DISCO É O INIMIGO NATURAL DA PERFORMANCE.


☕ RESUMO BELLACOSA MAINFRAME

EstratégiaNo IBM Mainframe
Cache-AsideTSQ/COMMAREA/lookup local
Read-ThroughDB2 Buffer Pool
Write-ThroughCommit síncrono
Write-BehindDeferred write
Refresh-AheadPrefetch
InvalidationCache coherency
Cache WarmingPreload pós IPL
Cache ShardingSysplex distribution
TTLExpiração controlada

☕🔥 Frase final no estilo Bellacosa Mainframe

“Muita gente acha que Mainframe é rápido por causa da CPU.

Veterano de z/OS sabe:

o segredo quase sempre está em evitar I/O.”