Translate

Mostrar mensagens com a etiqueta Performance Batch. Mostrar todas as mensagens
Mostrar mensagens com a etiqueta Performance Batch. Mostrar todas as mensagens

quarta-feira, 19 de fevereiro de 2014

☕🔥 ABEND S878 — O “DESERTO DO STORAGE” NO z/OS

 

Bellacosa Mainframe e o Abend S878

☕🔥 ABEND S878 — O “DESERTO DO STORAGE” NO z/OS

Quando o Mainframe Diz:

“NÃO EXISTE MAIS MEMÓRIA CONTÍGUA PARA VOCÊ.”

Se existe um ABEND que faz o Junior Padawan descobrir que:

memória no mainframe é uma ciência obscura…

é o lendário:

🚨 S878

E normalmente ele aparece assim:

IEF450I JOBNAME STEP01 - ABEND=S878

ou:

REGION EXHAUSTED

ou ainda:

INSUFFICIENT VIRTUAL STORAGE AVAILABLE

E então começa a crise existencial:

“Mas eu já aumentei o REGION!”
“O storage sumiu?”
“O z/OS ficou sem memória?”
“O COBOL abriu um portal dimensional?”
“Qual a diferença entre S80A e S878?!”

☕ Respira.

Porque o S878 é um dos ABENDs MAIS IMPORTANTES da arquitetura z/OS.

E também um dos mais mal compreendidos.


🔥 O QUE É O S878?

O S878 é um:

🚨 STORAGE ALLOCATION FAILURE

Traduzindo:

O z/OS NÃO CONSEGUIU ENCONTRAR STORAGE SUFICIENTE PARA UMA NOVA ALOCAÇÃO.


☕ O GRANDE SEGREDO

O S878 NÃO significa necessariamente:

“acabou toda memória do sistema.”

Frequentemente significa:

não existe um bloco CONTÍGUO adequado disponível.


🔥 A DIFERENÇA FILOSÓFICA


☕ S80A

Storage insuficiente para o JOB.


☕ S878

Storage existe…

mas NÃO CONSEGUE SER ALOCADO corretamente.


🔥 ANALOGIA BELLACOSA MAINFRAME

Imagine um estacionamento.

Existem vagas livres.

Mas seu caminhão precisa:

10 vagas juntas.

Só existem vagas separadas.

Resultado:

❌ impossível estacionar.

Isso é:

☠️ S878


☕ O VERDADEIRO VILÃO

🚨 FRAGMENTAÇÃO DE STORAGE

O terror invisível do z/OS.


🔥 O QUE É FRAGMENTAÇÃO?

Memória fica cheia de:

  • pequenos espaços livres

  • blocos quebrados

  • áreas desconectadas

Programa pede:

grande bloco contínuo

Sistema responde:

“não tenho.”


☕ O FLUXO REAL

Programa executa
 ↓
GETMAIN
 ↓
Pedido grande de storage
 ↓
z/OS procura área contínua
 ↓
Não encontra
 ↓
S878

🔥 O S878 E O GETMAIN

Assim como S80A, o S878 nasce em:

GETMAIN

Pedido clássico de memória no z/OS.


☕ MAS O DETALHE É DIFERENTE

No S80A:

limite global/região.

No S878:

falha específica de alocação.


🔥 O MAIOR VILÃO DO S878

🚨 ARRAYS GIGANTES


☕ EXEMPLO COBOL

01 WS-TABELA.
   05 WS-ITEM OCCURS 5000000 TIMES.

O runtime tenta reservar storage monstruoso.

Resultado:

💥 S878


🔥 O SORT DA MORTE

Outro clássico absoluto.

//SORT EXEC PGM=SORT

Com:

  • arquivos enormes

  • pouca região

  • work areas gigantes

DFSORT tenta expandir buffers.

Boom:

☠️ S878


☕ O S878 E O REGION=

Aqui nasce a magia negra do z/OS.


☕ EXEMPLO

//JOB ... REGION=4096K

Mas o programa tenta:

alocar 20MB contínuos

Resultado:

💥 S878


🔥 O S878 E O “ABOVE THE LINE”

Modo arquimago ativado.


☕ BELOW THE LINE

Até:

16MB

Storage histórico crítico.


☕ ABOVE THE LINE

Acima de 16MB.

Mais espaço disponível.


🔥 O DRAMA HISTÓRICO

Décadas atrás:

programas precisavam caber:

abaixo da linha.

S878 era MUITO comum.


☕ O S878 E O CICS

No CICS aparece relacionado a:

SOS

Short On Storage

CICS começa a entrar em pânico operacional.


🔥 O S878 E O LE (LANGUAGE ENVIRONMENT)

LE gerencia:

  • heap

  • stack

  • runtime storage

Configuração inadequada pode causar:

fragmentação brutal.


☕ O STORAGE LEAK

Outro clássico.

Programa:

  • pede memória

  • não libera

  • fragmenta heap

Depois de horas:

☠️ S878


🔥 O S878 FANTASMA

O mais traiçoeiro.

Programa roda:

por horas normalmente

Depois explode.

Porque fragmentação foi gradual.


☕ O S878 E O XML/JSON

Mainframe moderno sofre MUITO aqui.

Parsing de:

  • XML gigantesco

  • JSON enterprise

  • APIs REST

  • payloads enormes

gera:

heaps enormes e fragmentados.


🔥 O S878 E O DB2

Outro cenário sombrio.

  • cursores gigantes

  • mass fetch

  • utilities

  • sort interno DB2

Tudo pode pressionar storage.


☕ O S878 E O JES2

Às vezes o sistema inteiro sofre pressão de memória.

Múltiplos jobs simultâneos:

  • SORT

  • DB2

  • utilities

  • batch pesado

competem por storage.


🔥 COMO INVESTIGAR O S878 PASSO A PASSO


✅ PASSO 1 — VERIFIQUE JESMSGLG

Procure:

S878
INSUFFICIENT STORAGE
GETMAIN FAILED

✅ PASSO 2 — IDENTIFIQUE O STEP

STEP01

✅ PASSO 3 — VERIFIQUE REGION=

Veja:

REGION=

✅ PASSO 4 — IDENTIFIQUE O MOMENTO

Explodiu:

  • início?

  • após SORT?

  • após loop?

  • durante XML?


✅ PASSO 5 — ANALISE O DUMP

Aqui mora a verdade Jedi.


🔥 O DUMP DO S878

Veteranos analisam:

  • subpools

  • heap chains

  • fragmentation

  • GETMAIN failures

  • virtual storage map


☕ MENSAGENS IMPORTANTES


☕ IEA705I

Storage shortage.


☕ CSVxxxx

Problemas runtime/storage.


☕ CEExxxx

LE heap/stack.


🔥 O SEGREDO DOS SUBPOOLS

z/OS organiza memória em:

SUBPOOLS

Mesmo havendo memória total disponível…

o subpool específico pode estar:

fragmentado ou esgotado.


☕ O S878 E O MEMLIMIT

Ambientes modernos usam:

MEMLIMIT

especialmente para:

  • Java

  • XML

  • COBOL LE

  • 64-bit storage


🔥 O MAIOR ERRO DO PADAWAN

Resolver tudo assim:

REGION=0M

Isso às vezes:

✅ mascara
❌ não resolve causa real


☕ O VERDADEIRO JEDI

Não apenas aumenta memória.

Ele pergunta:

“QUEM ESTÁ FRAGMENTANDO O STORAGE?”


🔥 COMO EVITAR S878


✅ Revisar REGION


✅ Revisar MEMLIMIT


✅ Evitar arrays absurdos


✅ Processar em blocos


✅ Liberar memória corretamente


✅ Revisar loops de alocação


✅ Monitorar LE heap


✅ Evitar carregar arquivos inteiros em memória


☕ O SEGREDO DOS VETERANOS

Veteranos evitam:

ler tudo em memória

Eles fazem:

streaming

chunking

paginação

processamento incremental


🔥 CURIOSIDADE HISTÓRICA

Nos anos 60/70:

alguns sistemas IBM tinham:

poucos megabytes.

Programadores precisavam literalmente:

lutar por bytes.

S878 era um terror diário.


☕ EASTER EGG MAINFRAME

Veteranos brincam:

“S878 significa:

Seu Programa Tentou Comer Mais Storage do Que Existia Entre as Estrelas.”


🔥 O MAIOR ENSINAMENTO DO S878

Ele ensina algo profundo:

memória no z/OS NÃO é apenas quantidade.

É:

  • continuidade

  • fragmentação

  • subpools

  • regiões

  • arquitetura virtual

  • gestão de heap


☕ A VERDADE FINAL

O S80A pune falta geral de storage.
O S322 pune excesso de tempo.
O S806 pune programas inexistentes.

Mas…

☕ O S878 É O MOMENTO EM QUE O z/OS OLHA PARA SEU PEDIDO DE MEMÓRIA… E PERCEBE QUE O UNIVERSO NÃO CONSEGUE ORGANIZAR STORAGE SUFICIENTE PARA VOCÊ.

segunda-feira, 20 de janeiro de 2014

☕🔥 ABEND S80A — O “COLAPSO DA MEMÓRIA” NO z/OS

 

Bellacosa Mainframe abend s80a

☕🔥 ABEND S80A — O “COLAPSO DA MEMÓRIA” NO z/OS

Quando o Mainframe Diz:

“NÃO EXISTE STORAGE SUFICIENTE PARA CONTINUAR.”

Se existe um ABEND que faz o programador COBOL Junior Padawan perceber que:

memória no mainframe NÃO é infinita…

é o lendário:

🚨 S80A

E normalmente ele aparece assim:

IEF450I JOBNAME STEP01 - ABEND=S80A

ou:

GETMAIN FAILED

ou ainda:

INSUFFICIENT VIRTUAL STORAGE

E aí começa o desespero:

“O COBOL entrou em colapso?”
“O SORT explodiu?”
“O batch consumiu o universo?”
“O z/OS acabou a memória?”
“Meu programa abriu um buraco negro no storage?”

☕ Respira.

Porque o S80A é um dos ABENDs MAIS IMPORTANTES para entender:

memória virtual

GETMAIN

REGION

storage fragmentation

LE

subpools

consumo de memória no z/OS


🔥 O QUE É O S80A?

O S80A é um:

🚨 STORAGE EXHAUSTION ABEND

Traduzindo:

O JOB NÃO CONSEGUIU OBTER MAIS MEMÓRIA.


☕ O GRANDE SEGREDO

O S80A NÃO significa necessariamente:

“acabou RAM física.”

Frequentemente significa:

o JOB atingiu seu limite de storage virtual.


🔥 O QUE É GETMAIN?

No z/OS, programas pedem memória usando:

GETMAIN

Equivalente filosófico do:

malloc()
new
allocate

em outras linguagens.


☕ O FLUXO REAL

Programa executa
 ↓
Precisa de memória
 ↓
GETMAIN
 ↓
z/OS tenta alocar
 ↓
Sem espaço disponível
 ↓
S80A

🔥 ANALOGIA BELLACOSA MAINFRAME

Imagine um hotel.

Seu programa vai pedindo quartos:

“mais memória”
“mais memória”
“mais memória”

Até que o gerente responde:

❌ “NÃO EXISTEM MAIS QUARTOS.”

Isso é o:

☠️ S80A


☕ O MAIOR VILÃO DO S80A

🚨 LOOP DE ALOCAÇÃO

O clássico absoluto.


🔥 EXEMPLO CONCEITUAL

Programa faz:

GETMAIN
GETMAIN
GETMAIN
GETMAIN

Mas nunca libera memória.

Resultado:

💥 S80A


☕ O COBOL MODERNO E O S80A

Mesmo COBOL pode causar isso com:

  • tabelas gigantes

  • OCCURS absurdos

  • XML PARSE

  • JSON PARSE

  • SORT interno

  • chamadas LE

  • arrays dinâmicos


🔥 O OCCURS DA MORTE

Junior cria:

01 WS-TABELA.
   05 WS-ITEM OCCURS 10000000 TIMES.

O compilador tenta reservar storage gigantesco.

Resultado:

☠️ S80A


☕ O S80A E O SORT

Outro campeão.


🔥 SORT MONSTRUOSO

//SORT EXEC PGM=SORT

Com:

  • arquivos enormes

  • memória insuficiente

  • parâmetros agressivos

O SORT tenta expandir work areas.

Boom:

💥 S80A


☕ O S80A E O DB2

Cursores gigantes.

Mass fetch.

Buffers enormes.

Sem paginação adequada.

Resultado:

☠️ storage explode.


🔥 O S80A E O CICS

No CICS pode aparecer associado a:

ASRA

SOS CONDITION


☕ O QUE É SOS?

SHORT ON STORAGE

O terror clássico do CICS.


🔥 O S80A E O REGION=

Aqui nasce o verdadeiro conhecimento Jedi.


☕ O PARÂMETRO MAIS IMPORTANTE

//JOB ... REGION=0M

ou:

REGION=4096K

☕ O QUE ISSO SIGNIFICA?

Define quanto storage virtual o job pode usar.


🔥 O ERRO CLÁSSICO

REGION=1024K

Mas o programa precisa:

20 MB

Resultado:

💥 S80A


☕ O MAIOR MITO DO MAINFRAME

Junior acha:

“0M = infinito.”

Não exatamente.

Depende:

  • JES

  • exits

  • instalação

  • MEMLIMIT

  • políticas do sistema


🔥 O S80A E O MEMLIMIT

Ambientes modernos usam:

MEMLIMIT

especialmente para:

  • LE heap

  • 64-bit storage

  • Java

  • XML

  • DB2 utilities


☕ O S80A E O LE (LANGUAGE ENVIRONMENT)

LE gerencia:

  • HEAP

  • STACK

  • storage runtime

Configuração ruim pode gerar:

☠️ consumo monstruoso.


🔥 O STORAGE LEAK

Agora entramos no lado sombrio.


☕ O QUE É MEMORY LEAK?

Programa pede memória.

Mas nunca devolve.

Em loop:

GETMAIN sem FREEMAIN

ou equivalente runtime.

Storage cresce até:

💥 S80A


🔥 O S80A FANTASMA

O mais traiçoeiro.

Programa roda:

2 horas normal

E só depois:

☠️ explode.

Porque vazamento foi gradual.


☕ O S80A E O “ABOVE THE LINE”

Modo arquimago ativado.


☕ BELOW THE LINE

Primeiros:

16MB

Storage crítico histórico.


☕ ABOVE THE LINE

Acima de 16MB.

Mais espaço.


🔥 O DRAMA HISTÓRICO

Antigamente muitos programas precisavam caber:

abaixo da linha de 16MB.

S80A era MUITO comum.


☕ O S80A E O SUBPOOL

z/OS organiza memória em:

subpools

Diferentes áreas de controle.

Fragmentação pode causar falhas mesmo com storage “aparente”.


🔥 COMO INVESTIGAR O S80A PASSO A PASSO


✅ PASSO 1 — VERIFIQUE JESMSGLG

Procure:

S80A
GETMAIN FAILED
INSUFFICIENT STORAGE

✅ PASSO 2 — IDENTIFIQUE O STEP

STEP01

✅ PASSO 3 — ANALISE REGION=

Veja JCL:

REGION=

✅ PASSO 4 — IDENTIFIQUE O MOMENTO

Explodiu:

  • início?

  • meio?

  • fim?

  • após loop?


✅ PASSO 5 — ANALISE O DUMP

Aqui mora a verdade.


🔥 O DUMP DO S80A

Veteranos olham:

  • subpools

  • GETMAIN chain

  • heap usage

  • fragmentation

  • LE reports


☕ MENSAGENS IMPORTANTES


☕ IEA705I

Storage shortage.


☕ CSVxxxx

Problemas loader/storage.


☕ CEExxxx

LE heap/stack.


🔥 O SEGREDO DO HEAP

LE pode emitir:

HEAP STORAGE EXHAUSTED

Grande pista.


☕ O S80A E O XML PARSE

Outro clássico moderno.

XML gigantesco:

50 MB
100 MB
500 MB

Parser explode heap.

Resultado:

☠️ S80A


🔥 O S80A E O JSON

Integrações modernas também causam isso.

Mainframe virou híbrido enterprise.

Memória agora importa MUITO.


☕ COMO EVITAR S80A


✅ Revisar REGION


✅ Revisar MEMLIMIT


✅ Evitar OCCURS gigantes


✅ Liberar storage


✅ Revisar loops


✅ Monitorar LE heap


✅ Processar em chunks


✅ Evitar carregar arquivos inteiros em memória


🔥 O MAIOR ERRO DO PADAWAN

Resolver tudo assim:

REGION=0M

Às vezes funciona…

Mas pode esconder:

memory leak real.


☕ O VERDADEIRO JEDI

Não apenas aumenta memória.

Ele descobre:

QUEM está consumindo storage.


🔥 CURIOSIDADE HISTÓRICA

O S80A nasceu nos tempos do:

IBM OS/360

Década de:

🏛️ 1960

Naquela época:

  • memória era absurdamente cara

  • poucos KB importavam

  • otimização era sobrevivência

Programadores literalmente contavam bytes.


☕ EASTER EGG MAINFRAME

Veteranos brincam:

“S80A significa:

Seu Programa Comeu Toda a Memória.”


🔥 O MAIOR ENSINAMENTO DO S80A

Ele ensina algo profundo:

no z/OS, memória é arquitetura estratégica.

Não é só:

RAM livre

É:

  • regiões

  • subpools

  • heap

  • line storage

  • virtual storage

  • fragmentation

  • LE management


☕ A VERDADE FINAL

O S0C7 pune números inválidos.
O S0C4 pune acessos inválidos.
O S322 pune tempo excessivo.
O S806 pune programas inexistentes.

Mas…

☕ O S80A É O MOMENTO EM QUE O z/OS OLHA PARA SEU JOB… E PERCEBE QUE ELE TENTOU DEVORAR MAIS MEMÓRIA DO QUE O UNIVERSO CORPORATIVO PERMITE.


terça-feira, 19 de novembro de 2013

☕🔥 ABEND S722 — O “ENCERRAMENTO MISERICORDIOSO” DO z/OS

Bellacosa Mainframe abend s722

 

☕🔥 ABEND S722 — O “ENCERRAMENTO MISERICORDIOSO” DO z/OS

Quando o Mainframe Diz:

“ALGUÉM DECIDIU MATAR ESSE JOB.”

Se existe um ABEND que confunde TODO programador COBOL Junior Padawan…

é o misterioso:

🚨 S722

Porque ele parece com:

S322

Mas NÃO é igual.

E aí começa o caos:

“Foi timeout?”
“Foi loop infinito?”
“O operador matou?”
“O JES executou?”
“O sistema entrou em guerra?”

☕ Respira.

Porque o S722 é um dos ABENDs mais interessantes para entender:

cancelamento manual

operação do z/OS

JES2

runaway jobs

comandos de operador

batch control

intervenção humana no mainframe


🔥 O QUE É O S722?

O S722 significa:

🚨 JOB CANCELADO PELO OPERADOR

Traduzindo:

ALGUÉM MATOU O JOB MANUALMENTE.


☕ O MAIOR SEGREDO

Diferente do:

S322

que é:

TIME LIMIT EXCEEDED

o:

S722

significa:

intervenção humana.


🔥 O QUE REALMENTE ACONTECE

O job está rodando:

EXECUTANDO...

Talvez:

  • lento

  • preso

  • loop infinito

  • consumindo CPU

  • esperando recurso

  • travando produção

Então o operador digita:

C jobname

ou:

P jobname

ou algum comando equivalente.

Resultado:

💥 S722


☕ ANALOGIA BELLACOSA MAINFRAME

Imagine um trem fora de controle.

O sistema ainda NÃO bateu.

Mas alguém puxa:

🚨 O FREIO DE EMERGÊNCIA

Isso é o:

☠️ S722


🔥 O S722 NÃO É NECESSARIAMENTE ERRO

Isso é MUITO importante.

Às vezes o job:

  • estava correto

  • estava lento

  • processava bilhões de registros

  • apenas demorava demais

E alguém cancelou.


☕ O S722 É “ABEND SOCIAL”

Porque envolve:

humanos.

Operadores.

Schedulers.

Produção.

Pressão.

Batch window.


🔥 O CENÁRIO CLÁSSICO

Sexta-feira

fechamento mensal

CPU alta

SLA atrasando

E então alguém vê:

JOB XYZ RUNNING 5 HOURS

Operador:

C XYZ

Resultado:

💥 S722


☕ O S722 vs S322

Essa diferença salva carreiras.


☕ S322

Sistema matou por tempo excedido.


☕ S722

Humano matou manualmente.


🔥 O MAIOR VILÃO DO S722

LOOP INFINITO

Porque operadores frequentemente cancelam:

  • jobs presos

  • loops

  • SQLs infinitos

  • SORTs monstruosos


☕ EXEMPLO COBOL CLÁSSICO

PERFORM UNTIL WS-FIM = 'S'

   READ CLIENTE

END-PERFORM

Mas:

WS-FIM nunca muda

Agora:

job nunca termina.

Operador vê CPU alta.

Resultado:

☠️ CANCEL JOB → S722


🔥 O “READ SEM EOF”

Trauma coletivo do COBOL batch.


☕ ERRO

READ ARQ

sem:

AT END

Agora:

loop eterno.


🔥 O SQL ASSASSINO

Outro clássico.

SELECT *
FROM TABELA_GIGANTE

Sem índice.

Sem filtro.

Sem COMMIT.

Agora o DB2 sofre.

Operador sofre.

Produção sofre.

Resultado:

💥 S722


☕ O S722 E O “WAIT”

Às vezes o job nem está usando CPU.

Ele está:

  • esperando fita

  • esperando lock

  • preso em ENQ

  • deadlock

  • I/O congelado

Alguém perde paciência.

CANCEL


🔥 O S722 E O JES2

O JES monitora jobs ativos:

SDSF ST

Operador vê:

  • CPU

  • tempo

  • status

  • initiator

E pode cancelar.


☕ O COMANDO DA MORTE

Em muitos ambientes:

C jobname

ou:

CANCEL jobname

🔥 O S722 E O DUMP

Aqui nasce o conhecimento Jedi.


☕ MUITAS VEZES NÃO HÁ ERRO REAL

O programa foi interrompido artificialmente.

Então o dump pode mostrar:

exatamente onde ele estava.


🔥 ISSO É OURO

Porque agora você pode descobrir:

  • loop

  • SQL lento

  • READ preso

  • WAIT

  • deadlock

  • SORT gigante


☕ COMO INVESTIGAR O S722 PASSO A PASSO


✅ PASSO 1 — VERIFIQUE JESMSGLG

Procure:

JOB CANCELLED

ou:

CANCELLED BY OPERATOR

✅ PASSO 2 — IDENTIFIQUE O STEP

STEP01

✅ PASSO 3 — ANALISE O SYSOUT

Última mensagem geralmente aponta:

  • loop

  • repetição

  • SQL preso


✅ PASSO 4 — VERIFIQUE CPU

Pergunte:

  • CPU alta?

  • elapsed alto?

  • I/O preso?


✅ PASSO 5 — ANALISE O DUMP

Veja:

  • PSW

  • offset

  • linha COBOL

  • SQL ativo

  • WAIT state


🔥 O SEGREDO DO PSW

O PSW mostra:

ONDE O JOB MORREU.

Mesmo cancelado manualmente.


☕ O OFFSET

Exemplo:

OFFSET X'01FA'

Cruze com listing COBOL.

Agora você encontra:

PERFORM UNTIL...

Boom.


🔥 O S722 E O SDSF

Ferramenta dos operadores Jedi.

Comandos:

ST
DA

Mostram:

  • jobs ativos

  • CPU

  • tempo

  • status


☕ O MAIOR ERRO DO PADAWAN

Ver:

S722

e corrigir apenas:

TIME=1440

Não.

Porque talvez:

o job estivesse realmente preso.


🔥 O S722 E O ABEND-AID

Ferramentas modernas mostram:

  • call stack

  • loops

  • SQL ativo

  • wait chain

Facilitando MUITO análise.


☕ O S722 E O DB2

Outro cenário clássico.

Programa faz:

cursor sem COMMIT

ou:

tablespace lock

Produção trava.

Operador cancela.


🔥 O S722 E O CICS

Equivalente filosófico no online:

AICA

Mas:


☕ AICA

Sistema mata task online.


☕ S722

Humano mata batch.


🔥 CURIOSIDADE HISTÓRICA

Nos anos 70/80:

Operadores controlavam datacenters quase manualmente.

Muitos S722 aconteciam literalmente por decisão operacional humana olhando consoles físicos.


☕ EASTER EGG MAINFRAME

Veteranos brincam:

“S722 significa:

Seu Job Irritou Alguém.”


🔥 O MAIOR ENSINAMENTO DO S722

Ele ensina algo profundo:

performance ruim afeta pessoas reais.

No z/OS:

  • batch window

  • SLA

  • produção

  • financeiro

  • folha

  • banco

dependem do tempo correto.


☕ COMO EVITAR S722


✅ Sempre tratar EOF


✅ Revisar loops


✅ Monitorar SQL


✅ Fazer COMMIT


✅ Validar índices DB2


✅ Evitar waits infinitos


✅ Testar volume real


✅ Conversar com Operação

Sim.

Isso é MUITO importante.


🔥 A VERDADE FINAL

O S322 pune excesso automático de tempo.
O AICA pune runaway tasks online.

Mas…

☕ O S722 É O JULGAMENTO HUMANO FINAL SOBRE UM JOB QUE PAROU DE RESPEITAR O TEMPO DO DATACENTER.


quarta-feira, 25 de setembro de 2013

☕🔥 ABEND S322 — O “EXECUTOR DO TEMPO” NO z/OS

 

Bellacosa Mainframe abend s322

☕🔥 ABEND S322 — O “EXECUTOR DO TEMPO” NO z/OS

Quando o Mainframe Diz:

“SEU JOB DEMOROU DEMAIS.”

Se existe um ABEND que transforma operador, sysprog e programador COBOL em investigadores desesperados…

é o lendário:

🚨 S322

E normalmente ele aparece assim:

IEF450I JOBNAME STEP01 - ABEND=S322

ou:

TIME EXCEEDED

ou ainda:

CPU TIME LIMIT EXCEEDED

E naquele instante…

o Junior Padawan entra em pânico:

“O mainframe travou?”
“Meu SORT entrou em loop?”
“O COBOL nunca terminou?”
“O JES2 ficou bravo?”
“A CPU derreteu?”

☕ Respira.

Porque o S322 é um dos ABENDs MAIS IMPORTANTES para entender:

performance

loops infinitos

consumo de CPU

batch tuning

TIME parameter

runaway jobs


🔥 O QUE É O S322?

O S322 é um:

🚨 TIME LIMIT EXCEEDED

Traduzindo:

O JOB ULTRAPASSOU O TEMPO DE CPU PERMITIDO.

Então o z/OS decidiu:

☠️ “VOU ENCERRAR ISSO AGORA.”


☕ A FILOSOFIA DO S322

No z/OS:

CPU É RECURSO SAGRADO.

Milhares de jobs compartilham:

  • processador

  • initiators

  • discos

  • spool

  • memória

Um job descontrolado pode:

  • atrasar produção

  • bloquear batch window

  • derrubar SLA

  • gerar caos operacional

Então o sistema impõe limites.


🔥 O GRANDE SEGREDO

S322 normalmente NÃO é bug de sintaxe.

É:

problema de lógica

loop infinito

SQL ruim

SORT monstruoso

leitura sem fim

runaway batch


☕ O MOMENTO EXATO DO S322

Fluxo:

JOB EXECUTA
 ↓
CPU TIME cresce
 ↓
Limite TIME atingido
 ↓
JES/zOS encerra job
 ↓
S322

🔥 O PARÂMETRO MAIS IMPORTANTE

TIME=

No JCL:

//JOBNAME JOB ... TIME=(1)

ou:

TIME=1440

☕ O QUE ISSO SIGNIFICA?


☕ TIME=(1)

Máximo:

1 minuto de CPU


☕ TIME=1440

Até:

24 horas


🔥 O ERRO CLÁSSICO DO PADAWAN

//STEP1 EXEC PGM=PROG1,TIME=(1)

Mas o job precisa:

5 minutos

Resultado:

💥 S322


☕ O MAIOR VILÃO DO S322

🚨 LOOP INFINITO

O rei absoluto dos ABENDs temporais.


🔥 EXEMPLO CLÁSSICO COBOL

PERFORM UNTIL WS-FIM = 'S'

   READ ARQUIVO

END-PERFORM

Mas:

WS-FIM nunca muda

Agora:

CPU sobe

job nunca termina

scheduler sofre

S322 aparece


☕ O LOOP FANTASMA

Mais perigoso:

PERFORM VARYING IDX FROM 1 BY 1
   UNTIL IDX > 100

Mas dentro:

MOVE 1 TO IDX

Agora:

loop eterno.


🔥 O S322 E O END-OF-FILE

Clássico absoluto.


☕ O ERRO

Junior esquece:

AT END

🔥 EXEMPLO

READ CLIENTE

sem:

AT END MOVE 'S' TO WS-FIM

Agora o READ nunca encerra corretamente.

Loop eterno.

Resultado:

☠️ S322


☕ O S322 E O SQL

Outro campeão.


🔥 CURSOR MALDITO

SELECT * FROM TABELA_GIGANTE

Sem índice.

Sem filtro.

Sem COMMIT.

Agora:

CPU explode.


☕ O SORT DA MORTE

//SYSIN DD *
  SORT FIELDS=COPY
/*

Mas dataset:

5 bilhões de registros

E disco ruim.

Resultado:

☠️ S322


🔥 O S322 E O “WAIT”

Outro cenário sombrio.

Job preso:

  • ENQ

  • recurso

  • fita

  • dataset lock

  • deadlock lógico

Tempo passa.

Resultado:

💥 S322


☕ O S322 NÃO É NECESSARIAMENTE CPU

Isso é importante.

Às vezes:

elapsed time

também pode causar término dependendo de políticas do sistema.


🔥 COMO INVESTIGAR O S322 PASSO A PASSO


✅ PASSO 1 — VERIFIQUE O JESMSGLG

Ali está a verdade.

Exemplo:

TIME EXCEEDED

✅ PASSO 2 — IDENTIFIQUE O STEP

STEP01

✅ PASSO 3 — VERIFIQUE CPU TIME

Mensagens:

CPU: 00:00:59

✅ PASSO 4 — PROCURE LOOPS

Pergunte:

  • EOF existe?

  • índice muda?

  • condição muda?

  • cursor fecha?

  • COMMIT existe?


✅ PASSO 5 — ANALISE O SYSOUT

Última mensagem repetitiva geralmente aponta o loop.


🔥 O SEGREDO DOS DISPLAYs

Veteranos usam:

DISPLAY IDX

para descobrir:

  • loop preso

  • contador travado

  • repetição infinita


☕ O DUMP DO S322

Curiosamente:

muitas vezes NÃO existe dump útil.

Porque o sistema apenas mata o job por timeout.


🔥 MAS ÀS VEZES EXISTE

Com opções especiais:

  • SYSUDUMP

  • CEEDUMP

  • SLIP

  • Abend-AID

Você pode capturar o estado.


☕ COMO O VETERANO INVESTIGA

Veterano pergunta imediatamente:

“O JOB ESTÁ PRESO OU APENAS LENTO?”

Isso muda tudo.


🔥 JOB LENTO

  • volume gigantesco

  • SQL ruim

  • SORT pesado

  • I/O excessivo


🔥 JOB PRESO

  • loop infinito

  • EOF errado

  • condição impossível

  • deadlock


☕ O S322 E O CICS

No CICS equivalente filosófico seria:

🚨 AICA

Ambos representam:

excesso de tempo.

Mas:


☕ S322

Batch.


☕ AICA

Online/CICS.


🔥 O S322 E O JES2

O JES monitora:

  • accounting

  • CPU

  • limites

  • classe de execução

Ele participa do encerramento.


☕ O SEGREDO DO TIME=NOLIMIT

Alguns ambientes permitem:

TIME=NOLIMIT

Veteranos tremem quando veem isso.

Porque runaway jobs podem:

destruir batch windows inteiras.


🔥 O S322 E O MAINFRAME ANTIGO

Nos anos 70/80:

CPU era MUITO cara.

Minutos desperdiçados tinham impacto financeiro enorme.

Então IBM criou mecanismos agressivos de timeout.


☕ CURIOSIDADE HISTÓRICA

Em ambientes antigos:

um loop infinito podia literalmente:

atrasar folha de pagamento inteira.


🔥 EASTER EGG MAINFRAME

Veteranos brincam:

“S322 significa:

Seu Job Não Quer Morrer.”


☕ O MAIOR ERRO DO PADAWAN

Resolver S322 aumentando:

TIME=1440

sem descobrir causa raiz.

Agora o job infinito só demora MAIS para morrer.


🔥 COMO EVITAR S322


✅ Sempre validar EOF


✅ Loops precisam mudar estado


✅ Revisar PERFORM UNTIL


✅ Revisar SQL


✅ Monitorar CPU


✅ Testar com massa pequena


✅ Usar contadores de proteção


☕ O “CONTADOR DE SANIDADE”

Veteranos adoram isso:

ADD 1 TO WS-COUNT

IF WS-COUNT > 999999
   DISPLAY 'LOOP SUSPEITO'
   STOP RUN
END-IF

🔥 O MAIOR ENSINAMENTO DO S322

Ele ensina algo profundo:

processamento sem controle destrói ambientes compartilhados.


☕ A VERDADE FINAL

O S0C7 pune dados inválidos.
O S0C4 pune memória inválida.
O S013 pune estrutura inválida.

Mas…

☕ O S322 PUNE PROGRAMAS QUE ESQUECERAM QUE O TEMPO DA CPU É SAGRADO NO z/OS.