Translate

Mostrar mensagens com a etiqueta Runaway Job. Mostrar todas as mensagens
Mostrar mensagens com a etiqueta Runaway Job. Mostrar todas as mensagens

terça-feira, 19 de novembro de 2013

☕🔥 ABEND S722 — O “ENCERRAMENTO MISERICORDIOSO” DO z/OS

Bellacosa Mainframe abend s722

 

☕🔥 ABEND S722 — O “ENCERRAMENTO MISERICORDIOSO” DO z/OS

Quando o Mainframe Diz:

“ALGUÉM DECIDIU MATAR ESSE JOB.”

Se existe um ABEND que confunde TODO programador COBOL Junior Padawan…

é o misterioso:

🚨 S722

Porque ele parece com:

S322

Mas NÃO é igual.

E aí começa o caos:

“Foi timeout?”
“Foi loop infinito?”
“O operador matou?”
“O JES executou?”
“O sistema entrou em guerra?”

☕ Respira.

Porque o S722 é um dos ABENDs mais interessantes para entender:

cancelamento manual

operação do z/OS

JES2

runaway jobs

comandos de operador

batch control

intervenção humana no mainframe


🔥 O QUE É O S722?

O S722 significa:

🚨 JOB CANCELADO PELO OPERADOR

Traduzindo:

ALGUÉM MATOU O JOB MANUALMENTE.


☕ O MAIOR SEGREDO

Diferente do:

S322

que é:

TIME LIMIT EXCEEDED

o:

S722

significa:

intervenção humana.


🔥 O QUE REALMENTE ACONTECE

O job está rodando:

EXECUTANDO...

Talvez:

  • lento

  • preso

  • loop infinito

  • consumindo CPU

  • esperando recurso

  • travando produção

Então o operador digita:

C jobname

ou:

P jobname

ou algum comando equivalente.

Resultado:

💥 S722


☕ ANALOGIA BELLACOSA MAINFRAME

Imagine um trem fora de controle.

O sistema ainda NÃO bateu.

Mas alguém puxa:

🚨 O FREIO DE EMERGÊNCIA

Isso é o:

☠️ S722


🔥 O S722 NÃO É NECESSARIAMENTE ERRO

Isso é MUITO importante.

Às vezes o job:

  • estava correto

  • estava lento

  • processava bilhões de registros

  • apenas demorava demais

E alguém cancelou.


☕ O S722 É “ABEND SOCIAL”

Porque envolve:

humanos.

Operadores.

Schedulers.

Produção.

Pressão.

Batch window.


🔥 O CENÁRIO CLÁSSICO

Sexta-feira

fechamento mensal

CPU alta

SLA atrasando

E então alguém vê:

JOB XYZ RUNNING 5 HOURS

Operador:

C XYZ

Resultado:

💥 S722


☕ O S722 vs S322

Essa diferença salva carreiras.


☕ S322

Sistema matou por tempo excedido.


☕ S722

Humano matou manualmente.


🔥 O MAIOR VILÃO DO S722

LOOP INFINITO

Porque operadores frequentemente cancelam:

  • jobs presos

  • loops

  • SQLs infinitos

  • SORTs monstruosos


☕ EXEMPLO COBOL CLÁSSICO

PERFORM UNTIL WS-FIM = 'S'

   READ CLIENTE

END-PERFORM

Mas:

WS-FIM nunca muda

Agora:

job nunca termina.

Operador vê CPU alta.

Resultado:

☠️ CANCEL JOB → S722


🔥 O “READ SEM EOF”

Trauma coletivo do COBOL batch.


☕ ERRO

READ ARQ

sem:

AT END

Agora:

loop eterno.


🔥 O SQL ASSASSINO

Outro clássico.

SELECT *
FROM TABELA_GIGANTE

Sem índice.

Sem filtro.

Sem COMMIT.

Agora o DB2 sofre.

Operador sofre.

Produção sofre.

Resultado:

💥 S722


☕ O S722 E O “WAIT”

Às vezes o job nem está usando CPU.

Ele está:

  • esperando fita

  • esperando lock

  • preso em ENQ

  • deadlock

  • I/O congelado

Alguém perde paciência.

CANCEL


🔥 O S722 E O JES2

O JES monitora jobs ativos:

SDSF ST

Operador vê:

  • CPU

  • tempo

  • status

  • initiator

E pode cancelar.


☕ O COMANDO DA MORTE

Em muitos ambientes:

C jobname

ou:

CANCEL jobname

🔥 O S722 E O DUMP

Aqui nasce o conhecimento Jedi.


☕ MUITAS VEZES NÃO HÁ ERRO REAL

O programa foi interrompido artificialmente.

Então o dump pode mostrar:

exatamente onde ele estava.


🔥 ISSO É OURO

Porque agora você pode descobrir:

  • loop

  • SQL lento

  • READ preso

  • WAIT

  • deadlock

  • SORT gigante


☕ COMO INVESTIGAR O S722 PASSO A PASSO


✅ PASSO 1 — VERIFIQUE JESMSGLG

Procure:

JOB CANCELLED

ou:

CANCELLED BY OPERATOR

✅ PASSO 2 — IDENTIFIQUE O STEP

STEP01

✅ PASSO 3 — ANALISE O SYSOUT

Última mensagem geralmente aponta:

  • loop

  • repetição

  • SQL preso


✅ PASSO 4 — VERIFIQUE CPU

Pergunte:

  • CPU alta?

  • elapsed alto?

  • I/O preso?


✅ PASSO 5 — ANALISE O DUMP

Veja:

  • PSW

  • offset

  • linha COBOL

  • SQL ativo

  • WAIT state


🔥 O SEGREDO DO PSW

O PSW mostra:

ONDE O JOB MORREU.

Mesmo cancelado manualmente.


☕ O OFFSET

Exemplo:

OFFSET X'01FA'

Cruze com listing COBOL.

Agora você encontra:

PERFORM UNTIL...

Boom.


🔥 O S722 E O SDSF

Ferramenta dos operadores Jedi.

Comandos:

ST
DA

Mostram:

  • jobs ativos

  • CPU

  • tempo

  • status


☕ O MAIOR ERRO DO PADAWAN

Ver:

S722

e corrigir apenas:

TIME=1440

Não.

Porque talvez:

o job estivesse realmente preso.


🔥 O S722 E O ABEND-AID

Ferramentas modernas mostram:

  • call stack

  • loops

  • SQL ativo

  • wait chain

Facilitando MUITO análise.


☕ O S722 E O DB2

Outro cenário clássico.

Programa faz:

cursor sem COMMIT

ou:

tablespace lock

Produção trava.

Operador cancela.


🔥 O S722 E O CICS

Equivalente filosófico no online:

AICA

Mas:


☕ AICA

Sistema mata task online.


☕ S722

Humano mata batch.


🔥 CURIOSIDADE HISTÓRICA

Nos anos 70/80:

Operadores controlavam datacenters quase manualmente.

Muitos S722 aconteciam literalmente por decisão operacional humana olhando consoles físicos.


☕ EASTER EGG MAINFRAME

Veteranos brincam:

“S722 significa:

Seu Job Irritou Alguém.”


🔥 O MAIOR ENSINAMENTO DO S722

Ele ensina algo profundo:

performance ruim afeta pessoas reais.

No z/OS:

  • batch window

  • SLA

  • produção

  • financeiro

  • folha

  • banco

dependem do tempo correto.


☕ COMO EVITAR S722


✅ Sempre tratar EOF


✅ Revisar loops


✅ Monitorar SQL


✅ Fazer COMMIT


✅ Validar índices DB2


✅ Evitar waits infinitos


✅ Testar volume real


✅ Conversar com Operação

Sim.

Isso é MUITO importante.


🔥 A VERDADE FINAL

O S322 pune excesso automático de tempo.
O AICA pune runaway tasks online.

Mas…

☕ O S722 É O JULGAMENTO HUMANO FINAL SOBRE UM JOB QUE PAROU DE RESPEITAR O TEMPO DO DATACENTER.


quarta-feira, 25 de setembro de 2013

☕🔥 ABEND S322 — O “EXECUTOR DO TEMPO” NO z/OS

 

Bellacosa Mainframe abend s322

☕🔥 ABEND S322 — O “EXECUTOR DO TEMPO” NO z/OS

Quando o Mainframe Diz:

“SEU JOB DEMOROU DEMAIS.”

Se existe um ABEND que transforma operador, sysprog e programador COBOL em investigadores desesperados…

é o lendário:

🚨 S322

E normalmente ele aparece assim:

IEF450I JOBNAME STEP01 - ABEND=S322

ou:

TIME EXCEEDED

ou ainda:

CPU TIME LIMIT EXCEEDED

E naquele instante…

o Junior Padawan entra em pânico:

“O mainframe travou?”
“Meu SORT entrou em loop?”
“O COBOL nunca terminou?”
“O JES2 ficou bravo?”
“A CPU derreteu?”

☕ Respira.

Porque o S322 é um dos ABENDs MAIS IMPORTANTES para entender:

performance

loops infinitos

consumo de CPU

batch tuning

TIME parameter

runaway jobs


🔥 O QUE É O S322?

O S322 é um:

🚨 TIME LIMIT EXCEEDED

Traduzindo:

O JOB ULTRAPASSOU O TEMPO DE CPU PERMITIDO.

Então o z/OS decidiu:

☠️ “VOU ENCERRAR ISSO AGORA.”


☕ A FILOSOFIA DO S322

No z/OS:

CPU É RECURSO SAGRADO.

Milhares de jobs compartilham:

  • processador

  • initiators

  • discos

  • spool

  • memória

Um job descontrolado pode:

  • atrasar produção

  • bloquear batch window

  • derrubar SLA

  • gerar caos operacional

Então o sistema impõe limites.


🔥 O GRANDE SEGREDO

S322 normalmente NÃO é bug de sintaxe.

É:

problema de lógica

loop infinito

SQL ruim

SORT monstruoso

leitura sem fim

runaway batch


☕ O MOMENTO EXATO DO S322

Fluxo:

JOB EXECUTA
 ↓
CPU TIME cresce
 ↓
Limite TIME atingido
 ↓
JES/zOS encerra job
 ↓
S322

🔥 O PARÂMETRO MAIS IMPORTANTE

TIME=

No JCL:

//JOBNAME JOB ... TIME=(1)

ou:

TIME=1440

☕ O QUE ISSO SIGNIFICA?


☕ TIME=(1)

Máximo:

1 minuto de CPU


☕ TIME=1440

Até:

24 horas


🔥 O ERRO CLÁSSICO DO PADAWAN

//STEP1 EXEC PGM=PROG1,TIME=(1)

Mas o job precisa:

5 minutos

Resultado:

💥 S322


☕ O MAIOR VILÃO DO S322

🚨 LOOP INFINITO

O rei absoluto dos ABENDs temporais.


🔥 EXEMPLO CLÁSSICO COBOL

PERFORM UNTIL WS-FIM = 'S'

   READ ARQUIVO

END-PERFORM

Mas:

WS-FIM nunca muda

Agora:

CPU sobe

job nunca termina

scheduler sofre

S322 aparece


☕ O LOOP FANTASMA

Mais perigoso:

PERFORM VARYING IDX FROM 1 BY 1
   UNTIL IDX > 100

Mas dentro:

MOVE 1 TO IDX

Agora:

loop eterno.


🔥 O S322 E O END-OF-FILE

Clássico absoluto.


☕ O ERRO

Junior esquece:

AT END

🔥 EXEMPLO

READ CLIENTE

sem:

AT END MOVE 'S' TO WS-FIM

Agora o READ nunca encerra corretamente.

Loop eterno.

Resultado:

☠️ S322


☕ O S322 E O SQL

Outro campeão.


🔥 CURSOR MALDITO

SELECT * FROM TABELA_GIGANTE

Sem índice.

Sem filtro.

Sem COMMIT.

Agora:

CPU explode.


☕ O SORT DA MORTE

//SYSIN DD *
  SORT FIELDS=COPY
/*

Mas dataset:

5 bilhões de registros

E disco ruim.

Resultado:

☠️ S322


🔥 O S322 E O “WAIT”

Outro cenário sombrio.

Job preso:

  • ENQ

  • recurso

  • fita

  • dataset lock

  • deadlock lógico

Tempo passa.

Resultado:

💥 S322


☕ O S322 NÃO É NECESSARIAMENTE CPU

Isso é importante.

Às vezes:

elapsed time

também pode causar término dependendo de políticas do sistema.


🔥 COMO INVESTIGAR O S322 PASSO A PASSO


✅ PASSO 1 — VERIFIQUE O JESMSGLG

Ali está a verdade.

Exemplo:

TIME EXCEEDED

✅ PASSO 2 — IDENTIFIQUE O STEP

STEP01

✅ PASSO 3 — VERIFIQUE CPU TIME

Mensagens:

CPU: 00:00:59

✅ PASSO 4 — PROCURE LOOPS

Pergunte:

  • EOF existe?

  • índice muda?

  • condição muda?

  • cursor fecha?

  • COMMIT existe?


✅ PASSO 5 — ANALISE O SYSOUT

Última mensagem repetitiva geralmente aponta o loop.


🔥 O SEGREDO DOS DISPLAYs

Veteranos usam:

DISPLAY IDX

para descobrir:

  • loop preso

  • contador travado

  • repetição infinita


☕ O DUMP DO S322

Curiosamente:

muitas vezes NÃO existe dump útil.

Porque o sistema apenas mata o job por timeout.


🔥 MAS ÀS VEZES EXISTE

Com opções especiais:

  • SYSUDUMP

  • CEEDUMP

  • SLIP

  • Abend-AID

Você pode capturar o estado.


☕ COMO O VETERANO INVESTIGA

Veterano pergunta imediatamente:

“O JOB ESTÁ PRESO OU APENAS LENTO?”

Isso muda tudo.


🔥 JOB LENTO

  • volume gigantesco

  • SQL ruim

  • SORT pesado

  • I/O excessivo


🔥 JOB PRESO

  • loop infinito

  • EOF errado

  • condição impossível

  • deadlock


☕ O S322 E O CICS

No CICS equivalente filosófico seria:

🚨 AICA

Ambos representam:

excesso de tempo.

Mas:


☕ S322

Batch.


☕ AICA

Online/CICS.


🔥 O S322 E O JES2

O JES monitora:

  • accounting

  • CPU

  • limites

  • classe de execução

Ele participa do encerramento.


☕ O SEGREDO DO TIME=NOLIMIT

Alguns ambientes permitem:

TIME=NOLIMIT

Veteranos tremem quando veem isso.

Porque runaway jobs podem:

destruir batch windows inteiras.


🔥 O S322 E O MAINFRAME ANTIGO

Nos anos 70/80:

CPU era MUITO cara.

Minutos desperdiçados tinham impacto financeiro enorme.

Então IBM criou mecanismos agressivos de timeout.


☕ CURIOSIDADE HISTÓRICA

Em ambientes antigos:

um loop infinito podia literalmente:

atrasar folha de pagamento inteira.


🔥 EASTER EGG MAINFRAME

Veteranos brincam:

“S322 significa:

Seu Job Não Quer Morrer.”


☕ O MAIOR ERRO DO PADAWAN

Resolver S322 aumentando:

TIME=1440

sem descobrir causa raiz.

Agora o job infinito só demora MAIS para morrer.


🔥 COMO EVITAR S322


✅ Sempre validar EOF


✅ Loops precisam mudar estado


✅ Revisar PERFORM UNTIL


✅ Revisar SQL


✅ Monitorar CPU


✅ Testar com massa pequena


✅ Usar contadores de proteção


☕ O “CONTADOR DE SANIDADE”

Veteranos adoram isso:

ADD 1 TO WS-COUNT

IF WS-COUNT > 999999
   DISPLAY 'LOOP SUSPEITO'
   STOP RUN
END-IF

🔥 O MAIOR ENSINAMENTO DO S322

Ele ensina algo profundo:

processamento sem controle destrói ambientes compartilhados.


☕ A VERDADE FINAL

O S0C7 pune dados inválidos.
O S0C4 pune memória inválida.
O S013 pune estrutura inválida.

Mas…

☕ O S322 PUNE PROGRAMAS QUE ESQUECERAM QUE O TEMPO DA CPU É SAGRADO NO z/OS.