| Bellacosa Mainframe e o chaos monkey parte iv |
☕ Um Café no Bellacosa Mainframe
O Holocron do Chaos Monkey – Parte IV
Os Laboratórios Bellacosa Mainframe: Como um Sysprog Pode Injetar Caos no IBM Z Sem Ser Expulso da Sala de Guerra
"Em produção todos são especialistas em alta disponibilidade. Em laboratório descobrimos quem realmente sabe recuperá-la."
O Café das 3 da Manhã e a Última Lição do Mestre
03h11.
A sala estava silenciosa.
O RMF Monitor III permanecia aberto.
OMEGAMON coletava estatísticas.
O SDSF exibia centenas de jobs.
MQ continuava movimentando mensagens.
Db2 processava commits.
CICS atendia milhares de transações.
O Padawan perguntou.
— Mestre...
— Sim?
— Já entendi a teoria.
— Já entendi o Blast Radius.
— Já entendi observabilidade.
— Já entendi o Parallel Sysplex.
— Mas...
— Como fazemos isso de verdade?
O velho Sysprog sorriu.
Abriu um caderno antigo.
Escrito na capa.
Bellacosa Chaos Labs
Filosofia dos Laboratórios
Objetivo:
Não quebrar ambientes.
Objetivo:
Aprender.
Medir.
Observar.
Melhorar.
Princípios.
Pequeno impacto
Rollback rápido
Equipe avisada
Métricas disponíveis
Documentação obrigatória
Laboratório 1
Chaos Monkey para CICS
Ambiente
CICSPLEX01
TOR01
TOR02
AOR01
AOR02
AOR03
FOR01
Hipótese
Posso perder AOR02.
Sem impacto.
Métricas
CPU
Task Rate
Response Time
Storage
SOS
Abends
Execução
Método 1
CEMT PERFORM SHUTDOWN
Método 2
CEMT SET REGION QUIESCED
Método 3
SA z/OS
INGREQ AOR02 STOP
Observar
OMEGAMON
RMF
CICS Explorer
SMF110
Resultado esperado
TOR redireciona.
Usuários continuam.
Hipótese validada
SIM
Laboratório 2
Chaos Monkey para Db2
Ambiente
DB2A
DB2B
DB2C
CF1
CF2
Hipótese
DB2B pode falhar.
Observar
GBP
IRLM
Claims
Commits
Threads
Simulação
-STOP DB2 MODE(QUIESCE)
ou
-STOP DB2
ambiente controlado.
Métricas
SMF 100
SMF101
IFCID
OMEGAMON
Verificar
Aplicações continuam.
Sim.
Não.
Laboratório 3
Chaos Monkey para MQ
Ambiente
MQA
MQB
MQC
QSG
Hipótese
MQB pode desaparecer.
Execução
STOP QMGR
Observar
Queue Depth
Channels
Persistent Messages
Restart
Ferramentas
MQ Explorer
MO71
OMEGAMON MQ
SMF115
Resultado
Mensagens preservadas.
Laboratório 4
Chaos Monkey para WLM
Talvez um dos mais interessantes.
Hipótese
Aplicação suporta degradação.
Situação
Service Class
HIGH
MEDIUM
LOW
Alteração
Política.
Reduzir.
Importance.
Observação
Velocity
Execution Delay
CPU
SRB
Pergunta
Quem sofre primeiro?
Descoberta
Aplicações frágeis.
Aparecem rapidamente.
Laboratório 5
Simulando Perda de LPAR
Ambiente
LPAR1
LPAR2
LPAR3
LPAR4
Hipótese
Perda.
LPAR2.
Observar
XCF
Coupling
Db2
MQ
CICS
Ferramentas
RMF
NetView
SA
OMEGAMON
Resultado
Sysplex redistribui.
Laboratório 6
Coupling Facility
Apenas para ambientes preparados.
Hipótese
CF1 indisponível.
Observação
Lock Structure
Cache Structure
GBP
Latency
Resultado esperado
CF2 assume.
Laboratório 7
z/OS Connect
Ambientes híbridos.
REST
JSON
APIs
Hipótese
API Gateway indisponível.
Monitorar
HTTP 500
Timeout
MQ
Db2
Laboratório 8
Batch Chaos
Pouco discutido.
Muito útil.
Parar JES Initiator.
Perguntas.
Jobs aguardam?
Restart funciona?
Dependências quebram?
O Papel do Ansible
Chaos moderno.
Precisa ser repetível.
Exemplo.
Playbook.
---
- hosts: zos
tasks:
- stop_cics
- collect_rmf
- wait
- validate
- restart
- report
Benefícios.
Auditoria
Versionamento
Git
Rollback
Exemplo Python
if latency < 120:
print("Hipótese válida")
else:
print("Ajustar arquitetura")
O Checklist Bellacosa Chaos
Antes
Hipótese
Blast Radius
Equipe
Janela
Backup
Dashboard
Autorização
Rollback
Durante
Coletar métricas
Observar
Documentar
Registrar horário
Depois
Corrigir
Melhorar
Automatizar
Repetir
O Nível de Maturidade Chaos para IBM Z
Nível 1
Sem testes.
Nível 2
DR anual.
Nível 3
Testes trimestrais.
Nível 4
Automação.
Nível 5
Chaos contínuo.
Nível 6
Auto Healing.
IA.
Ansible.
SA z/OS.
O Futuro
IBM Z já possui.
Observabilidade.
Automação.
Resiliência.
Telemetry.
OpenTelemetry.
Ansible.
AIOps.
Watson.
Instana.
Zowe.
z/OSMF.
Talvez o próximo passo seja.
Chaos Engineering Assistido por IA.
IA pergunta.
Posso testar?
Sysprog.
Sim.
IA.
Executa.
Coleta.
Analisa.
Produz relatório.
Abre Change.
Atualiza Wiki.
Agenda próximo teste.
Bibliografia Recomendada
Chaos Engineering
Netflix
Google SRE
Building Secure and Reliable Systems
IBM Redbooks
Parallel Sysplex Handbook
SA z/OS Planning Guide
CICS TS Administration Guide
Db2 Data Sharing Redbook
MQ for z/OS Redbooks
RMF User Guide
SMF Manuals
A Última Conversa do Padawan
O relógio marcava quase quatro horas da manhã.
O café havia acabado.
O mestre fechou o caderno.
O Padawan perguntou.
— Então...
— Sim.
— O Chaos Monkey é apenas um macaco derrubando servidores?
O velho Sysprog sorriu.
— Não.
— O Chaos Monkey é um professor.
Ele ensina humildade.
Ensina observabilidade.
Ensina automação.
Ensina recuperação.
Ensina arquitetura.
Ensina disciplina.
Ensina documentação.
E acima de tudo.
Ensina que sistemas confiáveis não são aqueles que nunca falham.
São aqueles que falharam inúmeras vezes.
Em laboratório.
Sob controle.
Com métricas.
Com aprendizado.
Com engenharia.
Muito antes dos usuários.
Muito antes dos auditores.
Muito antes da manchete do jornal.
E talvez seja exatamente por isso que tantos Sysprogs veteranos olham para o Chaos Monkey e apenas dão um pequeno sorriso.
Porque, no fundo, sabem que o IBM Z passou décadas ensinando a mesma lição.
Disponibilidade não é sorte.
Resiliência não é marketing.
Alta disponibilidade é a arte de transformar falhas inevitáveis em eventos rotineiros, previsíveis e quase entediantes.
☕ Fim do Holocron do Chaos Monkey
Teste. Observe. Aprenda. Evolua. E nunca deixe que o primeiro desastre da sua arquitetura aconteça em uma segunda-feira às 9h da manhã.
Sem comentários:
Enviar um comentário