Translate

sábado, 17 de outubro de 2020

O Holocron do Chaos Monkey – Os Laboratórios Bellacosa Mainframe: Como um Sysprog Pode Injetar Caos no IBM Z Sem Ser Expulso da Sala de Guerra - Parte IV

 

Bellacosa Mainframe e o chaos monkey parte iv

☕ Um Café no Bellacosa Mainframe

O Holocron do Chaos Monkey – Parte IV

Os Laboratórios Bellacosa Mainframe: Como um Sysprog Pode Injetar Caos no IBM Z Sem Ser Expulso da Sala de Guerra

"Em produção todos são especialistas em alta disponibilidade. Em laboratório descobrimos quem realmente sabe recuperá-la."


O Café das 3 da Manhã e a Última Lição do Mestre

03h11.

A sala estava silenciosa.

O RMF Monitor III permanecia aberto.

OMEGAMON coletava estatísticas.

O SDSF exibia centenas de jobs.

MQ continuava movimentando mensagens.

Db2 processava commits.

CICS atendia milhares de transações.

O Padawan perguntou.

— Mestre...

— Sim?

— Já entendi a teoria.

— Já entendi o Blast Radius.

— Já entendi observabilidade.

— Já entendi o Parallel Sysplex.

— Mas...

— Como fazemos isso de verdade?

O velho Sysprog sorriu.

Abriu um caderno antigo.

Escrito na capa.

Bellacosa Chaos Labs


Filosofia dos Laboratórios

Objetivo:

Não quebrar ambientes.

Objetivo:

Aprender.

Medir.

Observar.

Melhorar.


Princípios.

Pequeno impacto

Rollback rápido

Equipe avisada

Métricas disponíveis

Documentação obrigatória


Laboratório 1

Chaos Monkey para CICS


Ambiente

CICSPLEX01

TOR01

TOR02

AOR01

AOR02

AOR03

FOR01


Hipótese

Posso perder AOR02.

Sem impacto.


Métricas

CPU

Task Rate

Response Time

Storage

SOS

Abends


Execução

Método 1

CEMT PERFORM SHUTDOWN

Método 2

CEMT SET REGION QUIESCED

Método 3

SA z/OS

INGREQ AOR02 STOP

Observar

OMEGAMON

RMF

CICS Explorer

SMF110


Resultado esperado

TOR redireciona.

Usuários continuam.


Hipótese validada

SIM


Laboratório 2

Chaos Monkey para Db2


Ambiente

DB2A

DB2B

DB2C

CF1

CF2


Hipótese

DB2B pode falhar.


Observar

GBP

IRLM

Claims

Commits

Threads


Simulação

-STOP DB2 MODE(QUIESCE)

ou

-STOP DB2

ambiente controlado.


Métricas

SMF 100

SMF101

IFCID

OMEGAMON


Verificar

Aplicações continuam.

Sim.

Não.


Laboratório 3

Chaos Monkey para MQ


Ambiente

MQA

MQB

MQC

QSG


Hipótese

MQB pode desaparecer.


Execução

STOP QMGR

Observar

Queue Depth

Channels

Persistent Messages

Restart


Ferramentas

MQ Explorer

MO71

OMEGAMON MQ

SMF115


Resultado

Mensagens preservadas.


Laboratório 4

Chaos Monkey para WLM

Talvez um dos mais interessantes.


Hipótese

Aplicação suporta degradação.


Situação

Service Class

HIGH

MEDIUM

LOW


Alteração

Política.

Reduzir.

Importance.


Observação

Velocity

Execution Delay

CPU

SRB


Pergunta

Quem sofre primeiro?


Descoberta

Aplicações frágeis.

Aparecem rapidamente.


Laboratório 5

Simulando Perda de LPAR


Ambiente

LPAR1

LPAR2

LPAR3

LPAR4


Hipótese

Perda.

LPAR2.


Observar

XCF

Coupling

Db2

MQ

CICS


Ferramentas

RMF

NetView

SA

OMEGAMON


Resultado

Sysplex redistribui.


Laboratório 6

Coupling Facility

Apenas para ambientes preparados.


Hipótese

CF1 indisponível.


Observação

Lock Structure

Cache Structure

GBP

Latency


Resultado esperado

CF2 assume.


Laboratório 7

z/OS Connect

Ambientes híbridos.


REST

JSON

APIs


Hipótese

API Gateway indisponível.


Monitorar

HTTP 500

Timeout

MQ

Db2


Laboratório 8

Batch Chaos

Pouco discutido.

Muito útil.


Parar JES Initiator.


Perguntas.

Jobs aguardam?

Restart funciona?

Dependências quebram?


O Papel do Ansible

Chaos moderno.

Precisa ser repetível.


Exemplo.

Playbook.

---
- hosts: zos

tasks:


- stop_cics


- collect_rmf


- wait


- validate


- restart


- report

Benefícios.

Auditoria

Versionamento

Git

Rollback


Exemplo Python

if latency < 120:

    print("Hipótese válida")

else:

    print("Ajustar arquitetura")

O Checklist Bellacosa Chaos

Antes

Hipótese

Blast Radius

Equipe

Janela

Backup

Dashboard

Autorização

Rollback


Durante

Coletar métricas

Observar

Documentar

Registrar horário


Depois

Corrigir

Melhorar

Automatizar

Repetir


O Nível de Maturidade Chaos para IBM Z

Nível 1

Sem testes.


Nível 2

DR anual.


Nível 3

Testes trimestrais.


Nível 4

Automação.


Nível 5

Chaos contínuo.


Nível 6

Auto Healing.

IA.

Ansible.

SA z/OS.


O Futuro

IBM Z já possui.

Observabilidade.

Automação.

Resiliência.

Telemetry.

OpenTelemetry.

Ansible.

AIOps.

Watson.

Instana.

Zowe.

z/OSMF.


Talvez o próximo passo seja.

Chaos Engineering Assistido por IA.


IA pergunta.

Posso testar?


Sysprog.

Sim.


IA.

Executa.

Coleta.

Analisa.

Produz relatório.

Abre Change.

Atualiza Wiki.

Agenda próximo teste.


Bibliografia Recomendada

Chaos Engineering

Netflix

Google SRE

Building Secure and Reliable Systems

IBM Redbooks

Parallel Sysplex Handbook

SA z/OS Planning Guide

CICS TS Administration Guide

Db2 Data Sharing Redbook

MQ for z/OS Redbooks

RMF User Guide

SMF Manuals


A Última Conversa do Padawan

O relógio marcava quase quatro horas da manhã.

O café havia acabado.

O mestre fechou o caderno.

O Padawan perguntou.

— Então...

— Sim.

— O Chaos Monkey é apenas um macaco derrubando servidores?

O velho Sysprog sorriu.

— Não.

— O Chaos Monkey é um professor.

Ele ensina humildade.

Ensina observabilidade.

Ensina automação.

Ensina recuperação.

Ensina arquitetura.

Ensina disciplina.

Ensina documentação.

E acima de tudo.

Ensina que sistemas confiáveis não são aqueles que nunca falham.

São aqueles que falharam inúmeras vezes.

Em laboratório.

Sob controle.

Com métricas.

Com aprendizado.

Com engenharia.

Muito antes dos usuários.

Muito antes dos auditores.

Muito antes da manchete do jornal.

E talvez seja exatamente por isso que tantos Sysprogs veteranos olham para o Chaos Monkey e apenas dão um pequeno sorriso.

Porque, no fundo, sabem que o IBM Z passou décadas ensinando a mesma lição.

Disponibilidade não é sorte.

Resiliência não é marketing.

Alta disponibilidade é a arte de transformar falhas inevitáveis em eventos rotineiros, previsíveis e quase entediantes.


☕ Fim do Holocron do Chaos Monkey

Teste. Observe. Aprenda. Evolua. E nunca deixe que o primeiro desastre da sua arquitetura aconteça em uma segunda-feira às 9h da manhã.


Sem comentários:

Enviar um comentário