⏰🔥 SRE explicado para quem já foi acordado por batch quebrado
02:47 — Introdução: quando o telefone tocava e você já sabia
Antes de existir SRE, já existia plantão.
Antes de “on-call rotation”, já existia pager, telefone fixo e operador nervoso.
Antes de “incident postmortem”, já existia a pergunta clássica:
“O que mudou desde ontem?”
Site Reliability Engineering (SRE) não nasceu no Google.
Nasceu no trauma coletivo de quem precisava manter sistema crítico em pé, custe o que custar.
1️⃣ O que é SRE (traduzido para dialeto mainframe)
SRE é aplicar engenharia para garantir:
-
Disponibilidade
-
Performance
-
Confiabilidade
-
Previsibilidade
Não é suporte.
Não é operação reativa.
É disciplina.
📌 Mainframer entende assim:
“Não apagar incêndio. Evitar que ele comece.”
2️⃣ O mito: SRE é coisa de cloud 😈
Mentira.
Mainframe já fazia SRE com:
-
SLAs rígidos
-
Janelas de batch
-
Planejamento de capacidade
-
Controles de mudança
-
Automação pesada
😈 Easter egg:
ITIL copiou metade disso e deu nome bonito.
3️⃣ SLIs, SLOs e SLAs (ou: como medir sem enganar)
SLI – Indicador
-
Tempo de resposta
-
Taxa de erro
-
Throughput
SLO – Objetivo
-
“99,9% das transações em até X ms”
SLA – Contrato
-
Multa
-
Diretoria
-
Dor
📎 Mainframer traduz:
“Se o fechamento não roda, tem reunião amanhã.”
4️⃣ Error Budget: a parte que o negócio nunca entendeu 💣
Error Budget =
100% − SLO
Se o sistema pode falhar 0,1% do tempo:
-
Você pode inovar
-
Pode mudar
-
Pode arriscar
Se estourar:
-
Congela mudança
-
Estabiliza
-
Arruma casa
😈 Easter egg:
No mainframe isso se chamava “congelamento pré-fechamento”.
5️⃣ Postmortem sem caça às bruxas 🧠
SRE prega:
-
Análise sem culpados
-
Foco no processo
-
Aprendizado real
Mainframer sabe:
“Sistema não quebra sozinho.”
📌 Curiosidade:
Quem caça culpado esconde problema.
6️⃣ Automação: batch, scripts e o futuro 🤖
SRE vive de automação:
-
Deploy automático
-
Rollback
-
Self-healing
-
Escala automática
Mainframe já fazia:
-
JCL
-
Restart automático
-
Schedulers
-
Abends tratados
😈 Easter egg:
JCL é Infrastructure as Code sem marketing.
7️⃣ Passo a passo para pensar como SRE (modo Bellacosa)
1️⃣ Defina o que é “funcionar”
2️⃣ Meça tudo que importa
3️⃣ Crie limites claros
4️⃣ Automatize o repetitivo
5️⃣ Aceite falhas pequenas
6️⃣ Aprenda com cada incidente
7️⃣ Melhore antes da próxima pancada
8️⃣ Guia de estudo para mainframers cansados 📚
Conceitos
-
SRE
-
SLIs / SLOs
-
Error Budget
-
Incident Management
-
Chaos Engineering
Ferramentas modernas
-
Instana
-
PagerDuty
-
Grafana
-
Kubernetes (sim…)
9️⃣ Aplicações práticas no mundo híbrido
-
Redução de chamadas noturnas
-
Menos stress operacional
-
Melhor diálogo com negócio
-
Estabilidade com inovação
-
Arquiteturas mais conscientes
🎯 Mainframer SRE vira pilar da empresa.
🔟 Curiosidades que doem 😬
-
100% disponível não existe
-
Mudança sem métrica é aposta
-
Automatizar erro escala desastre
-
Confiabilidade custa tempo e dinheiro
📌 Verdade dura:
Sistema crítico exige humildade técnica.
11️⃣ Comentário final (05:31, céu clareando)
SRE não é moda.
É sobrevivência profissional.
Se você já:
-
Dormiu mal por batch quebrado
-
Evitou mudança perto do fechamento
-
Confiou mais em histórico do que em promessa
Então você já era SRE, antes do nome existir.
🖤 El Jefe Midnight Lunch encerra a série:
Confiabilidade não se improvisa. Se constrói.