El Jefe Midnight Lunch

✨ Bem-vindo ao meu espaço! ✨ Este blog é o diário de um otaku apaixonado por animes, tecnologia de mainframe e viagens. Cada entrada é uma mistura única: relatos de viagem com fotos, filmes, links, artigos e desenhos, sempre buscando enriquecer a experiência de quem lê. Sou quase um turista profissional: adoro dormir em uma cama diferente, acordar em um lugar novo e registrar tudo com minha câmera sempre à mão. Entre uma viagem e outra, compartilho também reflexões sobre cultura otaku/animes

Mostrar mensagens com a etiqueta HMC. Mostrar todas as mensagens

segunda-feira, 26 de fevereiro de 2024

Resiliência IBM Z – A Arquitetura do IBM Z: Os Guardiões Invisíveis da Disponibilidade - Parte II

Bellacosa Mainframe apresenta resiliencia ibm z parte II

☕ Um Café no Bellacosa Mainframe

O Holocron da Resiliência IBM Z

Parte II – A Arquitetura do IBM Z: Os Guardiões Invisíveis da Disponibilidade

"Um Padawan COBOL normalmente enxerga apenas o programa. Um Mestre Mainframe enxerga toda a máquina que mantém esse programa vivo."

Depois de compreender os conceitos de Resiliência, RAS, SLA, RPO e RTO, chegou o momento de conhecer quem realmente sustenta toda essa arquitetura.

Quando um banco diz que seu sistema funciona 24 horas por dia, sete dias por semana, não é apenas mérito do COBOL, do CICS ou do Db2.

Existe uma verdadeira legião de componentes trabalhando silenciosamente para que milhões de usuários nunca percebam que processadores falham, discos apresentam defeitos, memórias são substituídas ou sistemas operacionais são reinicializados.

Nesta segunda parte do Holocron conheceremos os "heróis invisíveis" do IBM Z. Os tópicos desta seção correspondem aos componentes de arquitetura e manutenção presentes no glossário IBM Z: Processing Units (PUs), License Internal Code (LIC), PCIe Fanout, Hardware Management Console (HMC), Support Element (SE), First Failure Data Capture (FFDC), Runtime Diagnostics, Auto-IPL, Predictive Failure Analysis (PFA) e System Recovery Boost.

Muito Além de um Computador

Quando alguém olha um IBM Z pela primeira vez, normalmente vê apenas um enorme gabinete preto.

Mas o que existe ali dentro?

Na realidade...

Um IBM Z parece muito mais uma pequena cidade do que um computador.

Existe administração.

Existe segurança.

Existe manutenção.

Existe monitoramento.

Existe planejamento.

Existe redundância.

Enquanto um computador doméstico foi projetado para atender um único usuário, um IBM Z foi construído para atender milhões de pessoas simultaneamente.

É por isso que sua arquitetura é completamente diferente.

CPC – Central Processing Complex

Imagine um prédio comercial.

O prédio inteiro possui:

elevadores;
energia;
ar-condicionado;
segurança;
salas;
redes;
administração.

O CPC é exatamente isso.

Ele representa todo o computador IBM Z.

Não é apenas o processador.

É toda a infraestrutura física responsável pela execução do ambiente.

Quando um banco informa possuir quatro CPCs, significa que existem quatro grandes sistemas IBM Z operando em conjunto.

Para o desenvolvedor COBOL isso normalmente é invisível.

Seu programa continua funcionando independentemente do CPC em que foi iniciado.

Processing Units (PUs)

Agora imagine que o CPC seja um prédio.

As Processing Units seriam os funcionários especializados.

Nem todos executam a mesma função.

Existem processadores dedicados para diferentes cargas de trabalho.

Alguns são responsáveis pelo processamento tradicional.

Outros trabalham com criptografia.

Outros executam cargas Java.

Outros processam workloads elegíveis para zIIP.

Essa especialização melhora o desempenho e reduz custos de licenciamento.

Enquanto o desenvolvedor simplesmente executa um programa COBOL, o hardware decide qual recurso é mais adequado para aquela carga.

License Internal Code (LIC)

Todo computador possui firmware.

O IBM Z também.

Mas o LIC vai muito além de um simples BIOS.

Ele controla diversos recursos fundamentais do equipamento.

Podemos imaginá-lo como um sistema operacional "escondido", responsável por fazer toda a eletrônica conversar corretamente com o z/OS.

Grande parte da confiabilidade do IBM Z nasce justamente nesse nível extremamente baixo da arquitetura.

Quando o hardware detecta uma condição anormal, o LIC frequentemente consegue tratá-la antes mesmo que o sistema operacional perceba.

PCIe Fanout

No mundo moderno, praticamente tudo conversa através de PCI Express.

No IBM Z não é diferente.

O PCIe Fanout funciona como uma central inteligente de distribuição.

Ele conecta adaptadores de rede, aceleradores, dispositivos criptográficos e diversos outros componentes ao restante do sistema.

A diferença está na redundância.

Enquanto muitos servidores possuem poucos caminhos físicos, o IBM Z foi projetado para eliminar gargalos e pontos únicos de falha.

Hardware Management Console (HMC)

Imagine a cabine de comando de um grande navio.

É exatamente essa a função da HMC.

Ela é o centro administrativo do IBM Z.

Por meio dela os administradores conseguem:

iniciar sistemas;
desligar partições;
acompanhar alertas;
monitorar hardware;
configurar recursos;
analisar eventos.

Um programador COBOL provavelmente nunca utilizará diretamente uma HMC.

Mas praticamente tudo o que acontece no ambiente passa por ela.

É dali que nasce grande parte da administração do mainframe.

Support Element (SE)

Se a HMC é a cabine do comandante...

O Support Element é a oficina técnica.

Ele fornece acesso às funções internas de manutenção do equipamento.

É utilizado principalmente por especialistas da IBM e equipes de infraestrutura altamente qualificadas.

Ali residem funções críticas de diagnóstico e configuração que raramente são vistas por desenvolvedores.

First Failure Data Capture (FFDC)

Imagine que um carro apresente defeito.

Em vez de simplesmente apagar todas as informações...

Ele grava automaticamente:

velocidade;
temperatura;
rotação;
sensores;
posição do acelerador.

Foi exatamente isso que aconteceu no momento da falha.

O FFDC faz algo semelhante.

Quando ocorre um problema, ele captura imediatamente todas as informações necessárias para investigação.

Assim evita que evidências importantes sejam perdidas.

É um verdadeiro "fotógrafo" das falhas.

Runtime Diagnostics

Nem todos os problemas provocam uma queda do sistema.

Às vezes um programa entra em loop.

Uma tarefa começa a consumir CPU excessivamente.

Uma aplicação passa a responder lentamente.

O Runtime Diagnostics observa o comportamento do ambiente enquanto tudo continua funcionando.

Ele identifica sintomas antes que eles se transformem em incidentes graves.

É medicina preventiva aplicada ao sistema operacional.

Auto-IPL

IPL significa Initial Program Load.

Em outras palavras...

Inicializar o sistema operacional.

Antigamente esse processo dependia de intervenção humana.

Hoje, em muitos ambientes IBM Z, isso acontece automaticamente.

Se ocorrer uma falha previamente prevista, o Auto-IPL pode reiniciar o ambiente sem necessidade de um operador presente.

O tempo de recuperação diminui drasticamente.

E isso impacta diretamente o RTO.

Predictive Failure Analysis (PFA)

Talvez este seja um dos conceitos mais impressionantes.

Em vez de esperar um defeito...

O sistema tenta prever que ele acontecerá.

O PFA analisa tendências.

Temperaturas.

Erros recorrentes.

Estatísticas de funcionamento.

Com base nesses dados, consegue identificar componentes que apresentam sinais de desgaste antes da falha definitiva.

É praticamente uma manutenção preditiva aplicada ao mundo dos computadores.

Troca-se a peça antes que ela interrompa o negócio.

System Recovery Boost

Imagine um corredor que normalmente percorre uma maratona em ritmo constante.

Agora imagine que, nos últimos metros, ele receba uma descarga extra de energia.

É exatamente essa a ideia do System Recovery Boost.

Durante momentos críticos — como a inicialização do sistema ou a recuperação após uma falha — o IBM Z concede recursos adicionais temporários.

O objetivo é simples:

Recuperar o ambiente o mais rápido possível.

Essa aceleração reduz significativamente o tempo de indisponibilidade.

Speed Boost

O Speed Boost é um dos mecanismos do System Recovery Boost.

Durante eventos específicos, determinados processadores operam temporariamente com desempenho superior ao habitual.

Essa capacidade permite concluir etapas críticas mais rapidamente, reduzindo o tempo necessário para retornar à operação normal.

zIIP Boost

Muitas aplicações modernas utilizam processadores especializados chamados zIIPs.

Durante uma recuperação, essas cargas também recebem aceleração temporária.

Isso beneficia aplicações Java, Db2, XML, APIs REST, analytics e diversas cargas modernas executadas sobre o IBM Z.

O resultado é uma recuperação mais rápida sem necessidade de adquirir capacidade permanente adicional.

Quando Hardware e Software Trabalham Como Um Só

Uma das maiores diferenças entre o IBM Z e outras plataformas é que hardware e software não competem entre si.

Eles cooperam.

O LIC conversa constantemente com o hardware.

O hardware fornece informações ao HMC.

O HMC alerta administradores.

O FFDC registra evidências.

O Runtime Diagnostics detecta anomalias.

O PFA prevê falhas futuras.

O Auto-IPL acelera a recuperação.

O System Recovery Boost reduz o tempo de indisponibilidade.

Tudo isso acontece antes mesmo que o programador COBOL perceba qualquer alteração.

O Aprendizado do Padawan

Existe uma lição importante que todo desenvolvedor IBM Z aprende com o tempo.

O programa COBOL representa apenas a camada visível de uma engenharia extraordinária.

Por trás de um simples EXEC CICS LINK, de um SELECT no Db2 ou da leitura de um arquivo VSAM existe um ecossistema inteiro trabalhando para garantir disponibilidade, confiabilidade e recuperação rápida.

Compreender essa arquitetura ajuda o desenvolvedor a escrever aplicações mais eficientes, colaborar melhor com equipes de infraestrutura e entender por que o IBM Z continua sendo referência mundial em sistemas críticos.

No próximo capítulo do Holocron da Resiliência IBM Z, entraremos no coração da alta disponibilidade: Parallel Sysplex, Coupling Facility, WLM, SFM, ARM e GDPS, tecnologias que permitem que vários mainframes atuem como se fossem um único sistema, mantendo aplicações em funcionamento mesmo diante de falhas de grande porte.

Translate