Saiba usar o Analytics Series
Aprendendo sobre as estatísticas do Youtube, utilizando o analytics,
✨ Bem-vindo ao meu espaço! ✨ Este blog é o diário de um otaku apaixonado por animes, tecnologia de mainframe e viagens. Cada entrada é uma mistura única: relatos de viagem com fotos, filmes, links, artigos e desenhos, sempre buscando enriquecer a experiência de quem lê. Sou quase um turista profissional: adoro dormir em uma cama diferente, acordar em um lugar novo e registrar tudo com minha câmera sempre à mão. Entre uma viagem e outra, compartilho também reflexões sobre cultura otaku/animes
| Bellacosa Mainframe apresenta Python na Ciencia de Dados |
Python é a principal linguagem utilizada em Data Science, permitindo transformar grandes volumes de dados em insights valiosos para negócios e pesquisa.
Com bibliotecas essenciais como NumPy, Pandas, Matplotlib, Seaborn e Scikit-learn, é possível realizar todo o ciclo analítico: carregamento, limpeza, exploração, visualização e modelagem de dados.
O Pandas oferece DataFrames poderosos para manipulação eficiente de informações, enquanto o NumPy garante cálculos vetorizados de alta performance. Ferramentas de visualização ajudam a identificar padrões, tendências e outliers, fundamentais para a análise exploratória. Já o Scikit-learn possibilita a criação de modelos de Machine Learning para previsões e classificações.
Esse ecossistema torna Python indispensável em áreas como finanças, marketing, saúde, engenharia e Big Data. Aprender esses fundamentos é o primeiro passo para atuar como cientista de dados, analista ou engenheiro de dados, acompanhando a crescente demanda por profissionais capazes de extrair valor estratégico a partir dos dados.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
👉 90% dos projetos começam assim.
a = np.array([1, 2, 3])
b = np.zeros(5)
c = np.ones((2,3))
d = np.arange(0,10)
e = np.linspace(0,1,5)
a * 2
a + b
np.sqrt(a)
np.mean(a)
np.sum(a)
👉 Sem loops → extremamente rápido.
df = pd.DataFrame({
"nome": ["Ana", "João"],
"idade": [25, 30]
})
pd.read_csv("dados.csv")
pd.read_excel("dados.xlsx")
pd.read_json("dados.json")
df.head()
df.tail()
df.info()
df.describe()
df.shape
df.columns
👉 Primeiros comandos após carregar dados.
df["idade"]
df[["nome", "idade"]]
df[df["idade"] > 25]
df[(df["idade"] > 25) & (df["cidade"] == "SP")]
df["idade_futura"] = df["idade"] + 5
df.drop("idade", axis=1)
df.isna()
df.dropna()
df.fillna(0)
df.groupby("cidade")["salario"].mean()
👉 Essencial para análise exploratória.
df.sort_values("idade")
df.sort_values("idade", ascending=False)
df.mean()
df.median()
df.std()
df.min()
df.max()
df.corr()
plt.plot(df["idade"])
plt.show()
plt.hist(df["idade"])
plt.show()
plt.scatter(df["idade"], df["salario"])
plt.show()
sns.histplot(df["idade"])
sns.boxplot(x=df["idade"])
sns.scatterplot(x="idade", y="salario", data=df)
df.drop_duplicates()
df["idade"] = df["idade"].astype(int)
df["data"] = pd.to_datetime(df["data"])
df["ano"] = df["data"].dt.year
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
model = LinearRegression()
model.fit(X_train, y_train)
pred = model.predict(X_test)
1️⃣ Carregar dados
2️⃣ Explorar
3️⃣ Limpar
4️⃣ Transformar
5️⃣ Visualizar
6️⃣ Modelar
7️⃣ Avaliar
df["log_salario"] = np.log(df["salario"])
df["categoria"] = df["idade"].apply(
lambda x: "Adulto" if x >= 18 else "Menor"
)
df.sample(5)
df["cidade"].value_counts()
df.to_csv("saida.csv", index=False)
df.to_excel("saida.xlsx")
🐍 Python
📊 Pandas
⚡ NumPy
📈 Matplotlib / Seaborn
🤖 Scikit-Learn
🧠 TensorFlow / PyTorch
☁️ Spark / Databricks
👉 “Sem Pandas, Python é só uma linguagem.
Com Pandas, vira uma ferramenta de descoberta.”
Durante anos venderam a ideia de que Big Data nasceu fora do mainframe.
Hadoop. Cloud. Clusters baratos. Data Lakes infinitos.
Enquanto isso, silenciosamente, o IBM Z continuava processando:
Transações globais
Sistemas bancários
Seguros
Cartões
Governos inteiros
Então veio um momento histórico:
E se o motor de analytics moderno rodasse dentro do mainframe?
Nascia o Spark no z/OS.
Ele revolucionou o processamento distribuído porque:
Trabalha em memória (in-memory computing)
Executa pipelines complexos via DAG
Suporta SQL, streaming e machine learning
Escala horizontalmente
Hoje é um dos pilares da engenharia de dados moderna.
Mas sua verdadeira transformação começou quando encontrou o mainframe.
No mundo real, os dados mais valiosos vivem aqui:
Db2 for z/OS
IMS
CICS
VSAM
SMF
Logstreams
Mover esses dados para fora sempre foi caro, lento e arriscado.
Spark no z/OS muda o paradigma:
Não leve o dado ao analytics.
Leve o analytics ao dado.
A plataforma IBM z/OS Platform for Apache Spark foi anunciada oficialmente em 2016.
Foi um movimento estratégico da IBM para:
Modernizar analytics no mainframe
Integrar IA ao core transacional
Evitar exfiltração massiva de dados
Preparar o Z para a era Data-Driven
Foi também um reconhecimento implícito:
O mainframe nunca deixou de ser o maior data platform do mundo.
Spark executa no z/OS via:
USS (Unix System Services)
JVM (Java é obrigatório)
Deployment Standalone
Processos distribuídos entre LPARs (Sysplex)
Arquitetura típica:
Master daemon → Cluster Manager
Slave daemon → Worker Node
Executors → Processamento paralelo
MDSS → Ponte para dados MVS
O MDSS (Mainframe Data Service for Apache Spark) é a peça secreta.
Sem ele, Spark só vê dados “tipo Linux”.
Com ele, enxerga o coração do z/OS.
Em ambientes distribuídos tradicionais:
Extrai dados do mainframe
Copia para Data Lake
Processa
Reimporta resultados
Cada passo aumenta:
Latência
Custos
Risco de vazamento
Complexidade operacional
Com Spark no z/OS:
O processamento acontece no mesmo ambiente seguro.
RACF, criptografia e auditoria continuam protegendo tudo.
O Mainframe Data Service for Apache Spark permite acessar dados clássicos como:
VSAM
Sequential datasets
IMS
SMF
Logstream
Ele roda como started task, controlado por ISPF ou Data Service Studio.
Sem ele, Spark não entende formatos MVS.
Com ele, Spark enxerga décadas de história corporativa.
z/OS Spark mantém praticamente todas as capacidades modernas:
✔ Spark SQL
✔ Machine Learning (MLlib)
✔ Graph processing (GraphX)
✔ Streaming
✔ Integração JDBC
✔ APIs REST
✔ Execução distribuída
A principal exceção histórica:
👉 Não suporta desenvolvimento em R.
Uma das features mais impressionantes:
Spark pode conversar com aplicações escritas em:
COBOL
PL/I
Assembler
Natural
Inclusive acessar dados e programas via CICS.
Isso cria um cenário único:
Machine Learning moderno dialogando com sistemas escritos há 40 anos — em produção global.
Antes de “Big Data” existir como buzzword, o Z já processava volumes gigantes.
Workloads Java e analytics podem ser offloadados.
Sem SPOF, com disponibilidade absurda.
Copiar dados para fora frequentemente reduz segurança.
👉 Spark foi criado para clusters baratos distribuídos
👉 O IBM Z é o oposto: um supercomputador vertical
Quando os dois se encontram, surge algo raro:
Escala horizontal + potência vertical
É como colocar um motor de foguete num trem blindado.
Fraud detection em tempo real
Análise de comportamento transacional
Capacity planning via SMF
Detecção de anomalias operacionais
Analytics regulatório
Scoring de crédito instantâneo
Durante anos disseram:
“Para inovar, saia do mainframe.”
Hoje a mensagem é outra:
“Se você quer inovar sem quebrar o core do negócio, traga a inovação para o mainframe.”
Spark no z/OS não é nostalgia.
É pragmatismo.
Apache Spark no z/OS representa algo maior do que tecnologia.
Representa uma mudança de mentalidade:
✔ O mainframe não é legado — é fundação
✔ Big Data não substitui o Z — complementa
✔ Segurança e analytics podem coexistir
✔ O futuro não é cloud ou mainframe — é híbrido
O mundo tentou levar os dados para a nuvem.
O IBM Z respondeu:
“Tragam a nuvem até mim.”