| Bellacosa Mainframe apresenta Python na Ciencia de Dados |
🎯 O guia mínimo que separa curiosos de verdadeiros Data Scientists
Python é a principal linguagem utilizada em Data Science, permitindo transformar grandes volumes de dados em insights valiosos para negócios e pesquisa.
Com bibliotecas essenciais como NumPy, Pandas, Matplotlib, Seaborn e Scikit-learn, é possível realizar todo o ciclo analítico: carregamento, limpeza, exploração, visualização e modelagem de dados.
O Pandas oferece DataFrames poderosos para manipulação eficiente de informações, enquanto o NumPy garante cálculos vetorizados de alta performance. Ferramentas de visualização ajudam a identificar padrões, tendências e outliers, fundamentais para a análise exploratória. Já o Scikit-learn possibilita a criação de modelos de Machine Learning para previsões e classificações.
Esse ecossistema torna Python indispensável em áreas como finanças, marketing, saúde, engenharia e Big Data. Aprender esses fundamentos é o primeiro passo para atuar como cientista de dados, analista ou engenheiro de dados, acompanhando a crescente demanda por profissionais capazes de extrair valor estratégico a partir dos dados.
🐍🔥 Cheatsheet Python para Data Science
🧠 Stack Essencial
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
👉 90% dos projetos começam assim.
📊 NumPy — Matemática Vetorizada (Base de Tudo)
Criar arrays
a = np.array([1, 2, 3])
b = np.zeros(5)
c = np.ones((2,3))
d = np.arange(0,10)
e = np.linspace(0,1,5)
Operações vetoriais
a * 2
a + b
np.sqrt(a)
np.mean(a)
np.sum(a)
👉 Sem loops → extremamente rápido.
📚 Pandas — DataFrames (o coração da Data Science)
Criar DataFrame
df = pd.DataFrame({
"nome": ["Ana", "João"],
"idade": [25, 30]
})
Ler arquivos
pd.read_csv("dados.csv")
pd.read_excel("dados.xlsx")
pd.read_json("dados.json")
Visualização inicial
df.head()
df.tail()
df.info()
df.describe()
df.shape
df.columns
👉 Primeiros comandos após carregar dados.
🔎 Seleção de dados
Coluna
df["idade"]
Múltiplas colunas
df[["nome", "idade"]]
Filtro
df[df["idade"] > 25]
Filtro múltiplo
df[(df["idade"] > 25) & (df["cidade"] == "SP")]
✏️ Modificação de dados
Nova coluna
df["idade_futura"] = df["idade"] + 5
Remover coluna
df.drop("idade", axis=1)
Valores ausentes
df.isna()
df.dropna()
df.fillna(0)
📈 Agrupamento (Group By)
df.groupby("cidade")["salario"].mean()
👉 Essencial para análise exploratória.
🔄 Ordenação
df.sort_values("idade")
df.sort_values("idade", ascending=False)
📊 Estatísticas rápidas
df.mean()
df.median()
df.std()
df.min()
df.max()
df.corr()
📉 Visualização com Matplotlib
Linha
plt.plot(df["idade"])
plt.show()
Histograma
plt.hist(df["idade"])
plt.show()
Scatter
plt.scatter(df["idade"], df["salario"])
plt.show()
🎨 Seaborn — Gráficos bonitos por padrão
sns.histplot(df["idade"])
sns.boxplot(x=df["idade"])
sns.scatterplot(x="idade", y="salario", data=df)
🧹 Limpeza de dados
Remover duplicatas
df.drop_duplicates()
Converter tipos
df["idade"] = df["idade"].astype(int)
Datas
df["data"] = pd.to_datetime(df["data"])
df["ano"] = df["data"].dt.year
🤖 Machine Learning básico (Scikit-Learn)
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
Dividir treino/teste
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
Treinar modelo
model = LinearRegression()
model.fit(X_train, y_train)
Previsão
pred = model.predict(X_test)
🧠 Pipeline mental da Data Science
1️⃣ Carregar dados
2️⃣ Explorar
3️⃣ Limpar
4️⃣ Transformar
5️⃣ Visualizar
6️⃣ Modelar
7️⃣ Avaliar
⚡ Truques poderosos
Aplicar função em coluna
df["log_salario"] = np.log(df["salario"])
Apply personalizado
df["categoria"] = df["idade"].apply(
lambda x: "Adulto" if x >= 18 else "Menor"
)
Amostra aleatória
df.sample(5)
Contagem de valores
df["cidade"].value_counts()
💾 Exportar dados
df.to_csv("saida.csv", index=False)
df.to_excel("saida.xlsx")
🔥 Ferramentas mais usadas na indústria
🐍 Python
📊 Pandas
⚡ NumPy
📈 Matplotlib / Seaborn
🤖 Scikit-Learn
🧠 TensorFlow / PyTorch
☁️ Spark / Databricks
☕ Frase de cientista de dados
👉 “Sem Pandas, Python é só uma linguagem.
Com Pandas, vira uma ferramenta de descoberta.”