Fiches Mémo Data Science | Python Masterclass

NumPy

Création

import numpy as np
arr = np.array([1, 2, 3])
zeros = np.zeros((3, 3))
ones = np.ones((2, 5))
range = np.arange(0, 10, 2)  # [0, 2, 4, 6, 8]
rand = np.random.rand(3, 3)

Inspection

arr.shape  # Dimensions (ex: (3, 3))
arr.dtype  # Type des données (ex: int64)
arr.ndim   # Nombre de dimensions

Opérations

arr + 5    # Ajoute 5 à tout le tableau
arr * 2    # Multiplie tout par 2
np.mean(arr) # Moyenne
np.sum(arr)  # Somme

Pandas

DataFrame

import pandas as pd
df = pd.read_csv('file.csv')
df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})

Inspection

df.head()      # 5 premières lignes
df.info()      # Infos types et nulls
df.describe()  # Stats descriptives
df.shape       # (lignes, colonnes)

Sélection

df['col']      # Sélectionne une colonne
df[['A', 'B']] # Sélectionne plusieurs colonnes
df.iloc[0]     # Première ligne (par position)
df.loc[df['Age'] > 25] # Filtrage conditionnel

Visualisation

Matplotlib

import matplotlib.pyplot as plt
plt.plot(x, y)        # Ligne
plt.scatter(x, y)     # Points
plt.hist(data)        # Histogramme
plt.title('Titre')
plt.xlabel('X')
plt.show()

Seaborn

import seaborn as sns
sns.scatterplot(data=df, x='A', y='B')
sns.histplot(data=df, x='A')
sns.boxplot(data=df, x='Cat', y='Val')

Scikit-Learn

Préparation

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Modélisation

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)  # Entraînement
preds = model.predict(X_test) # Prédiction

Évaluation

from sklearn.metrics import accuracy_score, mean_squared_error
acc = accuracy_score(y_test, preds)
mse = mean_squared_error(y_test, preds)