Intermédiaire

Nettoyage et Préparation des Données

Les données réelles sont souvent sales : valeurs manquantes, doublons, formats incorrects. Pandas offre des outils puissants pour nettoyer ces données.

📚 Documentation Officielle

Exemples de Code

Gestion des valeurs manquantes

# Détecter les NaN
print(df.isnull().sum())

# Supprimer les lignes avec NaN
df_clean = df.dropna()

# Remplir les NaN
df_filled = df.fillna(0)
df_filled_mean = df.fillna(df.mean())

Suppression de doublons

df.drop_duplicates(inplace=True)

💪 À vous de jouer !

  • Créez un DataFrame avec quelques valeurs `np.nan`.
  • Remplacez toutes les valeurs manquantes par la moyenne de leur colonne respective.
  • Identifiez et supprimez les lignes dupliquées dans un jeu de données test.