Nettoyage et Préparation des Données
Les données réelles sont souvent sales : valeurs manquantes, doublons, formats incorrects. Pandas offre des outils puissants pour nettoyer ces données.
📚 Documentation Officielle
Exemples de Code
Gestion des valeurs manquantes
# Détecter les NaN
print(df.isnull().sum())
# Supprimer les lignes avec NaN
df_clean = df.dropna()
# Remplir les NaN
df_filled = df.fillna(0)
df_filled_mean = df.fillna(df.mean())
Suppression de doublons
df.drop_duplicates(inplace=True)
💪 À vous de jouer !
- Créez un DataFrame avec quelques valeurs `np.nan`.
- Remplacez toutes les valeurs manquantes par la moyenne de leur colonne respective.
- Identifiez et supprimez les lignes dupliquées dans un jeu de données test.