K-Means Clustering (Non Supervisé)
Ici, pas d'étiquettes (y). On veut juste grouper les données similaires.
Algorithme
- On choisit K (nombre de clusters).
- On place K points au hasard (centroïdes).
- Chaque point de données rejoint le centroïde le plus proche.
- On déplace les centroïdes au centre de leur nouveau groupe.
- On répète jusqu'à ce que ça ne bouge plus.
Exemple
from sklearn.cluster import KMeans
# Données clients (Age, Revenu)
X = [[25, 30000], [30, 40000], [50, 100000], [55, 120000]]
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
print(kmeans.labels_) # [0, 0, 1, 1] -> Deux groupes identifiés
💪 À vous de jouer !
Utilisez le notebook interactif ci-dessous pour tester le code directement ici !