Forêts Aléatoires (Random Forest)
Si un arbre de décision se trompe, peut-être que 100 arbres auront raison ? C'est le principe du Bagging (Bootstrap Aggregating).
Le principe
- On crée N arbres de décision.
- Chaque arbre est entraîné sur une partie aléatoire des données (avec remise).
- Chaque arbre ne voit qu'une partie aléatoire des features à chaque nœud.
- Vote final : La majorité l'emporte.
Pourquoi c'est puissant ?
Les erreurs individuelles des arbres se compensent. C'est l'un des algorithmes les plus robustes et polyvalents.
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100) # 100 arbres
model.fit(X_train, y_train)
# Feature Importance : Quelles variables ont le plus compté ?
print(model.feature_importances_)
💪 À vous de jouer !
Utilisez le notebook interactif ci-dessous pour tester le code directement ici !