| model_name | rmse_train | rmse_test | parametres | variables_utilisees | |
|---|---|---|---|---|---|
| 0 | RandomForest | 0.320938 | 0.427311 | {'n_estimators': 200, 'min_samples_split': 10,... | reussite_academique, qualite_sommeil, relation... |
Synthèse des principaux résultats
À partir d’un jeu de données anonymisées sur le stress des élèves dans le supérieur en France, ce projet vise à :
niveau_stressOn réalise une régression logistique sans pénalisation, pour avoir un premier aperçu de la performance d’un modèle simple. La variable d’intérêt (ou le label), encodant le niveau de stress, peut prendre trois valeurs 0, 1, 2. On choisit de comparer la régression multi-classes à la méthode OneVsRest qui fixe une classe de référence et concatène les deux autres afin d’effectuer une régression binaire. Etant donné que notre variable stress est encodée selon trois niveaux, trois régressions OneVsRest sont possibles.
| model_name | rmse_train | rmse_test | parametres | variables_utilisees | |
|---|---|---|---|---|---|
| 0 | RandomForest | 0.320938 | 0.427311 | {'n_estimators': 200, 'min_samples_split': 10,... | reussite_academique, qualite_sommeil, relation... |
Nous testons à présent l’approche par Gradient Boosting. Il s’agit dans un premier temps de fixer les hyperparamètres. On choisit max_depth=5 pour comparer les deux cas. On garde le nombre d’arbres/d’itérations à sa valeur par défaut n_estimators = 100. De même, on conserve learning_rate=0.1 pour limiter l’overfitting.
| model_name | rmse_train | rmse_test | parametres | variables_utilisees | |
|---|---|---|---|---|---|
| 0 | GradientBoosting | 0.303186 | 0.434848 | {'n_estimators': 50, 'max_depth': 3, 'learning... | reussite_academique, qualite_sommeil, relation... |