Régressions logistiques

On réalise deux types de régressions : avec et sans pénalisation. La variable d’intérêt, relative au niveau de stress, encode trois modalités différentes. Or une régression logistique classique est utile pour la classification binaire. On choisit donc de comparer dans le cas de la régression sans pénalisation les méthodes multiclasse et One Vs Rest. On réalise enfin une régression Lasso, afin d’avoir un aperçu des variables explicatives les moins importantes (mises à zéro) et d’obtenir un modèle plus parcimonieux. On réalise directement une régression avec validation croisée, afin de sélectionner la valeur de pénalisation fournissant les meilleurs résultats. On obtient pour ces trois modèles des performances équivalentes.

	modele	accuracy	precision	recall
0	Multiclasse	0.881818	0.882157	0.881818
1	OneVsRest	0.886364	0.887026	0.886364
2	Lasso_CV	0.886364	0.895962	0.886364

Variables les plus influentes — modèle multiclasse

Nous pouvons également repérer les variables ayant le plus d’impact dans les régressions.

	variable	max_abs_coef
6	tension_arterielle	4.933553
17	soutien_social	1.920602
2	estime_de_soi	0.463810
15	relation_prof_etudiant	0.448212
3	historique_sante_mentale	0.443234
14	charge_travail	0.406961
0	column00	0.394469
13	reussite_academique	0.390265
12	besoins_elementaires	0.342608
5	maux_de_tete	0.298463

	variable	0	1	2
0	column00	0.297605	-0.614145	0.131282
1	niveau_anxiete	-0.123173	0.204430	-0.119170
2	estime_de_soi	0.399095	0.556294	-0.671250
3	historique_sante_mentale	0.411234	-0.764328	0.170026
4	depression	-0.201115	-0.156417	0.244280
5	maux_de_tete	-0.418337	-0.178068	0.463161
6	tension_arterielle	3.551849	-6.560780	7.691669
7	qualite_sommeil	0.276497	0.123178	-0.324324
8	problem_respiratoire	-0.134337	-0.047391	0.129895
9	niveau_bruit	-0.198406	-0.118482	0.332719
10	conditions_vie	-0.029441	0.018688	0.002337
11	securite	0.303545	-0.036142	-0.231550
12	besoins_elementaires	0.527378	-0.560951	-0.185329
13	reussite_academique	0.660362	-0.157042	-0.489219
14	charge_travail	-0.632076	0.609399	0.159371
15	relation_prof_etudiant	0.247410	-0.967905	0.250030
16	perspective_insertion_professionnelle	-0.050372	0.124676	-0.059830
17	soutien_social	1.914309	-3.908748	0.744374
18	pression_des_paires	-0.322705	-0.138926	0.310624
19	activites_extrascolaires	-0.374013	0.156293	0.195306
20	harcelement	-0.193018	-0.445681	0.332073

En utilisant ces modèles nous pouvons donc prédire les labels correspondants. Afin de comparer les performances des différents modèles, nous nous intéressons à leur matrice de confusion, afin de visualiser la répartitions des labels, ainsi que les métriques classiques : accuracy, précision et recall.

Meilleur modèle logistique selon l’accuracy : OneVsRest avec une accuracy de 0.886.

Matrices de confusion

Régression logistique multiclasse

Régression logistique One-vs-Rest

	modele	classe	auc
0	Multiclasse	0	0.976860
1	Multiclasse	1	0.983296
2	Multiclasse	2	0.987134
3	Multiclasse	macro	0.982398
4	OneVsRest	0	0.977786
5	OneVsRest	1	0.978697
6	OneVsRest	2	0.986394
7	OneVsRest	macro	0.980856
8	Lasso_CV	0	0.952703
9	Lasso_CV	1	0.933089
10	Lasso_CV	2	0.979267
11	Lasso_CV	macro	0.955013

Comparaison macro-AUC

	modele	classe	auc
0	Multiclasse	macro	0.982398
1	OneVsRest	macro	0.980856
2	Lasso_CV	macro	0.955013

Courbes ROC

Une autre manière de visualiser les performances des trois modèles est de tracer les courbes ROC. Les résultats des trois méthodes sont très satisfaisants et comparables.

Nous observons que les deux méthodes de régressions fournissent des résultats équivalents, les courbes sont superposées, il n’y en n’a pas une très clairement au dessus de l’autre dans chacun des trois cas.

Les résultats des prédictions sont pour les deux méthodes, les meilleurs s’agissant de la classe 1 et les moins bons s’agissant de la classe 0.

	modele	classe	auc
0	Multiclasse	0	0.976860
1	Multiclasse	1	0.983296
2	Multiclasse	2	0.987134
3	Multiclasse	macro	0.982398
4	OneVsRest	0	0.977786
5	OneVsRest	1	0.978697
6	OneVsRest	2	0.986394
7	OneVsRest	macro	0.980856
8	Lasso_CV	0	0.952703
9	Lasso_CV	1	0.933089
10	Lasso_CV	2	0.979267
11	Lasso_CV	macro	0.955013

Variables les plus influentes — modèle One-vs-Rest

Enfin, ces modèles nous permettent d’évaluer l’influence des variables explicatives sur la variable d’intérêt (ici le niveau de stress) :

	variable	max_abs_coef
6	tension_arterielle	7.691669
17	soutien_social	3.908748
15	relation_prof_etudiant	0.967905
3	historique_sante_mentale	0.764328
2	estime_de_soi	0.671250
13	reussite_academique	0.660362
14	charge_travail	0.632076
0	column00	0.614145
12	besoins_elementaires	0.560951
5	maux_de_tete	0.463161

La tension artérielle et le soutien social ressortent comme les variables ayant en valeur absolue le plus grand impact. La régression Lasso nous permet d’exclure certaines variables en mettant leur coefficient à zéro. Nous obtenons :

	Unnamed: 0	0	1	2
0	column00	0.000000	0.000000	0.000000
1	niveau_anxiete	-0.178368	0.000000	0.000000
2	estime_de_soi	0.000000	0.000000	-0.350138
3	historique_sante_mentale	0.000000	0.000000	0.000000
4	depression	0.000000	0.000000	0.091729
5	maux_de_tete	0.000000	0.000000	0.095342
6	tension_arterielle	0.000000	-1.085586	0.604196
7	qualite_sommeil	0.167463	0.000000	0.000000
8	problem_respiratoire	0.000000	0.000000	0.000000
9	niveau_bruit	0.000000	0.000000	0.002253
10	conditions_vie	0.000000	0.000000	0.000000
11	securite	0.269134	0.000000	0.000000
12	besoins_elementaires	0.370096	0.000000	0.000000
13	reussite_academique	0.399375	0.000000	0.000000
14	charge_travail	0.000000	0.000000	0.000000
15	relation_prof_etudiant	0.126311	-0.100958	0.000000
16	perspective_insertion_professionnelle	0.000000	0.000000	0.005598
17	soutien_social	0.000000	0.000000	0.000000
18	pression_des_paires	0.000000	0.000000	0.241932
19	activites_extrascolaires	0.000000	0.000000	0.116408
20	harcelement	0.000000	0.000000	0.211103

Validation croisée

Pour améliorer cette régression, nous réalisons des régressions par validation croisée afin de choisir au mieux la constante de pénalisation \(C\) associée au modèle Lasso.

On donne les intervalles de confiance de l’accuracy score pour chacun des trois modèles de régression. Pour les deux premiers, sans pénalisation, les résultats sont presque égaux, avec une incertitude plus élevée pour la régression multiclasse que OneVsRest. Si l’accuracy score semble plus élevé pour la régression Lasso, en réalité l’intervalle de confiance est également plus grand ie le modèle est moins précis.

	classe	best_c
0	0	0.01
1	1	0.01
2	2	0.01

Enfin, nous regardons la matrice de confusion de cette nouvelle régression, ainsi que les courbes ROC, classe par classe.

Le modèle Lasso avec constante choisie par validation croisée a un score AUC aussi bon que le modèle OneVsRest dans les trois cas. On dispose donc d’un modèle plus parcimonieux avec des performances équivalentes au modèle incluant toutes les variables explicatives.