La régression linéaire multiple
Passons maintenant à un problème de régression linéaire multiple !
On cherche à exprimer le chiffre d’affaires (CA) en fonction de cinq variables explicatives relatives aux commerciaux (critères en B1:F1). Nous disposons des données de 30 commerciaux. Voici une partie des données et le tableau de corrélation obtenu :
L’interprétation du tableau est la même que pour la régression simple : valeurs des coefficients dans la première ligne, écart-type estimé dans la seconde, et les mêmes informations qu'avant dans les trois lignes suivantes.
Formule matricielle entrée en I2:N6 : =droitereg(A2:A31;B2:F31;vrai;vrai)
Formule de I8 : =loi.student(abs(I2/I3);$J$5;2)
Les résultats de la ligne 8 indiquent que, très probablement, les deux facteurs « Age » et « Aptitude » seront considérés comme significatifs et gardés dans la formule finale.
Remarque 1 – Les cellules K6:N6 engendrent inévitablement des erreurs #N/A! que nous avons masquées grâce à un format conditionnel en I2:N6 affichant une police de couleur blanche quand la formule est =esterreur(I2) est évaluée en VRAI.
Remarque 2 – Notez bien que l’ordre des variables est inversé dans le tableau de résultat. C’est la première variable (Aptitude) qui apparaît en dernier !
On cherche à exprimer le chiffre d’affaires (CA) en fonction de cinq variables explicatives relatives aux commerciaux (critères en B1:F1). Nous disposons des données de 30 commerciaux. Voici une partie des données et le tableau de corrélation obtenu :
L’interprétation du tableau est la même que pour la régression simple : valeurs des coefficients dans la première ligne, écart-type estimé dans la seconde, et les mêmes informations qu'avant dans les trois lignes suivantes.
Formule matricielle entrée en I2:N6 : =droitereg(A2:A31;B2:F31;vrai;vrai)
Formule de I8 : =loi.student(abs(I2/I3);$J$5;2)
Les résultats de la ligne 8 indiquent que, très probablement, les deux facteurs « Age » et « Aptitude » seront considérés comme significatifs et gardés dans la formule finale.
Remarque 1 – Les cellules K6:N6 engendrent inévitablement des erreurs #N/A! que nous avons masquées grâce à un format conditionnel en I2:N6 affichant une police de couleur blanche quand la formule est =esterreur(I2) est évaluée en VRAI.
Remarque 2 – Notez bien que l’ordre des variables est inversé dans le tableau de résultat. C’est la première variable (Aptitude) qui apparaît en dernier !
2 Commentaire(s):
Bonjour M.Thiriez,
D'abord merci pour votre travail,
J'ai une remarque sur ce sujet :
"Les résultats de la ligne 8 indiquent que, très probablement, les deux facteurs « Age » et « Aptitude » seront considérés comme significatifs et gardés dans la formule finale."
Cette remarque me laisse perplexe. Pour quelles raisons ce sont les probabilités de Student nulles qui indiquent que la variable est significative ?
By Anonyme, sur 2:00 PM
Je me suis adressé à un spécialiste, François Sermier, dont voici les commentaires…
Non Hervé, tu ne dis pas de bêtise, c'est bien le test classique de nullité d'un coefficient en régression, ou test de Student.
On calcule le rapport de l'estimation du coefficient sur l'estimation de l'écart-type de cette estimation(je sais tu as écrit quelque chose de similaire, mais le mot estimation manque pour le coefficient : -P quantité notée T, et donc dite T de Student). Elle est, en gros une distance de la valeur du coefficient à 0, en unités d'écart-type.
Quand on n'a pas Monsieur Excel sous la main, une règle au doigt mouillé consiste à en comparer la valeur absolue à 2, réalisant en cela l'approximation de la loi de Student par une loi normale (dont la table, en version papier, ne dépasse pas un nombre de ddl de 30 ; ici on est à 24, on est tranquille).
Au passage, ça peut être une bonne idée de mettre la valeur du T elle-même, avant de la mouliner par la loi de Student.
Quand on n'approxime pas, on calcule (comme tu l'as fait) la probabilité associée à la valeur de T.
S'il faut l'expliquer, c'est un peu compliqué : elle donne la probabilité d'obtenir une valeur de T située à la même distance que celle que tu as calculée ou plus loin, lorsqu'on tire un échantillon identique (même taille, i.e. 30) dans une population (virtuelle) dans laquelle le coefficient de la variable considérée dans la relation linéaire serait égal à 0. Ouf !
Bref, à l'échelle de l'estimation, la valeur obtenue est super loin de 0 (ici 6,7 et 7,2 écarts-types).
Ce qui permet d'affirmer que le coefficient de la variable est significativement loin de 0 – il ne résulte pas de fluctuations aléatoires (on n'a pas eu de veine en tirant l'échantillon) –. Soit, plus rapidement que la « variable est significative ».
By Hervé Thiriez, sur 7:06 PM
Enregistrer un commentaire
<< Accueil