[Retour à la page du cours]

Discussion

Cette discussion porte sur le deuxième travail pratique. Je ne répondrai qu'aux questions posées sur ce forum: je ne répondrai pas aux questions posées par courriel.

  • Vous pouvez ajouter une question ou répondre à un de vos camarades. Pour répondre, cliquez sur… “Répondre”.
  • Si vous désirez être informé des réponses à votre question, sélectionnez “Suivre les commentaires”.
  • Vous devez écrire votre nom et votre adresse de courriel pour pouvoir participer à la discussion. Votre adresse de courriel ne sera pas visible sur cette page.

Deuxième travail pratique

carine , 2014/10/28 16:22
question 1.d, l'equation 2,29 n'existe pas dans le livre, voulez vous dire plutot l'equation 2.22?
Sebastien Blais, 2014/10/29 05:56
L'équation 2.29 est à la page 77 du manuel.
Natasha Dutrisac, 2014/11/04 11:45
à la question 3.1 c) comment pouvons-nous déduire s'il y a un biais d'omission alors que nous ne connaissons pas les corrélations entre les variables de contrôle et X1 et les corrélations entre les variables de contrôle et Y?? Merci
Sebastien Blais, 2014/11/05 06:32
"Déduisez-en" veut dire "utilisez votre réponse à la question précédente"; vous n'avez pas besoin de calculer les corrélations. En gros, si le coefficient change beaucoup lorsqu'on ajoute une variable de contrôle, c'est qu'il y avait un biais d'omission.
Alex, 2014/11/04 11:52
Bonjour,

Je me questionne à propos du biais d'omission. Est-il vrai de dire, qu'à la lumière de ce que l'on a vu jusqu'à présent dans ce cours, il est impossible de prouver mathématiquement qu'il y a un biais d'omission : que l'on ne peut utiliser qu'une méthode intuitive pour le prouver. Est-il également vrai de dire que se baser sur une variation du R2 ou de l'erreur-type de la régression ne peut en rien expliquer la présence d'un biais d'omission(puisque l'on pourrait bien ajouter des facteur non corrélé avec les régresseur déjà présent et qui pourrait très bien expliquer la variable dépendante, ce qui ne constituerait pas un biais d'omission) ?

Prenons le cas du point c) du problème 4.1, pourrions nous dire que la régression en a) admet un biais d'omission par le fait que la régression multiple en b) considère le facteur Bachelor, qui intuitivement, nous permet de croire qu'il est corrélé avec le facteur AGE (plus on est âgés plus on a de chance d'avoir un bachelor). Faut-il prouver mathématiquement cette corrélation en prenant par exemple le coefficient de corrélation ou la seule méthode intuitive est OK ? De même, on ne pourrait pas dire qu'il admet un biais d'omission à cause du facteur FEMME puisque ce facteur n'est aucunement corrélé avec le facteur AGE.

Merci
Sebastien Blais, 2014/11/05 06:50
Vous comprenez bien. Il n'y a pas de démonstration mathématique à faire. J'ajouterais seulement que, une fois qu'on a identifié qu'il y a potentiellement un biais d'omission comme vous l'avez décrit, c'est l'ampleur de la variation du coefficient de la variable d'intérêt (l'age, ici) qui montre qu'il y avait un biais dans la régression originale.

Aussi, remarquez qu'il n'est jamais possible de savoir s'il y persiste encore un biais d'omission après avoir ajouté des variables de contrôle. La littérature académique est remplie d'articles dont le résumé est "J'ai trouvé une nouvelle variable de contrôle qui montre que les résultats présentés par Mme X et M. Y sont biaisés."
Andréanne Desrochers, 2014/11/04 12:50
au numéro 4.2 b) combien de régressions est raisonnable selon vous?
Sebastien Blais, 2014/11/05 07:04
Je pourrais prendre plusieurs pages pour répondre à cette question... En pratique, un bon économètre identifiera un petit nombre (en fonction du problème: dans votre cas 3 ou 4) de régressions potentiellement intéressantes. Un économètre moins habile en estimera un plus grand nombre (disons 5 ou 6, dans votre cas), mais ne présentera que les résultats intéressants (3 ou 4, disons). Un économètre amateur estimera toutes les régressions imaginables, deviendra fou à faire des comparaisons et finira par proposer la régression qui inclut toutes les variables statistiquement significatives...

Pour votre travail, vous pouvez en faire 4. Ça vous donnera assez de matériel pour écrire une petite discussion. Comme d'habitude, je m'intéresse plus à la cohérence de vos explications qu'au choix de votre modèle final.
Marie-ève Drolet, 2014/11/04 14:24
À la question 4.1 g), si une variable de contrôle n'est pas corrélée avec X_1, est-ce que les conditions ne sont pas vérifiées pour cette étude au complet ou seulement en ce qui concerne cette variable?

Merci
Sebastien Blais, 2014/11/05 07:12
On ne peut parler de biais d'omission sans préciser quelles sont les variables d'intérêt. Ce n'est pas explicite dans la question. Supposez que la variable d'intérêt est l'Age. La question est alors de savoir si, une fois qu'on a ajouté Female et Bachelor, il y a des raisons de croire que le terme d'erreur est corrélé avec l'Age. Autrement dit, peut-on identifier d'autres variables omises?
Chantal Boivin, 2014/11/05 17:20
Bonsoir, M. Blais

Question 2

3.1 e et f nous utilisons KM mais dans le TP1 vous aviez divisé le 10 et 20 KM par 10 devons-nous faire cela aussi pour notre calcul?

Je ne comprend pas la question 4.2 a) empiriques. Je ne suis pas certaine de ce que je dois faire. Pourriez m'aider svp.

merci

Chantal Boivin
Sebastien Blais, 2014/11/06 08:17
Oui, divisez par 10 parce que les données sont en dizaines de km.

La question 4.2.a semble porter à confusion pour plusieurs étudiants et je suis d'accord qu'elle n'est pas très claire. On vous demande simplement d'estimer la régression. Vous l'avez déjà estimée en faisant la question 1.2.a. dans le premier travail pratique. À la question 4.2.b, vous devez comparer plusieurs régressions, dont celle estimée à la question 4.2.a. J'imagine qu'on la demande explicitement pour éviter qu'elle soit oubliée dans les comparaisons. Bref, assurez-vous simplement d'inclure la régression simple dans votre analyse à la question 4.2.b. Il n'y aucune réponse spécifique à donner à la question 4.2.a.
Bruno Lavictoire, 2014/11/06 15:30
Bonsoir,

À la question 4, pour la statistique t de la constante ainsi que son intervalle de confiance, doit-on utiliser les données présentes dans l'utilitaire d'analyse pour l'erreur-type?
Sebastien Blais, 2014/11/07 07:03
Oui. Vous pouvez copier la valeur de l'erreur-type de la constante dans la cellule grisée.
Marie-Ève Drolet-Mailhot, 2014/11/07 11:48
Bonjour, à la page 122 du chapitre 4, la statistique F est calculée sous l'hypothèse d'homoscédasticité du terme d'erreur. Toutefois, il est plutôt illogique de penser que le terme d'erreur de la régression des scores des étudiants soit homoscédastique... Alors pourquoi le livre utilise-t-il cette formule?

Ce qui m'amène également à poser cette question à propos du TP2 : À la question 4.1 (f), lors du test d'hypothèse jointe, il me semblerait logique d'utiliser la formule 4.9 pour calculer la statistique F, puisqu'il n'y a rien qui indique que le terme d'erreur de la régression soit homoscédastique. Toutefois, comment fait-on pour trouver la corrélation entre t1 et t2?

Merci
Sebastien Blais, 2014/11/09 07:24
Au chapitre 2, on présente la formule pour calculer l'écart-type de l'estimateur des MCO pour la régression simple. Il n'est pas possible d'écrire cette formule pour la régression multiple sans utiliser une notation matricielle. En pratique, un utilise un logiciel d'économétrie pour calculer l'erreur-type et on n'a pas besoin de la formule.

Lorsqu'on teste une hypothèse nulle qui implique plusieurs coefficients (dans une régression multiple, donc), on utilise la statistique F. Comme pour la statistique t, il existe la version homoscédastique (qu'on peut écrire sans notation matricielle) et la version homoscédastique (qui requiert une notation matricielle). On présente la version homoscédastique dans le manuel parce qu'elle est interprétable et que l'interprétation de la version hétéroscédastique est la même: c'est une différence (standardisée, comme la statistique t est "centrée réduite") de SCR (ou, de manière équivalente, de R2) d'un modèle non contraint et d'un modèle estimé en imposant l'hypothèse nulle. En pratique, oui, on devrait utiliser la version robuste à l'hétéroscédasticité.

La formule 4.9 est aussi présentée pour donner une intuition sur le rôle de la corrélation entre les statistiques t. En pratique, on utilise jamais cette formule. Aussi, elle n'est valable que lorsqu'il n'y a que 2 coefficients contraints par l'hypothèse nulle. Lorsqu'il y en a plus, la formule devient plus compliquée si on n'utilise pas la notation matricielle.

Pour le TP2, vous reproduisez les calculs de MsExcel, qui utilise la version homoscédastique.
AJIGO, 2014/11/08 08:04
Bonjour !

Est-ce qu'utilisons nous le coefficient de détermination multiple lorsqu'on a seulement deux variables ? Si oui, pourriez vous nous en éclairer .

Cordialement
Sebastien Blais, 2014/11/09 07:26
Dans MsExcel, le coefficient de détermination multiple est la racine carrée du R^2.
kharrat, 2014/11/08 08:24
bonjour !

dans le dernier exercice pour calculer l'erreur type de la constante et la pente , d’habitude c'est donné , y a t-il une formule pour ça ?

merci !
Sebastien Blais, 2014/11/09 07:30
Vous n'avez pas à calculer l'erreur-type de la constante: la cellule est grisée et vous pouvez utiliser la valeur calculée par l'utilitaire d'analyse.

Pour l'erreur-type de la pente, la formule pour la version homoscédastique est donnée à la page 77 (équation 2.29). Pour la version robuste à l'hétéroscédasticité, c'est la formule 2.4.
Alexandre, 2014/11/08 09:32
En 3.2 e. Nous devons prendre la régression effectuée en B mais nous n'avons pas pris en compte le degré d'éducation de la mère. Devons-nous alors refaire une régression pour réintégrer cette donnée ?
Alexandre, 2014/11/08 09:32
3.1 désolé
Sebastien Blais, 2014/11/09 07:36
C'est probablement une coquille dans le manuel. Vous pouvez estimer une nouvelle régression ou négliger l'information sur le scolarité de la mère.
kharrat, 2014/11/08 09:33
c'est bon pour la formule DE la pente B1 , mais celle de B0 je l'ai pas trouvée ou il faut pas la calculer?

et pour la probabilité dans excel c'est la p-valeur ?

et dans quel page se situe Equitation 2.4
Sebastien Blais, 2014/11/09 07:37
oui, la p-valeur est appelée "probabilité" dans MsExcel.
Alexandre, 2014/11/08 10:09
Pour 4.2b, vous voulez en réalité un tableau comme à la page 134 (tableau 4.1) en plus de certaines explications pour le compléter ?
Sebastien Blais, 2014/11/09 07:41
Oui, vos explications doivent permettre de conclure sur la valeur du coefficient associé à Dist. Vous devez notamment justifier le choix de votre régression finale en la comparant aux régressions alternatives.
Marc-Andre, 2014/11/08 10:26
Dans le Power Point de la séance 6 : le jeux d'hypothèse (2/4) h3c est dans les hypothèse a respecter mais n'existe pas dans la liste d'hypothèse est ce une erreur ?
Sebastien Blais, 2014/11/09 07:45
C'est H2c. Merci.
Alexandre, 2014/11/08 11:29
Pour 4.1d, on nous demande d'utiliser la régression calculée en a) mais aussi de tenir compte du diplôme obtenu. Par contre, en a) nous avons simplement calculé la régression du salaire horaire moyen sur l'âge.
Pourriez-vous m'éclairez à savoir si nous devons refaire une régression ?
Sebastien Blais, 2014/11/09 07:43
Une autre coquille: utilisez la régression calculée en b).
yousqef, 2014/11/09 14:31
désolé monsieur c'est ou l’équation 2.4 , quel page ?
Sebastien Blais, 2014/11/09 17:25
Les équations sont numérotées par chapitre. L'équation 2.4 est donc la quatrième du chapitre 2.
carine , 2014/11/09 15:32
4.1 d)
serait -ils possible que il y'a une erreur et que on doit utiliser la régression de la question b) au lieu de la question a) vu que c'est dans la régression b que on parle de du sexe et du niveau d'étude.
Sebastien Blais, 2014/11/09 17:26
Voir réponse plus haut.
Alexandre, 2014/11/10 15:16
Comment pouvons-nous calculer la valeur critique de F ? ( Je ne trouve pas nul-part. Est-elle fixe ? )
Avez-vous une page de référence ?

Merci
alexandre, 2014/11/10 15:20
En relation avec la question boni !
Alexandre, 2014/11/10 17:08
J'aurais besoin de précision aussi pour la probabilité à trouver pour la constante et l'âge
Sebastien Blais, 2014/11/10 17:17
Voir les diapos du cours de la semaine dernière.
Alexandre, 2014/11/10 15:38
D'autre part, pourriez-vous me diriger vers une page du manuel ou une diapo de votre répertoire pour m'aider à trouver l'erreur-type de l'âge.

Je me lance sur tous les fronts depuis 2 jours et je n'ai aucune idée comment y arriver.
Merci
Alexandre, 2014/11/10 17:07
J'ai finalement trouvé ma réponse plus haut sur le forum !
Alexandre, 2014/11/10 17:27
pour l'erreur-type (2.4) Je ne comprends pas pourquoi Est-ce que nous devrions utiliser cette formule ! En réalité c'est que je n'arrive pas à mes fins avec celle-ci
Entrer votre commentaire:
M Q C M H
 

Outils de la page