[Retour à la page du cours]

Discussion

Cette discussion porte sur l'examen final. Je ne répondrai qu'aux questions posées sur ce forum: je ne répondrai pas aux questions posées par courriel.

  • Vous pouvez ajouter une question ou répondre à un de vos camarades. Pour répondre, cliquez sur… “Répondre”.
  • Si vous désirez être informé des réponses à votre question, sélectionnez “Suivre les commentaires”.
  • Vous devez écrire votre nom et votre adresse de courriel pour pouvoir participer à la discussion. Votre adresse de courriel ne sera pas visible sur cette page.

Examen final

Sebastien Blais, 2014/11/24 07:30
Échantillon aléatoire non représentatif

Dans les travaux pratiques, plusieurs étudiants ont confondu le caractère aléatoire d'un échantillon et sa représentativité de la population. Ces étudiants ont donné un exemple d'échantillon non représentatif plutôt qu'un exemple dans lequel l'estimateur des MCO n'était pas une variable aléatoire. Exemple: Si on s'intéresse à la relation entre la performance des étudiants et la taille des classes au Québec (la population) et qu'on utilise un échantillon de 100 classes dans des milieux défavorisés de Montréal, l'estimateur des MCO est une variable aléatoire tant que ces 100 classes ont été sélectionnées aléatoirement. Par contre, l'estimateur souffre de ce qu'on appelle un "biais de sélection". Nous n'avons pas présenté cette notion en classe, mais l'idée générale est que l'espérance de l'estimateur n'est pas égale à la vraie valeur dans la population (il est biaisé) parce que l'échantillon sélectionné, bien qu'il soit aléatoire, n'est pas représentatif de la population.
ahmed, 2014/12/03 14:46
bonsoir

je voulais savoir , la question 4.4 du livre , la question b , je n'ai pas compris comment on construit un intervalle de confiance pour 2 variables ? on suppose une variable qui est egale X= B1-B2 ? puis l'intervalle = X+- 1.96 ecartype (X) ?
Sebastien Blais, 2014/12/03 16:44
Vous n'avez pas à construire un intervalle de confiance pour deux variables. Pour i), tenez compte du fait qu'il n'y a pas de régresseur "Ouest". La différence entre Flore et Nadia est donc donnée par le coefficient associé au régresseur "Sud". Pour ii), on vous demande "d'expliquer" et on vous donne la réponse sous forme de question pas la deuxième phrase.
Bruno Lavictoire, 2014/12/03 20:29
Bonjour,

J'ai de la difficulté à bien saisir le principe de stationnarité et de non-stationnarité. Serais-ce possible d'avoir quelques détails supplémentaires?
Sebastien Blais, 2014/12/04 08:15
D'abord la définition intuitive: Y est stationnaire si les Y(t) sont identiquement distribués (dans le temps). Dans le cas où les observations portent sur des individus (par exemple), elles sont identiquement distribuées si elle proviennent de la même population. Lorsque les observations portent sur une même variable au fil du temps, c'est un peu plus compliqué à interpréter. Elles sont identiquement distribuées si leur distribution est identique à toutes les périodes. En particulier, Y n'est pas stationnaire si son espérance ou sa variance fluctue au fil du temps. Évidemment, dans tous les cas (individus ou périodes), l'indépendance (ou la dépendance) des observations influence la distribution des estimateurs.

Comme n'importe quelle hypothèse, elle n'est jamais 100% vraie: ce n'est qu'un modèle. On ne peut donc pas donner d'exemple concret de processus stationnaire et on donne plutôt des exemples de non stationnarité. (C'est comme dans le cas de l'homo/hétéroscédasticité: on ne donne pas d'exemple d'homoscédasticité, on donne des exemples où l'hétéroscédasticité est assez importante pour qu'on doive en tenir compte). Le manuel présente différents cas de non stationnarité en les regroupant en "tendances" et en "ruptures". Dans le cas d'une tendance, l'espérance de Y évolue progressivement au fil du temps. Dans le cas d'une rupture, l'espérance change de manière brutale à un moment donné.
Marie-Ève Drolet-Mailhot, 2014/12/05 07:13
Bonjour,

J'ai de la misère à déterminer lorsque des variables sont identiquement distribuées ou non. Je retiens que des variables sont identiquement distribuées si elles ont la même loi de probabilité. Toutefois, dans certains cas, je trouve difficile d'appliquer cette explication.

Par exemple, variable dépendante : poids et variable indépendante : taille. Échantillon : classe aléatoirement choisie dans une école. Est-ce que les paires (Taille, poids) sont identiquement distribuées? Je ne saurais répondre à cette question...
Sebastien Blais, 2014/12/05 11:08
Pour que les paires de variables sont identiquement distribuées, il suffit qu'elles soient tirées aléatoirement dans une même population. C'est bien le cas dans ton exemple. En fait, c'est presque toujours le cas: c'est surtout au niveau des distributions conditionnelles qu'on perd cette propriété en pratique. Par exemple, même si la paire (Y_i,X_i) est identiquement distribuée (et que U_i=Y_i-B_0-B_1*X_i l'est donc aussi), ça ne veut pas dire que U_i|X_i est identiquement distribué (voir l'exemple à la page 32 des compléments de notes de cours). L'autre cas où on perd cette propriété est celui des séries temporelles parce que la notion de tirage dans une même population est difficile à justifier.
Marie-Ève Drolet-Mailhot, 2014/12/05 07:58
Aussi, dire que la variance de u_i est indépendante de X_i revient-il toujours à dire que la variance de Y_i est la même pour tous les X_i?

Car je trouve que la deuxième affirmation est beaucoup plus facile à interpréter...
Sebastien Blais, 2014/12/05 11:26
Var(Y|X)=Var(B0+B1*X+U|X)=0+0+Var(U|X). Donc, oui tu peux penser à la variance conditionnelle de Y|X au lieu de Var(U|X). La variance de Y sachant X est la variance de ce qui n'est pas expliqué par X, et c'est exactement ce que représente le terme d'erreur: ce qui n'est pas expliqué par X.
Alex racine, 2014/12/05 12:40
Bonjour,

Vous avez mentionnez au dernier cours que, dans le cas d'une régression simple ou multiple, étant donnée que B1 est sans biais est consistant (donc H1, H2, H3, H4 ne sont pas violé), nous pouvons recourir au Théorème central limite pour affirmer que B1 suit une distribution B1 chapeau et de variance hétéroscédastique ou homoscédastique (dépendamment de si oui ou non, nous émettons une hypothèse de variance identique). Par cette preuve de normalité, nous pouvons alors faire des test T sur B1.

Par ailleurs, vous avez aussi mentionnez que dans le cas de modèle autorégressif, l'hypothèse H1 est toujours violé (B1 est toujours biaisé) peu importe si il y stationnarité ou non (peu importe ce qu'en dit le livre). En ce sens, puisque cette hypothèse est toujours violé, est-il vrai d'affirmer que l'estimateur des MCO d'un modèle autorégressif ne suit jamais une distribution normale ? Si vrai, pourquoi pouvons-nous testé la significativité des régresseurs par des test T alors que ces derniers ne suivent jamais une loi normale puisqu'il sont biaisé ?

merci
Sebastien Blais, 2014/12/05 13:04
Pas tout à fait... J'ai dit que l'absence de biais (ou la consistance) permet de connaître le premier paramètre de la loi normale asymptotique de l'estimateur des MCO. Il n'y a pas de relation causale entre l'absence de biais et la normalité asymptotique: nous avons besoin des deux pour faire des tests.

Donc, non, on ne peut pas affirmer que l'estimateur des MCO ne suit jamais une distribution normale dans un modèle autorégressif. Le seul cas où on l'estimateur des MCO n'est pas normalement distribué est le cas de la tendance stochastique.
Alex racine, 2014/12/05 13:44
Pour trouver le premier paramètre de la loi normale de l'estimateur des MCO dans le cas d'un modèle autorégressif, nous conservons alors la première hypothèse du livre (concept-clé 10.6) comme quoi l'estimateur n'est jamais biaisé (bien que ce ne soit pas vrai puisque Yt et ut sont corrélés comme vous le dites dans vos notes de cours) ?
Alex racine, 2014/12/05 15:50
Aussi, dès lors qu'une régression perd sa stationnarité, il est inutile de testé la significativité de n'importe lequel des régresseurs (même s'il y en a plusieurs, y compris des retard) étant donné qu'il ne sont plus normale ? Est-ce bien cela ?
Sebastien Blais, 2014/12/07 11:50
Remarquez que le manuel ne dit pas que l'estimateur des MCO est sans-biais; il évite la question. Vous pouvez cherchez dans le texte: contrairement aux chapitres précédents, il ne fait pas de lien entre l'hypothèse H1 (ou sont équivalent dans le concept-clé 10.6) et le biais de l'estimateur.

C'est la consistance de l'estimateur qui est utilisée pour obtenir le permier paramètre de la loi normale. Comme, de toute manière, on doit avoir un grand échantillon pour utiliser le TCL et pouvoir approximer la loi de l'estimateur par une normale, la consistance fait aussi bien le travail que le ferait l'absence de biais: si un estimateur est consistant, sont biais tend vers zéro lorsque la taille de l'échantillon croît.

Je reformulerais ton dernier commentaire: Dès que Y n'est pas stationnaire, l'estimateur des MCO n'est plus normalement distribué. On peut encore faire des tests, mais il faut utiliser la bonne loi. C'est ce que fait le test de DFA: il utilise d'autres valeurs critiques pour faire un test t. Oui, la perte de stationnarité affecte les tests et les intervalles de confiance de tous les paramètres. Les "bonnes" lois sont difficiles à obtenir. L'approche usuelle est plutôt de considérer le taux de croissance de Y lorsque Y n'est pas stationnaire.
Marie-Ève Drolet-Mailhot, 2014/12/06 07:18
Je repose la même question, car je suis un peu mélangée :

Énoncées:
1-Les MCO sont normalement distribués si les 3 (ou 4) hypothèses sont vérifiées et que le terme d'erreur est homoscédastique. (haut de la page 68 du livre)
2-Les MCO sont biaisés dans un modèle autorégressif, donc H1 est violée!

Conclusion:
On perd la normalité asymptotique dans tous les modèles autorégressifs.

Ou fais-je erreur?
Sebastien Blais, 2014/12/07 12:02
La page 68 du manuel aborde la distribution de l'estimateur des MCO sous de nombreuses conditions, dont celle que le terme d'erreur est normalement distribué. Dans ce cas, on n'a pas besoin du TCL et l'estimateur des normalement distribué peu importe la taille de l'échantillon. On est vraiment dans un cas très spécial, peu utilisé en pratique (sans dans MsExcel...)

Oui, H1 est violée dans un modèle autorégressif (Pour être plus précis que je ne l'ai été dans le cours, on a besoin de "E[u_i|X_i]=0" et "(Y_i,X_i) identiquement distribués" pour avoir l'absence de biais OU de "E[u_i|X_1,...,X_N]=0": c'est cette dernière hypothèse qui est violée dans un modèle autorégressif.)

C'est l'absence de biais qui est perdue, pas la normalité. La normalité n'est perdue que lorsque Y n'est pas stationnaire.
Entrer votre commentaire:
K U B​ V G
 

Outils de la page