Chapitre 1 : Le modèle linéaire simple Flashcards
(51 cards)
Modèle de régression linéaire simple :
C’est l’étude de la relation entre 2 variables Y et X, pour un ensemble de n entités (exemple : Y=consommation, et X= revenu)
→ Y « est expliquée » par X (analyse de la variation de Y suite à une modification de X)
Quel est le cadre général ?
On tire des échantillons d’individus de taille n dans la population globale.
Pour chaque individu i, i=1, …, n, on observe les valeurs de variables (par exemple yi) que l’on suppose être les réalisations de variables aléatoires (Yi), dont la distribution de probabilité est la distribution de la population.
Une variable aléatoire réelle (v.a.r) X, est une application d’un espace probabilisé dans ℝ telle que :
𝐏 (𝑿 ≤ 𝒙) = 𝑭𝑿(𝒙)
où 𝐹𝑋 (𝑥) est la fonction de répartition de X (cumulative distribution function, cdf)
Si 𝐹𝑋 (𝑥) est dérivable par rapport à x (X v.a. continue) , on a :
On a dFx (x) / dx = fx (x)
Propriétés des fonctions de répartition et densité de probabilité : n°1
• 𝐹𝑋 (𝑥) croissante, et 𝐹𝑋 (𝑥) ∈ [0,1] • lim 𝐹𝑋 (𝑥) = 0 𝑥→−∞ et lim 𝐹𝑋 (𝑥) = 1 𝑥→+∞ • 𝑓𝑋 (𝑥) ≥ 0, ∀𝑥𝑥 ∈ ℝ
Propriétés des fonctions de répartition et densité de probabilité : n°2
• Si X admet une densité: 𝐹𝑋 (𝑥) = intégrale de −∞ à x de 𝑓𝑋 𝑡 𝑑𝑡 et donc Pr(𝑋 ≤ 𝑥) correspond à l’aire sous la courbe de la densité pour l’intervalle ]−∞, 𝑥] • ∫+∞−∞ 𝑓𝑋 (𝑥) 𝑑𝑥 =1
•Espérance (moment du premier ordre) (expectation, mean, expected value) d’une v.a. X continue:
𝑬 (𝑿) = ∫−∞ à +∞ 𝒙𝒇𝑿 (𝒙) 𝒅𝒙
Variance (moment centré d’ordre 2) :
𝑽 (𝑿) = 𝝈𝑿𝟐* = [𝑬 (𝑿) − 𝑬 (𝑿) ]𝟐* = 𝑬 (𝑿𝟐) − 𝑬(𝑿)𝟐
Propriétés des moments aléatoires :
- l’espérance est un opérateur linéaire : ∀𝑎, 𝑏 ∈ ℝ2, 𝐸(𝑎𝑋 + 𝑏) = 𝑎𝐸(X) + 𝑏
- pour des transformations non linéaires de X, g(X), en général : E(g(X)) ≠ g(E(X))
- ∀𝑎, 𝑏 ∈ ℝ2, 𝑉 (𝑎𝑋+𝑏) = 𝑎2𝑉(𝑋)
- écart-type (standard error) de X : 𝜎𝑋 = Racine carré de (𝑉(𝑋))
Fonction de répartition :
𝐹𝑋 𝑥1, ⋯ , 𝑥𝐾 = Pr(𝑋1 ≤ 𝑥1, ⋯ , 𝑋𝐾 ≤ 𝑥𝐾)
Soit X le vecteur de dimension K : 𝑋 =
(𝑋1…𝑋𝐾), où chaque composante Xk, k=1,…, K, est…
…une variable aléatoire. On suppose ici que ces v.a. sont continues.
Densité (jointe) de probabilité :
notée 𝑓𝑋( 𝑥1, ⋯ , 𝑥𝐾)
Densité marginale de la v.a. Xk :
𝒇𝑿𝒌 𝒙𝒌 = ∫ ⋯ ∫ 𝒇𝑿 𝒙𝟏, ⋯ , 𝒙𝒌, ⋯ , 𝒙𝑲 𝐝𝒙𝟏 ⋯ 𝐝𝒙𝑲
Espérance :
𝑬 𝑿 =(𝑬(𝑿𝟏)…𝑬(𝑿𝑲)
Covariance :
σ Xk,Xl = E(Xk;Xl) - E(Xk)*E(Xl)
Corrélation entre Xk et Xl, l,k = 1,…,K :
Corr(Xk ; Xl) = Cov(Xk ; Xl)/ σXk * σXl
Matrice de variance-covariance de X :
matrice carrée de taille KxK:
Soit A une matrice de constantes. On a :
V (𝐴𝑋) = 𝐴𝑉(𝑋)𝐴T T= transposé ou bien # ‘ #
Loi de Bayes: soient A et B deux évènements :
𝐏 (𝑨/𝑩) = 𝐏(𝑨∩ 𝑩) / 𝐏(𝑩)
Un échantillon est un échantillon aléatoire si :
les observations sont tirées d’une même loi et indépendantes
entre elles.
→ Échantillon indépendamment et identiquement distribué (iid)
Un estimateur :
règle d’utilisation des données d’un échantillon pour estimer un ou plusieurs paramètres.
C’est une statistique.
Propriétés souhaitables d’un estimateur :
• Sans biais : un estimateur ̂ 𝜃 d’un paramètre θ est « sans biais » si : 𝐸( ̂ 𝜃 )= 𝜃
• Efficace : un estimateur sans biais ̂ 𝜃1 d’un paramètre θ est plus efficace qu’un autre estimateur sans biais ̂ 𝜃2 si : 𝑉( ̂𝜃1) < 𝑉( ̂𝜃2)
En présence d’un biais, on utilise le critère de l’Erreur Quadratique Moyenne (EQM), la plus faible possible:
𝐸( ̂ 𝜃 )= 𝐸(( ̂ 𝜃 − 𝜃 )2* )= 𝑉( ̂ 𝜃) + (𝐸( ̂𝜃) − 𝜃 )2*
Avec 2* = au carré
Analyse de régression :
l’un des principaux outils de l’économétrie pour quantifier et tester des relations
économiques à partir de données observées.
Etude la dépendance « statistique » d’une variable par rapport à une ou plusieurs autres variables
Le modèle linéaire simple : notations et définitions
On postule une relation entre une variable y et une variable x.
Remarque : dans ce qui suit, on confond v.a. et réalisation en terme de notation.
Forme de la relation la plus simple
→ linéaire : y = xβ1 + β0
Confrontation des données observées à la relation ⇒ relation non exacte.
Par exemple : n individus, x=revenu et y = dépenses pour loisir → échantillon : (𝑥𝑖 , 𝑦𝑖 ) 𝑖 = (1,…,𝑛)
Autres facteurs que le revenu ( observables ou non) affectent les dépenses pour loisir.