Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) à valeurs dans \({\mathbb R}^2\). Sauf mention contraire nous supposerons que toutes les espérances mentionnées dans cette page existent. Nous considérons une application \( h:{\mathbb R}^2 \longrightarrow {\mathbb R}^p\) telle que :
telle que \(h(X)\) soit un v.a. défini sur \({\mathbb R}^p\).
Définition 1. Nous appelons \(h\)-moment théorique de \(X\) le vecteur :
avec, pour tout \(j\in\lbrace 1,\cdots, p\rbrace\),
Dans la suite nous choisissons des applications \(h\) particulières.
Définition 2. Nous appelons espérance mathématique, ou encore moyenne théorique de \(X\) le vecteur :
avec, pour la première composante,
La deuxième composante s’écrit de manière analogue. Le deuxième terme de chaque égalité fait intervenir la loi marginale de la composante. Lorsque cela a un sens, nous pouvons calculer un moment quelconque de l’une des composantes de \(X\) en utilisant sa loi marginale. C’est le cas, par exemple, pour les variances \({\mathbb V}ar\lbrack X_1\rbrack\) et \({\mathbb V}ar\lbrack X_2\rbrack\).
Propriété 1. Pour toutes v.a. \(X_1,X_2\) l’espérance de la somme est la somme des espérances ; c’est-à-dire \({\mathbb E}\lbrack X_1+X_2\rbrack={\mathbb E}\lbrack X_1\rbrack+{\mathbb E}\lbrack X_2\rbrack\).
Pour le voir, il suffit d’utiliser la Définition 1 avec \(h(x_1, x_2)=x_1+x_2\) et la linéarité de la somme ou de l’intégrale. \(\quad \square\)
Propriété 2. Si deux v.a. \(X_1,X_2\) sont indépendantes alors l’espérance de leur produit est le produit de leur espérance : \({\mathbb E}\lbrack X_1X_2\rbrack={\mathbb E}\lbrack X_1\rbrack{\mathbb E}\lbrack X_2\rbrack\). La réciproque est fausse en général.
Pour le voir, il suffit d’utiliser la Définition 1 avec \(h(x_1, x_2)=x_1x_2\) et la Remarque 2 qui suit la définition de l’indépendance. \(\quad \square\)
Contre-exemple 1. Soit une v.a. \(X\) symétrique par rapport à \(0\) et admettant un moment d’ordre \(3\). Nous posons \(X_1=X\) et \(X_2=X^2\) qui ne sont pas indépendantes en général ; par exemple si \({\cal L}(X)={\cal U}(\lbrace -1,\ 0,\ 1\rbrace)\). La symétrie nous donne :
Contre-exemple 2. Soit une v.a. \(X\) de loi Normale Standard \({\cal N}(0\ ;\ 1)\) et une v.a. \(Y\) de Rademacher, c’est-à-dire \(P(Y=-1)=P(Y=1)=0,5\) et indépendante de \(X\). Nous posons \(X_1=X\) et \(X_2=YX\) ; ces v.a. ne sont pas indépendantes. Nous avons :
Il est à remarquer que \({\cal L}(XY)={\cal N}(0\ ;\ 1)\), mais la loi du vecteur \(\sideset{^t}{}(X, XY)\) n’est pas une loi Normale de dimension \(2\). Le calcul de sa f.r. suffit pour s’en convaincre. \(\quad \square\)
Définition 3. Nous appelons fonction génératrice des moments d’un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) la fonction définie, pour les \(u=\sideset{^t}{}(u_1, u_2)\in{\mathbb R}^2\) dans un voisinage ouvert de \(0_2=(0, 0)\) pour lesquels elle existe, par :
Nous appelons fonction caractéristique d’un v.a. \(X=\sideset{^t}{}(X_1, X_2)\), pour tous les \(u=\sideset{^t}{}(u_1, u_2)\in{\mathbb R}^2\), la fonction définie par :
où \(i\) est le nombre complexe tel que \(i^2=-1\).
Remarque 1. La fonction génératrice des moments d’un v.a., lorsqu’elle existe, détermine sa loi.
Propriété 3. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) admettant une fonction génératrice des moments \(g_X(u)\) et \(c_X(u)\) sa fonction caractéristique. Alors les moments de tous ordres existent et :
Ce résultat s’obtient par dérivations sous la somme ou sous l’intégrale. \(\quad \square\)
Dans la suite nous étudions la relation éventuelle entre les composantes du vecteur \(X\).
Définition 4. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\). Nous appelons covariance théorique de \(X_1\) et \(X_2\) le nombre :
Si la covariance est nulle alors les variables sont dites non corrélées. Nous appelons matrice des variances-covariance théoriques de ce vecteur :
La covariance décrit partiellemnt la liaison entre deux v.a..
Propriété 4. Si deux v.a. \(X_1,X_2\) sont indépendantes alors leur covariance est nulle. La réciproque est fausse en général.
C’est une application directe de la Propriété 2 ci-dessus. \(\quad \square\)
Propriété 5. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\). Pour tous nombres \(a_1,\ b_1,\ a_2,\ b_2\in{\mathbb R}\), nous avons :
La linéarité de l’espérance nous donne ces égalités. \(\quad \square\)
Propriété 6. Nous avons :
En effet, la transposée d’une espérance est l’espérance de la transposée et \(^ta\Sigma_X a={\mathbb V}ar\lbrack\sideset{^t}{}a X\rbrack\). Il suffit alors d’utiliser des techniques classiques d’algèbre linéaire pour obtenir ces résultats.\(\quad \square\)
La covariance admet comme unités le produit de celles de \(X_1\) avec celles de \(X_2\). De plus elle peut prendre toute valeur de \({\mathbb R}\). C’est pourquoi nous introduisons le paramètre suivant :
Définition 5. Nous appelons coefficient théorique de corrélation linéaire d’un v.a. le nombre :
Interprétation. La deuxième égalité de cette définition montre que ce coefficient est la covariance des variables centrées réduites. C’est un nombre «pur», il n’a pas d’unités.
Interprétation géométrique. La variance d’une v.a. peut être considérée comme la norme ou longeur au carré de cette v.a. dans l’espace des v.a. centrées, admettant une variance. Alors le coefficient de corrélation linéaire entre deux variables est le produit scalaire normé des vecteurs formés par ces variables ; il mesure le cosinus de l’angle formé par celles-ci. Si \(\varrho\lbrack X_1,\ X_2\rbrack=0\), elles sont non corrélées ; géométriquement elles sont orthogonales. Dans certains cas, comme pour des vecteurs de loi Normale, cette orthogonalité est équivalente à l’indépendance.
Propriété 7. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\).
Pour le voir nous appliquons la Propriété 5 ci-dessus et l’inégalité de Schwarz. \(\quad \square\)
Mais la propriété principale du coefficient de corrélation linéaire est la suivante :
Propriété 8. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\), alors :
avec
Après avoir ajouté et retranché \(b_a={\mathbb E}\lbrack X_2 \rbrack-a{\mathbb E}\lbrack X_1\rbrack\) dans le carré, un calcul direct nous donne ces résultats. \(\quad \square\)
Remarque 2. La méthode consistant à minimiser l’espérance quadratique est appelée la méthode des moindres carrés. Elle est très utilisée en Statistique, dans les problèmes d’estimation entre autres, et plus généralement en Mathématique pour des problèmes d’optimisation.
Définition 6. Nous appelons régression linéaire simple théorique de \(X_2\) en \(X_1\) la v.a. :
Nous appelons résidu de la régression linéaire simple théorique de \(X_2\) en \(X_1\) la v.a. \(Res\lbrack X_2\vert X_1\rbrack=X_2-RL\lbrack X_2\lvert X_1\rbrack.\)
Interprétation. La v.a. \(RL\lbrack X_2\lvert X_1\rbrack\) est la fonction affine de \(X_1\) qui est la plus proche de \(X_2\) au sens des moindres carrés. Le coefficient \(\varrho^2\) représente la part de variation de \(X_2\) «expliquée» par cette fonction.
C’est Galton qui a introduit le terme de régression lors d’une étude sur la relation entre la taille d’un père et celle de son fils. Il a constaté que la taille des fils dont le père était grand avait tendance à «régresser» vers la moyenne des tailles des fils.
Propriété 9. La régression \(RL\lbrack X_2\lvert X_1\rbrack\) passe par le point \(({\mathbb E}\lbrack X_1\rbrack,\ {\mathbb E}\lbrack X_2\rbrack)\). Le signe de son coefficient directeur (ou sens de variation de \(x_2\) en fonction de \(x_1\)) est celui de \(\varrho\lbrack X_1,\ X_2\rbrack\). De plus :
Nous concluons cette page par l’étude d’une mesure de la dépendance en moyenne de \(X_2\) par rapport à \(X_1\). Lorsque \(X_1=x_1\) (\(x_{1,j} \) cas discret ou \(x_1\) cas continu), alors la loi conditionnelle de \(X_2\) par rapport à \(X_1\) est donnée par \( P(X_2=x_{2,j^{\prime}}\lvert X_1=x_{1,j})\) ou par \(f_{X_2\lvert X_1=x_1}(x_2)\). Cette loi admet, le cas échéant, une espérance \({\mathbb E}\lbrack X_2\lvert X_1=x_1\rbrack\), l’espérance conditionnelle de \(X_2\) sachant que \(X_1=x_1\), et une variance \({\mathbb V}ar\lbrack X_2\lvert X_1=x_1\rbrack\), la variance conditionnelle de \(X_2\) sachant que \(X_1=x_1\). Ces dernières sont des réalisations des v.a. \({\mathbb E}\lbrack X_2\lvert X_1\rbrack\) et \({\mathbb V}ar\lbrack X_2\lvert X_1\rbrack\).
Propriété 10. Nous avons les égalités :
Pour le voir il suffit d’effectuer un calcul direct dans chacun des deux cas. \(\quad \square\)
La deuxième égalité s’appelle équation de l’Analyse de la Variance théorique. Nous la retrouvons dans l’étude de plusieurs populations.
Définition 7. Nous appelons coefficient théorique de dépendance en moyenne ou rapport théorique de corrélation de \(X_2\) par rapport à \(X_1\) le nombre :
La propriété principale de ce coefficient est la suivante :
Propriété 11. Si \({\mathbb H}\) désigne l’ensemble des fonctions \(h\) telles que \(h(X_1)\) soit une v.a., alors :
Après avoir ajouté et retranché \({\mathbb E}\lbrack X_2\lvert X_1\rbrack\) dans le carré, nous le développons. \(\quad \square\)
Propriété 12. Nous avons \(0\leq\varrho^2\lbrack X_1, X_2\rbrack \leq \eta^2\lbrack X_2\lvert X_1\rbrack\leq 1\).
Nous avons \( \displaystyle\min_{h\in{\mathbb H}}{\mathbb E}\lbrack\left(X_2-h(X_1)\right)^2\rbrack\leq \min_{a, b\in{\mathbb R}}{\mathbb E}\Big\lbrack(X_2-aX_1-b)^2\Big\rbrack\). Nous en déduisons les résultats.\(\quad \square\)
Interprétation. La v.a. \({\mathbb E}\lbrack X_2\vert X_1\rbrack\) est la fonction de \(X_1\) qui est la plus proche de \(X_2\), au sens des moindres carrés. Le coefficient \(\eta^2\) représente la part de variation de \(X_2\) «expliquée» par cette fonction. De plus
Exemple 1. Nous considérons un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) à valeurs dans \(\lbrace -1,\ 0,\ 1\rbrace^2\) dont la loi de probabilité et les lois marginales sont données par :
\(x_{1, j}\) \ \(x_{2,j^{\prime}}\) | \(-1\) | \(0\) | \(1\) | \(P_{X_1}\) |
\(-1\) | \(\dfrac{1}{9}\) | \(\dfrac{1}{6}\) | \(\dfrac{1}{18}\) | \(\dfrac{1}{3}\) |
\(0\) | \(\dfrac{1}{9}\) | \(\dfrac{1}{6}\) | \(\dfrac{1}{18}\) | \(\dfrac{1}{3}\) |
\(1\) | \(\dfrac{1}{18}\) | \(\dfrac{1}{6}\) | \(\dfrac{1}{9}\) | \(\dfrac{1}{3}\) |
\(P_{X_2}\) | \(\dfrac{5}{18}\) | \(\dfrac{9}{18}\) | \(\dfrac{4}{18}\) | \(1\) |
La loi marginale de \(X_1\) est la loi Uniforme discrète \({\cal U}(\lbrace-1\ ;\ 0\ ;\ 1\rbrace)\).Nous en déduisons :
De plus :
Le tableau suivant nous donne les probabilités conditionnelles \(P(X_2=x_{2, j^{\prime}}\lvert X_1=x_{1, j})\) et les espérances conditionnelles \({\mathbb E}\lbrack X_2=x_{2, j^{\prime}}\lvert X_1=x_{, j}\rbrack\) :
\(x_{1, j}\) \ \(x_{2,j^{\prime}}\) | \(-1\) | \(0\) | \(1\) | \({\mathbb E}\lbrack X_2=x_{2, j^{\prime}}\lvert X_1=x_{, j}\rbrack\) |
\(-1\) | \(\dfrac{1}{3}\) | \(\dfrac{1}{2}\) | \(\dfrac{1}{6}\) | \(-\dfrac{1}{6}\) |
\(0\) | \(\dfrac{1}{3}\) | \(\dfrac{1}{2}\) | \(\dfrac{1}{6}\) | \(-\dfrac{1}{6}\) |
\(1\) | \(\dfrac{1}{6}\) | \(\dfrac{1}{2}\) | \(\dfrac{1}{3}\) | \(\dfrac{1}{6}\) |
Nous avons :
En conclusion nous calculons :
Ainsi nous avons construit deux v.a., fonction de \(X_1\), pour approcher \(X_2\). Mais l’approximation est de mauvaise qualité, la première «explique» \(4,97\%\) de la variation de \(X_2\) et la seconde \(3,7\%\).\(\quad \square\)
Exemple 2. Nous considérons un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) de loi Normale \({\cal N}_2(\mu\ ;\ \Sigma)\), avec :
où \(\mu_1,\ \mu_2\in{\mathbb R},\ \sigma_1,\ \sigma_2\in{\mathbb R}^{\star}_+\) et \(\varrho\in \rbrack -1\ ;\ 1\lbrack\). La densité s’écrit :
En effectuant les calculs matriciels dans l’exponentielle, ce dernier terme devient :
Nous ajoutons et retranchons \(\varrho^2\dfrac{(x_1-\mu_1)^2}{\sigma_1^2}\) ; la densité du couple se factorise alors en deux densités de lois Normales univariées :
Cette factorisation nous donne \({\cal L}(X_1)={\cal N}(\mu_1 ; \sigma_1^2)\) et \({\cal L}(X_2\lvert X_1=x_1)={\cal N}\Big(\mu_2+\varrho\dfrac{\sigma_2}{\sigma_1}(x_1-\mu_1)\ ;\ \sigma_2^2(1-\varrho^2)\Big)\). Nous en déduisons :
Remarquons que la variance conditionnelle ne dépend pas de \(x_1\). La factorisation avec \(x_2\) d’abord nous donne de manière analogue \({\mathbb E}\lbrack X_2\rbrack=\mu_2\) et \({\mathbb V}ar\lbrack X_2\rbrack=\sigma_2^2\). Un calcul simple nous donne enfin \({\mathbb C}ov\lbrack X_1 ,\ X_2\rbrack =\varrho\sigma_1\sigma_2\) et \(\varrho\lbrack X_1 ,\ X_2\rbrack =\varrho\). Nous pouvons ainsi en conclure :
Ainsi pour la loi Normale bivariée nous pouvons utiliser indifféremment l’espérance conditionnelle ou la régression linéaire. La qualité approximation de \(X_2\) par \(X_1\) ne dépend que da la valeur de \(\varrho.\quad \square\)
Haut de la page.