le logo du site

1. Les observations.

1.9.7. Moments d’un v.a. de dimension 2.

Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) à valeurs dans \({\mathbb R}^2\). Sauf mention contraire nous supposerons que toutes les espérances mentionnées dans cette page existent. Nous considérons une application \[ h:{\mathbb R}^2 \longrightarrow {\mathbb R}^p,\ h(X)=\sideset{^t}{}(h_1(X_1, X_2),\cdots, h_p(X_1, X_2)), \] telle que \(h(X)\) soit un v.a. défini sur \({\mathbb R}^p\).

Définition 1. Nous appelons \(h\)-moment théorique de \(X\) le vecteur :

\[ {\mathbb E}\lbrack h(X)\rbrack=\sideset{^t}{}( {\mathbb E}\lbrack h_1(X)\rbrack, \cdots, {\mathbb E}\lbrack h_p(X)\rbrack), \]

avec, pour tout \(j\in\lbrace 1,\cdots, p\rbrace\),

\begin{align} {\mathbb E}\lbrack h_j(X)\rbrack & = \sum_{k,l} h_j(x_{1,k}, x_{2,l})P(X_1=x_{1,k}, X_2=x_{2,l})\quad (\it cas\ discret),\\ & = \iint_{{\mathbb R}^2} h_j(t_1, t_2)f_X(t_1, t_2) dt_1dt_2 \quad (\it cas\ continu). \end{align}

Nous choisissons des applications \(h\) particulières.

Définition 2. Nous appelons espérance mathématique, ou encore moyenne théorique de \(X\) le vecteur :

\[ {\mathbb E}\lbrack X\rbrack=\sideset{^t}{}( {\mathbb E}\lbrack X_1\rbrack, {\mathbb E}\lbrack X_2\rbrack), \]

avec, pour la première composante,

\begin{align} {\mathbb E}\lbrack X_1\rbrack & = \sum_{k,l} x_{1,k}P(X_1=x_{1,k}, X_2=x_{2,l})=\sum_k x_{1,k}p_{k,\bullet}\quad (\it cas\ discret),\\ & = \iint_{{\mathbb R}^2} t_1f_X(t_1, t_2) dt_1dt_2=\int_{\mathbb R}t_1f_{X_1}(t_1)dt_1 \quad (\it cas\ continu). \end{align}

La deuxième composante s’écrit de manière analogue. Le deuxième terme de chaque égalité fait intervenir la loi marginale de la composante. Lorsque cela a un sens, nous pouvons calculer un moment quelconque de l’une des composantes de \(X\) en utilisant sa loi marginale. C’est le cas, par exemple, pour les variances \({\mathbb V}ar\lbrack X_1\rbrack\) et \({\mathbb V}ar\lbrack X_2\rbrack\).

Propriété 1. Pour toutes v.a. \(X_1,X_2\) l’espérance de la somme est la somme des espérances ; c’est-à-dire \({\mathbb E}\lbrack X_1+X_2\rbrack={\mathbb E}\lbrack X_1\rbrack+{\mathbb E}\lbrack X_2\rbrack\).

Pour le voir, il suffit d’utiliser la Définition 1 avec \(h(x_1, x_2)=x_1+x_2\) et la linéarité de la somme ou de l’intégrale. \(\quad \square\)

Propriété 2. Si deux v.a. \(X_1,X_2\) sont indépendantes alors l’espérance de leur produit est égale au produit de leur espérance : \({\mathbb E}\lbrack X_1X_2\rbrack={\mathbb E}\lbrack X_1\rbrack{\mathbb E}\lbrack X_2\rbrack\). La réciproque est fausse en général.

Pour le voir, il suffit d’utiliser la Définition 1 avec \(h(x_1, x_2)=x_1x_2\) et la Remarque 2 qui suit la définition de l’indépendance. \(\quad \square\)

Contre-exemple 1. Soit une v.a. \(X\) symétrique par rapport à \(0\) et admettant un moment d’ordre \(3\). Nous posons \(X_1=X\) et \(X_2=X^2\) qui ne sont pas indépendantes en général ; par exemple si \({\cal L}(X)={\cal U}(\lbrace -1,\ 0,\ 1\rbrace)\). Cependant nous avons :

\[ {\mathbb E}\lbrack X_1X_2\rbrack={\mathbb E}\lbrack X^3\rbrack=0\quad {\rm et}\quad {\mathbb E}\lbrack X_1\rbrack{\mathbb E}\lbrack X_2\rbrack={\mathbb E}\lbrack X\rbrack{\mathbb E}\lbrack X^2\rbrack=0.\quad \square \]

Contre-exemple 2. Soit une v.a. \(X\) de loi Normale standard \({\cal N}(0\ ;\ 1)\) et une v.a. \(Y\) de Rademacher, c’est-à-dire \(P(Y=-1)=P(Y=1)=0,5\), indépendante de \(X\). Nous posons \(X_1=X\) et \(X_2=YX\) ; ces dernières ne sont pas indépendantes. Nous avons :

\[ {\mathbb E}\lbrack X_1X_2\rbrack={\mathbb E}\lbrack YX^2\rbrack={\mathbb E}\lbrack Y\rbrack {\mathbb E}\lbrack X^2\rbrack=0\quad {\rm et}\quad {\mathbb E}\lbrack X_1\rbrack{\mathbb E}\lbrack X_2\rbrack={\mathbb E}\lbrack X\rbrack{\mathbb E}\lbrack YX\rbrack=0 \]

Il est à remarquer que \({\cal L}(YX)={\cal N}(0\ ;\ 1)\), mais la loi du vecteur \(\sideset{^t}{}(X_1, X_2)\) n’est pas une loi Normale de dimension \(2\). Le calcul de sa f.r. suffit pour s’en convaincre. \(\quad \square\)

Définition 3. Nous appelons fonction génératrice des moments d’un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) la fonction définie, pour les \(s=(s_1, s_2)\in{\mathbb R}^2\) dans un voisinage ouvert de \(0_2\) pour lesquels elle existe, par :

\[ g_X(s)={\mathbb E}\lbrack\exp(\sideset{^t}{}sX)\rbrack. \]

Nous appelons fonction caractéristique d’un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) la fonction définie par :

\[ \forall s=(s_1, s_2)\in{\mathbb R}^2,\qquad c_X(s)={\mathbb E}\lbrack\exp(i\sideset{^t}{}sX)\rbrack, \]

où \(i\) est le nombre complexe tel que \(i=\sqrt{-1}\).

Remarque 1. La fonction génératrice des moments d’un v.a., lorsqu’elle existe, détermine sa loi.

Propriété 3. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) admettant une fonction génératrice des moments \(g_X(s)\) et \(c_X(s)\) sa fonction caractéristique. Alors les moments de tous ordres existent et :

\[ {\mathbb E}\lbrack X_1^kX_2^l\rbrack=\frac{\partial^k}{\partial s_1^k}\frac{\partial^l}{\partial s_2^l}g_X(0_2)=\frac{1}{i^{k+l}}\frac{\partial^k}{\partial s_1^k}\frac{\partial^l}{\partial s_2^l} c_X(0_2). \]

Ce résultat s’obtient par dérivations sous la somme ou sous l’intégrale. \(\quad \square\)

Dans la suite nous étudions la relation éventuelle entre les composantes du vecteur \(X\).

Définition 4. Soit un v.a.\(X=\sideset{^t}{}(X_1, X_2)\). Nous appelons matrice des variances-covariances théoriques de ce vecteur :

\[ \Sigma_X={\mathbb E}\left\lbrack (X - {\mathbb E}\lbrack X\rbrack)\sideset{^t}{}(X - {\mathbb E}\lbrack X\rbrack)\right\rbrack= \] \[ =\pmatrix{ {\mathbb V}ar\lbrack X_1\rbrack & {\mathbb C}ov\lbrack X_1, X_2\rbrack \cr {\mathbb C}ov\lbrack X_1, X_2\rbrack &{\mathbb V}ar\lbrack X_2\rbrack \cr} \]

où l’expression :

\[ {\mathbb C}ov\lbrack X_1, X_2\rbrack={\mathbb E}\left\lbrack (X_1 - {\mathbb E}\lbrack X_1\rbrack)(X_2 - {\mathbb E}\lbrack X_2\rbrack)\right\rbrack= {\mathbb E}\lbrack X_1X_2\rbrack - {\mathbb E}\lbrack X_1\rbrack {\mathbb E}\lbrack X_2\rbrack , \]

est appelée covariance théorique de \(X_1\) et \(X_2\) ; c’est un paramètre qui décrit partiellement la liaison entre les deux variables. Si celui-ci est nul alors les variables sont dites non corrélées.

Propriété 4. Si deux v.a. \(X_1,X_2\) sont indépendantes alors leur covariance est nulle. La réciproque est fausse en général.

C’est une application directe de la Propriété 2 ci-dessus. \(\quad \square\)

Propriété 5. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\). Pour tous nombres \(a_1,\ b_1,\ a_2,\ b_2\in{\mathbb R}\), nous avons :

\begin{align} &{\mathbb V}ar\lbrack X_1\pm X_2\rbrack = {\mathbb V}ar\lbrack X_1\rbrack+{\mathbb V}ar\lbrack X_2\rbrack\pm 2{\mathbb C}ov\lbrack X_1,\ X_2\rbrack,\\ &{\mathbb C}ov\lbrack a_1X_1+b_1,\ a_2X_2+b_2\rbrack = a_1a_2{\mathbb C}ov\lbrack X_1,\ X_2\rbrack. \end{align}

La linéarité de l’espérance nous donne ces égalités. \(\quad \square\)

Propriété 6. La matrice \(\Sigma_X\) est symétrique, c’est-à-dire que \(\sideset{^t}{}{\Sigma_X}=\Sigma_X\) ; elle est également semi-définie positive, c’est-à-dire que \(\forall a\in{\mathbb R}^2,\ \sideset{^t}{}a\Sigma_X a\geq 0\) ; ses valeurs propres sont réelles positives et sont données par :

\[ \frac{1}{2}\left({\mathbb V}ar\lbrack X_1\rbrack+{\mathbb V}ar\lbrack X_2\rbrack \pm\sqrt{({\mathbb V}ar\lbrack X_1\rbrack-{\mathbb V}ar\lbrack X_2\rbrack)^2+4{\mathbb C}ov\lbrack X_1,\ X_2\rbrack^2}\right). \]

Si de plus la loi de \(X\) n’est pas dégénérée, c’est-à-dire que l’une des v.a. n’est pas une fonction affine de l’autre (\(\det(\Sigma_X)\not=0)\), alors \(\Sigma_X\) est inversible et définie positive, c’est-à-dire qu’elle satisfait en plus à : \(\sideset{^t}{}a\Sigma_X a=0\Rightarrow a=0_2\in {\mathbb R}^2\). Ses valeurs propres sont dans ce cas strictement positives.

En effet, la transposée d’une espérance est l’espérance de la transposée et \(^ta\Sigma_X a={\mathbb V}ar\lbrack\sideset{^t}{}a X\rbrack\). Il suffit alors d’utiliser des techniques classiques d’algèbre linéaire pour obtenir ces résultats.\(\quad \square\)

La covariance admet comme unité celle de \(X_1\) mutipliée par celle de \(X_2\). De plus elle peut prendre n’importe quelle valeur de \({\mathbb R}\). C’est pourquoi nous introduisons le paramètre suivant :

Définition 5. Nous appelons coefficient théorique de corrélation linéaire d’un v.a. le nombre :

\[ \varrho\lbrack X_1,\ X_2\rbrack=\frac{{\mathbb C}ov\lbrack X_1,\ X_2\rbrack}{\sigma\lbrack X_1\rbrack \sigma\lbrack X_2\rbrack}= {\mathbb E}\left\lbrack\left(\frac{X_1 - {\mathbb E}\lbrack X_1\rbrack}{\sigma\lbrack X_1\rbrack}\right)\left(\frac{X_2 - {\mathbb E}\lbrack X_2\rbrack}{\sigma\lbrack X_2\rbrack}\right)\right\rbrack. \]

Interprétation. La deuxième égalité de cette définition montre que ce coefficient est la covariance des variables centrées réduites. De plus nous avons l’interprétation géométrique suivante. La variance d’une v.a. peut être considérée comme la norme ou longeur au carré de cette v.a. dans l’espace des v.a. centrées, admettant une variance. Alors le coefficient de corrélation linéaire entre deux variables est le produit scalaire normé des vecteurs formés par ces variables. Si \(\varrho\lbrack X_1,\ X_2\rbrack=0\), elles sont non corréllées ; géométriquement elles sont orthogonales. Dans certains cas, comme pour des vecteurs de loi Normale, cette orthogonalité est équivalente à l’indépendance.

Propriété 7. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\). Pour tous nombres \(a_1,\ b_1,\ a_2,\ b_2\in{\mathbb R}\), nous avons :

\[ \varrho\lbrack a_1X_1+b_1,\ a_2X_2+b_2\rbrack=sg(a_1a_2)\varrho\lbrack X_1,\ X_2\rbrack, \]

où \(sg(a)\) désigne le signe de \(a\).

Pour le voir nous appliquons la Propriété 5 ci-dessus. \(\quad \square\)

Mais la propriété principale du coefficient de corrélation linéaire est la suivante :

Propriété 8. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\), alors :

\[ \min_{a, b\in{\mathbb R}}{\mathbb E}\lbrack\left(X_2-aX_1-b\right)^2\rbrack={\mathbb E}\lbrack\left(X_2-a_{\star}X_1-b_{\star}\right)^2\rbrack=(1-\varrho^2\lbrack X_1,\ X_2\rbrack){\mathbb V}ar\lbrack X_2\rbrack, \]

avec

\[ a_{\star}=\varrho\lbrack X_1,\ X_2\rbrack\frac{\sigma\lbrack X_2\rbrack}{\sigma\lbrack X_1\rbrack}\quad {\it et} \quad b_{\star}={\mathbb E}\lbrack X_2\rbrack-a_{\star}{\mathbb E}\lbrack X_1\rbrack. \]

Après avoir ajouté et retranché \(b_a={\mathbb E}\lbrack X_2 \rbrack-a{\mathbb E}\lbrack X_1\rbrack\) dans le carré, un calcul direct nous donne ces résultats. \(\quad \square\)

Remarque 2. La méthode consistant à minimiser l’espérance quadratique est appelée la méthode des moindres carrés. Elle est très utilisée en Statistique, dans les problèmes d’estimation entre autres, et plus généralement en Mathématique pour des problèmes d’optimisation.

Définition 6. Nous appelons régression linéaire simple théorique de \(X_2\) en \(X_1\) la droite :

\[ RL(X_2\mid X_1=x_1)=a_{\star}x_1+b_{\star}=\varrho\lbrack X_1,\ X_2\rbrack\frac{\sigma\lbrack X_2\rbrack}{\sigma\lbrack X_1\rbrack}(x_1-{\mathbb E}\lbrack X_1\rbrack)+{\mathbb E}\lbrack X_2\rbrack. \]

Nous appelons résidu de la régression linéaire simple théorique de \(X_2\) en \(X_1\) la v.a. \(Res(X_2\mid X_1)=X_2-RL(X_2\mid X_1).\)

Interprétation. La v.a. \(RL(X_2\mid X_1)\) est la fonction affine de \(X_1\) qui est la plus proche de \(X_2\) au sens des moindres carrés. Le coefficient \(\varrho^2\) représente la part de variation de \(X_2\) «expliquée» par cette fonction.

C’est Galton qui a introduit le terme de régression lors d’une étude de la relation entre la taille d’un père et celle de son fils. Il a constaté que la taille des fils dont le père était grand avait tendance à «régresser» vers la moyenne des tailles des fils.

Propriété 9. La droite de régression \(RL(X_2\mid X_1)\) passe par le point \(({\mathbb E}\lbrack X_1\rbrack,\ {\mathbb E}\lbrack X_2\rbrack)\). Le signe de son coefficient directeur (ou sens de variation de \(x_2\) en fonction de \(x_1\)) est celui de \(\varrho\lbrack X_1,\ X_2\rbrack\). De plus

\begin{align} & {\mathbb E}\lbrack RL(X_2\mid X_1)\rbrack={\mathbb E}\lbrack X_2\rbrack,\quad {\mathbb V}ar\lbrack RL(X_2\mid X_1)\rbrack=\varrho^2\lbrack X_1,\ X_2\rbrack{\mathbb V}ar\lbrack X_2\rbrack ,\\ & {\mathbb E}\lbrack Res(X_2\mid X_1)\rbrack=0\quad {\it et}\quad {\mathbb V}ar\lbrack Res(X_2\mid X_1)\rbrack=(1-\varrho^2\lbrack X_1,\ X_2\rbrack){\mathbb V}ar\lbrack X_2\rbrack .\\ \end{align}

Propriété 10. Nous avons \(\varrho\lbrack X_1,\ X_2\rbrack^2\leq 1\) avec égalité si et seulement si nous ne pouvons qu’observer :

\[ \frac{X_2-{\mathbb E}\lbrack X_2\rbrack}{\sigma\lbrack X_2\rbrack}= \varrho\lbrack X_1,\ X_2\rbrack\frac{X_1-{\mathbb E}\lbrack X_1\rbrack}{\sigma\lbrack X_1\rbrack} \]

Si \(X_1\) et \(X_2\) sont indépendantes alors \(\varrho\lbrack X_1,\ X_2\rbrack=0\). La réciproque est fausse ; nous disons alors simplement que \(X_1\) et \(X_2\) sont non corrélées.

Pour le voir nous appliquons directement la Propriété \(7\). \(\quad \square\)

Nous concluons cette page par l’étude d’une mesure de la dépendance en moyenne de \(X_2\) par rapport à \(X_1\). Lorsque \(X_1=x_1\) (\(x_{1,k} \) cas discret ou \(x_1\) cas continu), alors la loi conditionnelle de \(X_2\) est donnée par \( P(X_2=x_{2,l}\mid X_1=x_{1,k})\) ou par \(f_{X_2\mid X_1=x_1}(x_2)\). Cette loi admet, le cas échéant, une espérance \({\mathbb E}\lbrack X_2\mid X_1=x_1\rbrack\), l’espérance conditionnelle de \(X_2\) sachant que \(X_1=x_1\), et une variance \({\mathbb V}ar\lbrack X_2\mid X_1=x_1\rbrack\), la variance conditionnelle de \(X_2\) sachant que \(X_1=x_1\). Ces dernières sont des réalisations des v.a. \({\mathbb E}\lbrack X_2\mid X_1\rbrack\) et \({\mathbb V}ar\lbrack X_2\mid X_1\rbrack\).

Propriété 11. Nous avons les égalités :

\[ {\mathbb E}\Big\lbrack {\mathbb E}\lbrack X_2\mid X_1\rbrack \Big\rbrack={\mathbb E}\lbrack X_2\rbrack\quad {\it et}\quad {\mathbb V}ar\lbrack X_2\rbrack= {\mathbb E}\Big\lbrack {\mathbb V}ar\lbrack X_2\mid X_1\rbrack \Big\rbrack+{\mathbb V}ar\Big\lbrack {\mathbb E}\lbrack X_2\mid X_1\rbrack \Big\rbrack. \]

Pour le voir il suffit d’effectuer un calcul direct dans chacun des deux cas. \(\quad \square\)

La deuxième égalité s’appelle équation de l’Analyse de la Variance théorique. Nous la retrouvons dans l’étude de plusieurs populations.

Définition 7. Nous appelons coefficient théorique de dépendance en moyenne ou rapport théorique de corrélation de \(X_2\) par rapport à \(X_1\) le nombre :

\[ \eta^2\lbrack X_2\mid X_1\rbrack=\frac{{\mathbb V}ar\Big\lbrack {\mathbb E}\lbrack X_2\mid X_1\rbrack \Big\rbrack}{{\mathbb V}ar\lbrack X_2\rbrack}. \]

La propriété principale de ce coefficient est la suivante :

Propriété 12. Si \({\mathbb H}\) désigne l’ensemble des fonctions \(h\) telles que \(h(X_1)\) soit une v.a., alors :

\[ \min_{h\in{\mathbb H}}{\mathbb E}\lbrack\left(X_2-h(X_1)\right)^2\rbrack={\mathbb E}\lbrack\left(X_2-{\mathbb E}\lbrack X_2\mid X_1\rbrack\right)^2\rbrack=(1-\eta^2\lbrack X_2\mid X_1\rbrack){\mathbb V}ar\lbrack X_2\rbrack. \]

Après avoir ajouté et retranché \({\mathbb E}\lbrack X_2\mid X_1\rbrack\) dans le carré, nous le développons. \(\quad \square\)

Interprétation. La v.a. \({\mathbb E}\lbrack X_2\mid X_1\rbrack\) est la fonction de \(X_1\) qui est la plus proche de \(X_2\), au sens des moindres carrés. Le coefficient \(\eta^2\) représente la part de variation de \(X_2\) «expliquée» par cette fonction.

Propriété 13. Nous avons \(0\leq \eta^2\lbrack X_2\mid X_1\rbrack\leq 1\).

L’égalité \(\eta^2\lbrack X_2\mid X_1\rbrack=0\) est équivalente à l’observation constante de \({\mathbb E}\lbrack X_2\mid X_1\rbrack={\mathbb E}\lbrack X_2\rbrack\) ; nous dirons alors que \(X_2\) est indépendante en moyenne de \(X_1\). Dans ce cas nous avons également la non corrélation des variables.

L’égalité \(\eta^2\lbrack X_2\mid X_1\rbrack=1\) est équivalente à l’observation constante de \(X_2={\mathbb E}\lbrack X_2\mid X_1\rbrack\) ; nous dirons alors que \(X_2\) est totalement dépendante en moyenne de \(X_1\). Nous avons naturellement la relation :

\[ \varrho^2\lbrack X_1,\ X_2\rbrack\leq \eta^2\lbrack X_2\mid X_1\rbrack. \]

Ces affirmations sont des conséquences directes des Propriétés \(7\) et \(10\). \(\quad \square\)

Exemple 1. Nous considérons un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) à valeurs dans \(\lbrace -1,\ 0,\ 1\rbrace^2\) dont la loi de probabilité est donnée par :

\[ P(X_1=-1, X_2=1)=P(X_1=0, X_2=1)=P(X_1=1, X_2=-1)=0,5\alpha\ ; \] \[ P(X_1=-1, X_2=0)=P(X_1=0, X_2=0)=P(X_1=1, X_2=0)=\beta,\quad{\rm et} \] \[ P(X_1=-1, X_2=-1)=P(X_1=0, X_2=-1)=P(X_1=1, X_2=1)=\alpha \ ; \]

où \(\alpha, \beta\in \rbrack 0\ ;\ 1\lbrack\) et \(9\alpha+6\beta=2\). La loi marginale de \(X_1\) est la loi Uniforme discrète \({\cal U}(\lbrace-1\ ;\ 0\ ;\ 1\rbrace)\) et celle de \(X_2\) est définie par :

\[ P(X_2=-1)= 2,5\alpha\ ;\ P(X_2=0)= 3\beta\ ;\ {\rm et}\quad P(X_2=1)=2\alpha. \]

Nous en déduisons :

\[ {\mathbb E}\lbrack X_1\rbrack=0\ ;\ {\mathbb V}ar\lbrack X_1\rbrack=0,\overline{66}\ ;\ {\mathbb E}\lbrack X_2\rbrack=-0,5\alpha\quad {\rm et}\quad {\mathbb V}ar\lbrack X_2\rbrack=0,25\alpha(18-\alpha). \]

De plus :

\[ {\mathbb C}ov\lbrack X_1 ,\ X_2\rbrack =\alpha,\quad \varrho\lbrack X_1 ,\ X_2\rbrack =\sqrt{\frac{6\alpha}{18-\alpha}}\quad {\rm et}\quad RL(X_2\mid X_1=x_1)=1,5\alpha x_1-0,5\alpha. \]

Un calcul direct nous donne :

\[ \begin{array}{|l||r|r|r|r|} \hline x_1 & -1 & 0 & 1\cr \hline P(X_2=-1\mid X_1=x_1)& 3\alpha & 3\alpha & 1,5\alpha \cr \hline P(X_2=0\mid X_1=x_1) & 3\beta & 3\beta & 3\beta \cr \hline P(X_2=1\mid X_1=x_1) & 1,5\alpha & 1,5\alpha & 3\alpha\cr \hline {\mathbb E}\lbrack X_2\mid X_1=x_1\rbrack & -1,5\alpha & -1,5\alpha & 1,5\alpha\cr \hline \end{array} \]

Nous retrouvons bien sûr \({\mathbb E}\lbrack {\mathbb E}\lbrack X_2\mid X_1\rbrack\rbrack={\mathbb E}\lbrack X_2\rbrack=-0,5\alpha\). Nous calculons :

\[ {\mathbb V}ar\lbrack {\mathbb E}\lbrack X_2\mid X_1\rbrack\rbrack=2\alpha^2 \quad {\rm et}\quad \eta^2\lbrack X_2\mid X_1\rbrack=\frac{8\alpha}{18-\alpha}>\varrho^2\lbrack X_1 ,\ X_2\rbrack. \]

Ainsi nous avons construit deux v.a., fonction de \(X_1\), pour approcher \(X_2\). La plus proche, au sens des moindres carrés est l’espérance conditionnelle \({\mathbb E}\lbrack X_2\mid X_1\rbrack\) dont la loi est définie par :

\[ P({\mathbb E}\lbrack X_2\mid X_1\rbrack=-1,5\alpha)=\frac{2}{3}\quad P({\mathbb E}\lbrack X_2\mid X_1\rbrack=1,5\alpha)=\frac{1}{3}. \]

L’autre v.a., qui est fonction affine de \(X_1\) et donc plus facile à utiliser mais plus éloignée de \(X_2\), est la régression linéaire \(RL(X_2\mid X_1)\), qui est distribuée selon une la loi Uniforme discrète \({\cal U}(\lbrace-2\alpha\ ;\ -0,5\alpha\ ;\ \alpha\rbrace)\).\(\quad \square\)

Exemple 2. Nous considérons un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) de loi Normale \({\cal N}_2(\mu\ ;\ \Sigma)\), avec :

\[ \mu = \pmatrix{ \mu_1\cr \mu_2}\quad {\rm et} \quad \Sigma=\pmatrix{\sigma_1^2 & \varrho\sigma_1\sigma_2\cr \varrho\sigma_1\sigma_2 & \sigma_2^2 }, \]

où \(\mu_1,\ \mu_2\in{\mathbb R},\ \sigma_1,\ \sigma_2\in{\mathbb R}^{\star}_+\) et \(\varrho\in \rbrack -1\ ;\ 1\lbrack\). La densité s’écrit :

\[ f_{{\cal N}_2(\mu\ ;\ \Sigma)}(x_1,\ x_2) =\frac{1}{2\pi\sqrt{Det(\Sigma)}}\exp\left(-\frac{1}{2}\ \sideset{^t}{}(x-\mu)\Sigma^{-1}(x-\mu)\right),\quad \sideset{^t}{}(x_1,\ x_2)\in {\mathbb R}^2. \]

En effectuant les calculs matriciels dans l’exponentielle, ce dernier terme devient :

\[ -\frac{1}{2(1-\varrho^2)}\left(\frac{(x_1-\mu_1)^2}{\sigma_1^2}-2\varrho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}\right). \]

Nous ajoutons et retranchons \(\varrho^2\dfrac{(x_1-\mu_1)^2}{\sigma_1^2}\) ; la densité du couple se factorise alors en deux densités de lois Normales univariées :

\[ f_{{\cal N}_2(\mu\ ;\ \Sigma)}(x_1,\ x_2) =f_{{\cal N}(\mu_1\ ;\ \sigma_1^2)}(x_1) f_{{\cal N}(\mu_2+\varrho\frac{\sigma_2}{\sigma_1}(x_1-\mu_1)\ ;\ \sigma^2_2(1-\varrho^2))}(x_2). \]

Cette factorisation nous permet, d’une part de retrouver

\[ {\mathbb E}\lbrack X_1\rbrack=\mu_1,\quad {\mathbb V}ar\lbrack X_1\rbrack=\sigma_1^2,\quad {\mathbb E}\lbrack X_2\rbrack=\mu_2,\quad {\mathbb V}ar\lbrack X_2\rbrack=\sigma_2^2, \]

et

\[ {\mathbb C}ov\lbrack X_1 ,\ X_2\rbrack =\varrho\sigma_1\sigma_2,\quad \varrho\lbrack X_1 ,\ X_2\rbrack =\varrho,\quad \quad RL(X_2\mid X_1=x_1)=\varrho\frac{\sigma_2}{\sigma_1}(x_1-\mu_1)+\mu_2, \]

et d’autre part :

\[ {\mathbb E}\lbrack X_2\mid X_1=x_1\rbrack=\varrho\frac{\sigma_2}{\sigma_1}(x_1-\mu_1)+\mu_2=RL(X_2\mid X_1=x_1)\quad {\rm et}\quad \eta^2=\varrho^2. \]

Ainsi pour la loi Normale bivariée la meilleure approximation de \(X_2\) par une fonction de \(X_1\), au sens des moindres carrés, est la régression linéaire de \(X_2\) en \(X_1\). \(\quad \square\)

Haut de la page.