Moments et dépendances d’un vecteur de dimension 2.

1.9.7. Moments et dépendances d’un v.a. de dimension 2.

Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) à valeurs dans \({\mathbb R}^2\). Sauf mention contraire nous supposerons que toutes les espérances mentionnées dans cette page existent. Nous considérons une application \( h:{\mathbb R}^2 \longrightarrow {\mathbb R}^p\) telle que :

\(h(X)=\sideset{^t}{}(h_1(X_1, X_2),\cdots, h_p(X_1, X_2)),\)

telle que \(h(X)\) soit un v.a. défini sur \({\mathbb R}^p\).

Définition 1. Nous appelons \(h\)-moment théorique de \(X\) le vecteur :

\({\mathbb E}\lbrack h(X)\rbrack=\sideset{^t}{}( {\mathbb E}\lbrack h_1(X)\rbrack, \cdots, {\mathbb E}\lbrack h_p(X)\rbrack),\)

avec, pour tout \(j\in\lbrace 1,\cdots, p\rbrace\),

\({\mathbb E}\lbrack h_j(X)\rbrack =\begin{cases} \ \displaystyle\sum_{j^{\prime}, j^{\prime\prime}}h_j(x_{1, j^{\prime}}, x_{2, j^{\prime\prime}})P\left(X=\sideset{^t}{}(x_{1, j^{\prime}}, x_{2, j^{\prime\prime}})\right)\quad \it{cas\; discret,}\\ \\ \ \displaystyle\iint_{{\mathbb R}^2}{}h_j(t_1,t_2)f_X(t_1,t_2)dt_1dt_2\quad \it{cas\; continu.} \end{cases}\)

Dans la suite nous choisissons des applications \(h\) particulières.

Définition 2. Nous appelons espérance mathématique, ou encore moyenne théorique de \(X\) le vecteur :

\({\mathbb E}\lbrack X\rbrack=\sideset{^t}{}( {\mathbb E}\lbrack X_1\rbrack, {\mathbb E}\lbrack X_2\rbrack),\)

avec, pour la première composante,

\({\mathbb E}\lbrack X_1\rbrack =\begin{cases} \ \displaystyle\sum_{j^{\prime},j^{\prime\prime}} x_{1,j^{\prime}}P(X_1=x_{1,j^{\prime}}, X_2=x_{2,j^{\prime\prime}})=\sum_k x_{1,j^{\prime}}p_{j^{\prime},\bullet}\quad (\it cas\ discret),\\ \\ \ \displaystyle\iint_{{\mathbb R}^2}{}t_1f_X(t_1,t_2)dt_1dt_2=\displaystyle\int_{\mathbb R}{}t_1f_{X_1}(t_1)dt_1\quad \it{cas\; continu.} \end{cases}\)

La deuxième composante s’écrit de manière analogue. Le deuxième terme de chaque égalité fait intervenir la loi marginale de la composante. Lorsque cela a un sens, nous pouvons calculer un moment quelconque de l’une des composantes de \(X\) en utilisant sa loi marginale. C’est le cas, par exemple, pour les variances \({\mathbb V}ar\lbrack X_1\rbrack\) et \({\mathbb V}ar\lbrack X_2\rbrack\).

Propriété 1. Pour toutes v.a. \(X_1,X_2\) l’espérance de la somme est la somme des espérances ; c’est-à-dire \({\mathbb E}\lbrack X_1+X_2\rbrack={\mathbb E}\lbrack X_1\rbrack+{\mathbb E}\lbrack X_2\rbrack\).

Pour le voir, il suffit d’utiliser la Définition 1 avec \(h(x_1, x_2)=x_1+x_2\) et la linéarité de la somme ou de l’intégrale. \(\quad \square\)

Propriété 2. Si deux v.a. \(X_1,X_2\) sont indépendantes alors l’espérance de leur produit est le produit de leur espérance : \({\mathbb E}\lbrack X_1X_2\rbrack={\mathbb E}\lbrack X_1\rbrack{\mathbb E}\lbrack X_2\rbrack\). La réciproque est fausse en général.

Pour le voir, il suffit d’utiliser la Définition 1 avec \(h(x_1, x_2)=x_1x_2\) et la Remarque 2 qui suit la définition de l’indépendance. \(\quad \square\)

Contre-exemple 1. Soit une v.a. \(X\) symétrique par rapport à \(0\) et admettant un moment d’ordre \(3\). Nous posons \(X_1=X\) et \(X_2=X^2\) qui ne sont pas indépendantes en général ; par exemple si \({\cal L}(X)={\cal U}(\lbrace -1,\ 0,\ 1\rbrace)\). La symétrie nous donne :

\({\mathbb E}\lbrack X_1X_2\rbrack={\mathbb E}\lbrack X^3\rbrack=0\quad\) et \(\quad{\mathbb E}\lbrack X_1\rbrack{\mathbb E}\lbrack X_2\rbrack={\mathbb E}\lbrack X\rbrack{\mathbb E}\lbrack X^2\rbrack=0.\quad \square\)

Contre-exemple 2. Soit une v.a. \(X\) de loi Normale Standard \({\cal N}(0\ ;\ 1)\) et une v.a. \(Y\) de Rademacher, c’est-à-dire \(P(Y=-1)=P(Y=1)=0,5\) et indépendante de \(X\). Nous posons \(X_1=X\) et \(X_2=YX\) ; ces v.a. ne sont pas indépendantes. Nous avons :

\({\mathbb E}\lbrack X_1X_2\rbrack={\mathbb E}\lbrack X^2Y\rbrack={\mathbb E}\lbrack X^2\rbrack {\mathbb E}\lbrack Y\rbrack=0\quad\) et \(\quad{\mathbb E}\lbrack X_1\rbrack{\mathbb E}\lbrack X_2\rbrack= {\mathbb E}\lbrack X\rbrack{\mathbb E}\lbrack XY\rbrack=0.\)

Il est à remarquer que \({\cal L}(XY)={\cal N}(0\ ;\ 1)\), mais la loi du vecteur \(\sideset{^t}{}(X, XY)\) n’est pas une loi Normale de dimension \(2\). Le calcul de sa f.r. suffit pour s’en convaincre. \(\quad \square\)

Définition 3. Nous appelons fonction génératrice des moments d’un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) la fonction définie, pour les \(u=\sideset{^t}{}(u_1, u_2)\in{\mathbb R}^2\) dans un voisinage ouvert de \(0_2=(0, 0)\) pour lesquels elle existe, par :

\(g_X(u)={\mathbb E}\lbrack\exp(\sideset{^t}{}uX)\rbrack={\mathbb E}\lbrack\exp(u_1X_1+u_2X_2)\rbrack.\)

Nous appelons fonction caractéristique d’un v.a. \(X=\sideset{^t}{}(X_1, X_2)\), pour tous les \(u=\sideset{^t}{}(u_1, u_2)\in{\mathbb R}^2\), la fonction définie par :

\(c_X(u)={\mathbb E}\lbrack\exp(i\sideset{^t}{}uX)\rbrack={\mathbb E}\Big\lbrack\exp\Big(i(u_1X_1+u_2X_2)\Big)\Big\rbrack,\)

où \(i\) est le nombre complexe tel que \(i^2=-1\).

Remarque 1. La fonction génératrice des moments d’un v.a., lorsqu’elle existe, détermine sa loi.

Propriété 3. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) admettant une fonction génératrice des moments \(g_X(u)\) et \(c_X(u)\) sa fonction caractéristique. Alors les moments de tous ordres existent et :

\({\mathbb E}\lbrack X_1^kX_2^l\rbrack=\dfrac{\partial^k}{\partial s_1^k}\dfrac{\partial^l}{\partial s_2^l}g_X(0_2)=\dfrac{1}{i^{k+l}}\dfrac{\partial^k}{\partial s_1^k}\dfrac{\partial^l}{\partial s_2^l}c_X(0_2).\)

Ce résultat s’obtient par dérivations sous la somme ou sous l’intégrale. \(\quad \square\)

Dans la suite nous étudions la relation éventuelle entre les composantes du vecteur \(X\).

Définition 4. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\). Nous appelons covariance théorique de \(X_1\) et \(X_2\) le nombre :

\({\mathbb C}ov\lbrack X_1, X_2\rbrack={\mathbb E}\left\lbrack (X_1 - {\mathbb E}\lbrack X_1\rbrack)(X_2 - {\mathbb E}\lbrack X_2\rbrack)\right\rbrack= {\mathbb E}\lbrack X_1X_2\rbrack - {\mathbb E}\lbrack X_1\rbrack {\mathbb E}\lbrack X_2\rbrack\).

Si la covariance est nulle alors les variables sont dites non corrélées. Nous appelons matrice des variances-covariance théoriques de ce vecteur :

\(\Sigma_X={\mathbb E}\left\lbrack (X - {\mathbb E}\lbrack X\rbrack)\sideset{^t}{}(X - {\mathbb E}\lbrack X\rbrack)\right\rbrack= \begin{pmatrix}{\mathbb V}ar\lbrack X_1\rbrack & {\mathbb C}ov\lbrack X_1, X_2\rbrack \\ {\mathbb C}ov\lbrack X_1, X_2\rbrack & {\mathbb V}ar\lbrack X_2\rbrack \end{pmatrix}\)

La covariance décrit partiellemnt la liaison entre deux v.a..

Propriété 4. Si deux v.a. \(X_1,X_2\) sont indépendantes alors leur covariance est nulle. La réciproque est fausse en général.

C’est une application directe de la Propriété 2 ci-dessus. \(\quad \square\)

Propriété 5. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\). Pour tous nombres \(a_1,\ b_1,\ a_2,\ b_2\in{\mathbb R}\), nous avons :

\({\mathbb V}ar\lbrack X_1\pm X_2\rbrack = {\mathbb V}ar\lbrack X_1\rbrack+{\mathbb V}ar\lbrack X_2\rbrack\pm 2{\mathbb C}ov\lbrack X_1,\ X_2\rbrack,\)
\({\mathbb C}ov\lbrack a_1X_1+b_1,\ a_2X_2+b_2\rbrack = a_1a_2{\mathbb C}ov\lbrack X_1,\ X_2\rbrack.\)

La linéarité de l’espérance nous donne ces égalités. \(\quad \square\)

Propriété 6. Nous avons :

La matrice \(\Sigma_X\) est symétrique c’est-à-dire que \(\sideset{^t}{}{\Sigma_X}=\Sigma_X\) .
La matrice \(\Sigma_X\) est est également semi-définie positive, c’est-à-dire que \(\forall a\in{\mathbb R}^2,\ \sideset{^t}{}a\Sigma_X a\geq 0\).
Ses valeurs propres sont réelles positives et sont données par :
\(\dfrac{1}{2}\left({\mathbb V}ar\lbrack X_1\rbrack+{\mathbb V}ar\lbrack X_2\rbrack \pm\sqrt{({\mathbb V}ar\lbrack X_1\rbrack-{\mathbb V}ar\lbrack X_2\rbrack)^2+4{\mathbb C}ov\lbrack X_1,\ X_2\rbrack^2}\right).\)
Si de plus la loi de \(X\) n’est pas dégénérée, c’est-à-dire que l’une des v.a. n’est pas une fonction affine de l’autre (\(\det(\Sigma_X)\not=0)\), alors \(\Sigma_X\) est inversible et définie positive, c’est-à-dire qu’elle satisfait en plus à : \(\sideset{^t}{}a\Sigma_X a=0\Rightarrow a=0_2\in {\mathbb R}^2\). Ses valeurs propres sont dans ce cas strictement positives.

En effet, la transposée d’une espérance est l’espérance de la transposée et \(^ta\Sigma_X a={\mathbb V}ar\lbrack\sideset{^t}{}a X\rbrack\). Il suffit alors d’utiliser des techniques classiques d’algèbre linéaire pour obtenir ces résultats.\(\quad \square\)

La covariance admet comme unités le produit de celles de \(X_1\) avec celles de \(X_2\). De plus elle peut prendre toute valeur de \({\mathbb R}\). C’est pourquoi nous introduisons le paramètre suivant :

Définition 5. Nous appelons coefficient théorique de corrélation linéaire d’un v.a. le nombre :

\(\varrho\lbrack X_1,\ X_2\rbrack=\dfrac{{\mathbb C}ov\lbrack X_1,\ X_2\rbrack}{\sigma\lbrack X_1\rbrack \sigma\lbrack X_2\rbrack}= {\mathbb E}\left\lbrack\left(\dfrac{X_1 - {\mathbb E}\lbrack X_1\rbrack}{\sigma\lbrack X_1\rbrack}\right)\left(\dfrac{X_2 - {\mathbb E}\lbrack X_2\rbrack}{\sigma\lbrack X_2\rbrack}\right)\right\rbrack.\)

Interprétation. La deuxième égalité de cette définition montre que ce coefficient est la covariance des variables centrées réduites. C’est un nombre «pur», il n’a pas d’unités.

Interprétation géométrique. La variance d’une v.a. peut être considérée comme la norme ou longeur au carré de cette v.a. dans l’espace des v.a. centrées, admettant une variance. Alors le coefficient de corrélation linéaire entre deux variables est le produit scalaire normé des vecteurs formés par ces variables ; il mesure le cosinus de l’angle formé par celles-ci. Si \(\varrho\lbrack X_1,\ X_2\rbrack=0\), elles sont non corrélées ; géométriquement elles sont orthogonales. Dans certains cas, comme pour des vecteurs de loi Normale, cette orthogonalité est équivalente à l’indépendance.

Propriété 7. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\).

Pour tous nombres \(a_1,\ b_1,\ a_2,\ b_2\in{\mathbb R}\), nous avons : \(\varrho\lbrack a_1X_1+b_1,\ a_2X_2+b_2\rbrack=sg(a_1a_2)\varrho\lbrack X_1,\ X_2\rbrack,\) où \(sg(a)\) désigne le signe de \(a\).
Nous avons \(-1\leq \varrho\lbrack X_1,\ X_2\rbrack\leq 1,\) avec l’égalité si seulement si l’une des v.a. est une fonction affine de l’autre.

Pour le voir nous appliquons la Propriété 5 ci-dessus et l’inégalité de Schwarz. \(\quad \square\)

Mais la propriété principale du coefficient de corrélation linéaire est la suivante :

Propriété 8. Soit un v.a. \(X=\sideset{^t}{}(X_1, X_2)\), alors :

\(\displaystyle\min_{a, b\in{\mathbb R}}{\mathbb E}\Big\lbrack(X_2-aX_1-b)^2\Big\rbrack={\mathbb E}\Big\lbrack(X_2-a_{\star}X_1-b_{\star})^2\Big\rbrack=\Big(1-\varrho^2\lbrack X_1,\ X_2\rbrack\Big){\mathbb V}ar\lbrack X_2\rbrack, \)

avec

\(\displaystyle a_{\star}=\varrho\lbrack X_1,\ X_2\rbrack\frac{\sigma\lbrack X_2\rbrack}{\sigma\lbrack X_1\rbrack}\quad {\it et} \quad b_{\star}={\mathbb E}\lbrack X_2\rbrack-a_{\star}{\mathbb E}\lbrack X_1\rbrack.\)

Après avoir ajouté et retranché \(b_a={\mathbb E}\lbrack X_2 \rbrack-a{\mathbb E}\lbrack X_1\rbrack\) dans le carré, un calcul direct nous donne ces résultats. \(\quad \square\)

Remarque 2. La méthode consistant à minimiser l’espérance quadratique est appelée la méthode des moindres carrés. Elle est très utilisée en Statistique, dans les problèmes d’estimation entre autres, et plus généralement en Mathématique pour des problèmes d’optimisation.

Définition 6. Nous appelons régression linéaire simple théorique de \(X_2\) en \(X_1\) la v.a. :

\(\displaystyle RL\lbrack X_2\lvert X_1\rbrack=a_{\star}X_1+b_{\star}= \varrho\lbrack X_1,\ X_2\rbrack\frac{\sigma\lbrack X_2\rbrack}{\sigma\lbrack X_1\rbrack}(X_1-{\mathbb E}\lbrack X_1\rbrack)+{\mathbb E}\lbrack X_2\rbrack.\)

Nous appelons résidu de la régression linéaire simple théorique de \(X_2\) en \(X_1\) la v.a. \(Res\lbrack X_2\vert X_1\rbrack=X_2-RL\lbrack X_2\lvert X_1\rbrack.\)

Interprétation. La v.a. \(RL\lbrack X_2\lvert X_1\rbrack\) est la fonction affine de \(X_1\) qui est la plus proche de \(X_2\) au sens des moindres carrés. Le coefficient \(\varrho^2\) représente la part de variation de \(X_2\) «expliquée» par cette fonction.

C’est Galton qui a introduit le terme de régression lors d’une étude sur la relation entre la taille d’un père et celle de son fils. Il a constaté que la taille des fils dont le père était grand avait tendance à «régresser» vers la moyenne des tailles des fils.

Propriété 9. La régression \(RL\lbrack X_2\lvert X_1\rbrack\) passe par le point \(({\mathbb E}\lbrack X_1\rbrack,\ {\mathbb E}\lbrack X_2\rbrack)\). Le signe de son coefficient directeur (ou sens de variation de \(x_2\) en fonction de \(x_1\)) est celui de \(\varrho\lbrack X_1,\ X_2\rbrack\). De plus :

\(\displaystyle{\mathbb E}\Big\lbrack RL\lbrack X_2\lvert X_1\rbrack\Big\rbrack={\mathbb E}\lbrack X_2\rbrack,\quad {\mathbb V}ar\Big\lbrack RL\lbrack X_2\lvert X_1\rbrack\Big\rbrack=\varrho^2\lbrack X_1,\ X_2\rbrack{\mathbb V}ar\lbrack X_2\rbrack,\)
\({\mathbb E}\Big\lbrack Res\lbrack X_2\lvert X_1\rbrack\Big\rbrack=0\quad {\it et}\quad {\mathbb V}ar\Big\lbrack Res\lbrack X_2\lvert X_1\rbrack\Big\rbrack= \Big(1-\varrho^2\lbrack X_1,\ X_2\rbrack\Big){\mathbb V}ar\lbrack X_2\rbrack.\)

Nous concluons cette page par l’étude d’une mesure de la dépendance en moyenne de \(X_2\) par rapport à \(X_1\). Lorsque \(X_1=x_1\) (\(x_{1,j} \) cas discret ou \(x_1\) cas continu), alors la loi conditionnelle de \(X_2\) par rapport à \(X_1\) est donnée par \( P(X_2=x_{2,j^{\prime}}\lvert X_1=x_{1,j})\) ou par \(f_{X_2\lvert X_1=x_1}(x_2)\). Cette loi admet, le cas échéant, une espérance \({\mathbb E}\lbrack X_2\lvert X_1=x_1\rbrack\), l’espérance conditionnelle de \(X_2\) sachant que \(X_1=x_1\), et une variance \({\mathbb V}ar\lbrack X_2\lvert X_1=x_1\rbrack\), la variance conditionnelle de \(X_2\) sachant que \(X_1=x_1\). Ces dernières sont des réalisations des v.a. \({\mathbb E}\lbrack X_2\lvert X_1\rbrack\) et \({\mathbb V}ar\lbrack X_2\lvert X_1\rbrack\).

Propriété 10. Nous avons les égalités :

\({\mathbb E}\Big\lbrack{\mathbb E}\lbrack X_2\lvert X_1\rbrack \Big\rbrack={\mathbb E}\lbrack X_2\rbrack\quad {\it et}\quad {\mathbb V}ar\lbrack X_2\rbrack= {\mathbb E}\Big\lbrack {\mathbb V}ar\lbrack X_2\lvert X_1\rbrack \Big\rbrack+{\mathbb V}ar\Big\lbrack {\mathbb E}\lbrack X_2\lvert X_1\rbrack \Big\rbrack.\)

Pour le voir il suffit d’effectuer un calcul direct dans chacun des deux cas. \(\quad \square\)

La deuxième égalité s’appelle équation de l’Analyse de la Variance théorique. Nous la retrouvons dans l’étude de plusieurs populations.

Définition 7. Nous appelons coefficient théorique de dépendance en moyenne ou rapport théorique de corrélation de \(X_2\) par rapport à \(X_1\) le nombre :

\(\eta^2\lbrack X_2\lvert X_1\rbrack=\dfrac{{\mathbb V}ar\Big\lbrack {\mathbb E}\lbrack X_2\lvert X_1\rbrack \Big\rbrack}{{\mathbb V}ar\lbrack X_2\rbrack}.\)

La propriété principale de ce coefficient est la suivante :

Propriété 11. Si \({\mathbb H}\) désigne l’ensemble des fonctions \(h\) telles que \(h(X_1)\) soit une v.a., alors :

\(\displaystyle\min_{h\in{\mathbb H}}{\mathbb E}\lbrack\left(X_2-h(X_1)\right)^2\rbrack={\mathbb E}\lbrack\left(X_2-{\mathbb E}\lbrack X_2\lvert X_1\rbrack\right)^2\rbrack= (1-\eta^2\lbrack X_2\lvert X_1\rbrack){\mathbb V}ar\lbrack X_2\rbrack.\)

Après avoir ajouté et retranché \({\mathbb E}\lbrack X_2\lvert X_1\rbrack\) dans le carré, nous le développons. \(\quad \square\)

Propriété 12. Nous avons \(0\leq\varrho^2\lbrack X_1, X_2\rbrack \leq \eta^2\lbrack X_2\lvert X_1\rbrack\leq 1\).

Nous avons \( \displaystyle\min_{h\in{\mathbb H}}{\mathbb E}\lbrack\left(X_2-h(X_1)\right)^2\rbrack\leq \min_{a, b\in{\mathbb R}}{\mathbb E}\Big\lbrack(X_2-aX_1-b)^2\Big\rbrack\). Nous en déduisons les résultats.\(\quad \square\)

Interprétation. La v.a. \({\mathbb E}\lbrack X_2\vert X_1\rbrack\) est la fonction de \(X_1\) qui est la plus proche de \(X_2\), au sens des moindres carrés. Le coefficient \(\eta^2\) représente la part de variation de \(X_2\) «expliquée» par cette fonction. De plus

L’égalité \(\eta^2\lbrack X_2\lvert X_1\rbrack=0(=\varrho^2\lbrack X_1, X_2\rbrack )\) alors nous observons constamment \({\mathbb E}\lbrack X_2\mid X_1\rbrack= {\mathbb E}\lbrack X_2\rbrack\) ; donc \(X_2\) est indépendante en moyenne de \(X_1\). Les variables sont non corrélées.
L’égalité \(\eta^2\lbrack X_2\mid X_1\rbrack=1\) alors nous observons constamment \(X_2={\mathbb E}\lbrack X_2\mid X_1\rbrack\) ; donc \(X_2\) est totalement dépendante en moyenne de \(X_1\).

Exemple 1. Nous considérons un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) à valeurs dans \(\lbrace -1,\ 0,\ 1\rbrace^2\) dont la loi de probabilité et les lois marginales sont données par :

\(x_{1, j}\) \ \(x_{2,j^{\prime}}\)	\(-1\)	\(0\)	\(1\)	\(P_{X_1}\)
\(-1\)	\(\dfrac{1}{9}\)	\(\dfrac{1}{6}\)	\(\dfrac{1}{18}\)	\(\dfrac{1}{3}\)
\(0\)	\(\dfrac{1}{9}\)	\(\dfrac{1}{6}\)	\(\dfrac{1}{18}\)	\(\dfrac{1}{3}\)
\(1\)	\(\dfrac{1}{18}\)	\(\dfrac{1}{6}\)	\(\dfrac{1}{9}\)	\(\dfrac{1}{3}\)
\(P_{X_2}\)	\(\dfrac{5}{18}\)	\(\dfrac{9}{18}\)	\(\dfrac{4}{18}\)	\(1\)

La loi marginale de \(X_1\) est la loi Uniforme discrète \({\cal U}(\lbrace-1\ ;\ 0\ ;\ 1\rbrace)\).Nous en déduisons :

\({\mathbb E}\lbrack X_1\rbrack=0,\quad {\mathbb V}ar\lbrack X_1\rbrack=\dfrac{2}{3},\quad {\mathbb E}\lbrack X_2\rbrack=-\dfrac{1}{18}\quad {\rm et}\quad {\mathbb V}ar\lbrack X_2\rbrack=\dfrac{161}{324}.\)

De plus :

\({\mathbb C}ov\lbrack X_1 ,\ X_2\rbrack =\dfrac{1}{9},\quad \varrho\lbrack X_1 ,\ X_2\rbrack =\sqrt{\dfrac{6}{161}}\quad {\rm et}\quad RL(X_2\mid X_1=x_1)=\dfrac{1}{6} x_1-\dfrac{1}{18}.\)

Le tableau suivant nous donne les probabilités conditionnelles \(P(X_2=x_{2, j^{\prime}}\lvert X_1=x_{1, j})\) et les espérances conditionnelles \({\mathbb E}\lbrack X_2=x_{2, j^{\prime}}\lvert X_1=x_{, j}\rbrack\) :

\(x_{1, j}\) \ \(x_{2,j^{\prime}}\)	\(-1\)	\(0\)	\(1\)	\({\mathbb E}\lbrack X_2=x_{2, j^{\prime}}\lvert X_1=x_{, j}\rbrack\)
\(-1\)	\(\dfrac{1}{3}\)	\(\dfrac{1}{2}\)	\(\dfrac{1}{6}\)	\(-\dfrac{1}{6}\)
\(0\)	\(\dfrac{1}{3}\)	\(\dfrac{1}{2}\)	\(\dfrac{1}{6}\)	\(-\dfrac{1}{6}\)
\(1\)	\(\dfrac{1}{6}\)	\(\dfrac{1}{2}\)	\(\dfrac{1}{3}\)	\(\dfrac{1}{6}\)

Nous avons :

\({\mathbb E}\lbrack {\mathbb E}\lbrack X_2\mid X_1\rbrack\rbrack={\mathbb E}\lbrack X_2\rbrack=-\dfrac{1}{18}\quad\) et \(\quad{\mathbb V}ar\lbrack {\mathbb E}\lbrack X_2\mid X_1\rbrack\rbrack=\dfrac{2}{81}\)

En conclusion nous calculons :

\(\eta^2\lbrack X_2\mid X_1\rbrack=\dfrac{8}{161}\approx 0,0497\) et \(\varrho^2\lbrack X_1 ,\ X_2\rbrack=\dfrac{6}{161}\approx 0,037\).

Ainsi nous avons construit deux v.a., fonction de \(X_1\), pour approcher \(X_2\). Mais l’approximation est de mauvaise qualité, la première «explique» \(4,97\%\) de la variation de \(X_2\) et la seconde \(3,7\%\).\(\quad \square\)

Exemple 2. Nous considérons un v.a. \(X=\sideset{^t}{}(X_1, X_2)\) de loi Normale \({\cal N}_2(\mu\ ;\ \Sigma)\), avec :

\(\mu = \pmatrix{ \mu_1\cr \mu_2}\quad {\rm et} \quad \Sigma=\pmatrix{\sigma_1^2 & \varrho\sigma_1\sigma_2\cr \varrho\sigma_1\sigma_2 & \sigma_2^2 },\)

où \(\mu_1,\ \mu_2\in{\mathbb R},\ \sigma_1,\ \sigma_2\in{\mathbb R}^{\star}_+\) et \(\varrho\in \rbrack -1\ ;\ 1\lbrack\). La densité s’écrit :

\(\displaystyle f_{{\cal N}_2(\mu\ ;\ \Sigma)}(x_1,\ x_2) =\frac{1}{2\pi\sqrt{Det(\Sigma)}}\exp\left(-\frac{1}{2}\ \sideset{^t}{}(x-\mu)\Sigma^{-1}(x-\mu)\right),\quad \sideset{^t}{}(x_1,\ x_2)\in {\mathbb R}^2.\)

En effectuant les calculs matriciels dans l’exponentielle, ce dernier terme devient :

\(\displaystyle-\frac{1}{2(1-\varrho^2)}\left(\frac{(x_1-\mu_1)^2}{\sigma_1^2}-2\varrho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}\right).\)

Nous ajoutons et retranchons \(\varrho^2\dfrac{(x_1-\mu_1)^2}{\sigma_1^2}\) ; la densité du couple se factorise alors en deux densités de lois Normales univariées :

\(\displaystyle f_{{\cal N}_2(\mu\ ;\ \Sigma)}(x_1,\ x_2) =f_{{\cal N}(\mu_1\ ;\ \sigma_1^2)}(x_1) f_{{\cal N}(\mu_2+\varrho\frac{\sigma_2}{\sigma_1}(x_1-\mu_1)\ ;\ \sigma^2_2(1-\varrho^2))}(x_2).\)

Cette factorisation nous donne \({\cal L}(X_1)={\cal N}(\mu_1 ; \sigma_1^2)\) et \({\cal L}(X_2\lvert X_1=x_1)={\cal N}\Big(\mu_2+\varrho\dfrac{\sigma_2}{\sigma_1}(x_1-\mu_1)\ ;\ \sigma_2^2(1-\varrho^2)\Big)\). Nous en déduisons :

\({\mathbb E}\lbrack X_1\rbrack=\mu_1,\quad {\mathbb V}ar\lbrack X_1\rbrack=\sigma_1^2,\quad {\mathbb E}\lbrack X_2\lvert X_1=x_1\rbrack=\mu_2+\varrho\dfrac{\sigma_2}{\sigma_1}(x_1-\mu_1),\quad {\mathbb V}ar\lbrack X_2\lvert X_1=x_1\rbrack=\sigma_2^2(1-\varrho^2).\)

Remarquons que la variance conditionnelle ne dépend pas de \(x_1\). La factorisation avec \(x_2\) d’abord nous donne de manière analogue \({\mathbb E}\lbrack X_2\rbrack=\mu_2\) et \({\mathbb V}ar\lbrack X_2\rbrack=\sigma_2^2\). Un calcul simple nous donne enfin \({\mathbb C}ov\lbrack X_1 ,\ X_2\rbrack =\varrho\sigma_1\sigma_2\) et \(\varrho\lbrack X_1 ,\ X_2\rbrack =\varrho\). Nous pouvons ainsi en conclure :

\({\mathbb E}\lbrack X_2\mid X_1=x_1\rbrack=RL(X_2\mid X_1=x_1)=\varrho\dfrac{\sigma_2}{\sigma_1}(x_1-\mu_1)+\mu_2,\quad {\rm et}\quad \eta^2=\varrho^2.\)

Ainsi pour la loi Normale bivariée nous pouvons utiliser indifféremment l’espérance conditionnelle ou la régression linéaire. La qualité approximation de \(X_2\) par \(X_1\) ne dépend que da la valeur de \(\varrho.\quad \square\)

Haut de la page.

1. Les observations et le modèle aléatoire.

1. Les observations et le modèle aléatoire.

1.9.7. Moments et dépendances d’un v.a. de dimension 2.