le logo du site

1. Les observations.

1.9.8. Moments d’un v.a. de dimension p.

Toutes les notions introduites dans l’étude des moments d’un vecteur de dimension \(2\) sont généralisées et adaptées au cas de dimensions supérieures. Nous présentons les plus usuelles. Soit un v.a. \(X=\sideset{^t}{}(X_1, \cdots, X_p)\) à valeurs dans \({\mathbb R}^p\). Sauf mention contraire nous supposerons que toutes les espérances mentionnées dans cette page existent. Nous écrivons les espérances dans le cas d’une lois continue ; le cas discret est tout à fait analogue.

Définition 1. Nous appelons espérance mathématique, ou encore moyenne théorique de \(X\) le vecteur :

\[ {\mathbb E}\lbrack X\rbrack=\sideset{^t}{}( {\mathbb E}\lbrack X_1\rbrack, \cdots, {\mathbb E}\lbrack X_p\rbrack), \]

avec, pour tout \(j\in\lbrace 1, \cdots, p\rbrace\),

\[ {\mathbb E}\lbrack X_j,\rbrack=\int_{{\mathbb R}^p} t_jf_X(t_1, \cdots, t_p) dt_1\cdots dt_p=\int_{\mathbb R}t_jf_{X_j}(t_j)dt_j,. \]

où \(f_X\) (resp. \(f_{X_j}\)) désigne la densité (resp. densité marginale) de \(X\) (resp. de la composante \(X_j\)). Nous appelons matrice des variances-covariances théoriques de ce vecteur la matrice :

\[ \Sigma_X={\mathbb E}\left\lbrack (X - {\mathbb E}\lbrack X\rbrack)\sideset{^t}{}(X - {\mathbb E}\lbrack X\rbrack)\right\rbrack= \] \[ =\pmatrix{ {\mathbb V}ar\lbrack X_1\rbrack & {\mathbb C}ov\lbrack X_1,\ X_2\rbrack & \cdots & {\mathbb C}ov\lbrack X_1,\ X_p\rbrack \cr {\mathbb C}ov\lbrack X_1,\ X_2\rbrack &{\mathbb V}ar\lbrack X_2\rbrack & \cdots &{\mathbb C}ov\lbrack X_2,\ X_p\rbrack \cr \vdots &\vdots & \ddots & \vdots \cr {\mathbb C}ov\lbrack X_1,\ X_p\rbrack &{\mathbb C}ov\lbrack X_2,\ X_p\rbrack & \cdots &{\mathbb V}ar\lbrack X_p\rbrack\cr } \]

où :

\[ {\mathbb V}ar\lbrack X_j\rbrack={\mathbb E}\left\lbrack (X_j - {\mathbb E}\lbrack X_j\rbrack)^2\right\rbrack=\int_{{\mathbb R}^p} (t_j-{\mathbb E}\lbrack X_j\rbrack)^2f_X(t_1, \cdots, t_p) dt_1\cdots dt_p= \] \[ =\int_{{\mathbb R}} (t_j-{\mathbb E}\lbrack X_j\rbrack)^2f_{X_j}(t_j) dt_j, \] et \[ {\mathbb C}ov\lbrack X_{j_1},\ X_{j_2}\rbrack={\mathbb E}\Big\lbrack(X_{j_1} - {\mathbb E}\lbrack X_{j_1}\rbrack)(X_{j_2} - {\mathbb E}\lbrack X_{j_2}\rbrack)\Big\rbrack= \] \[ =\int_{{\mathbb R}^p} (t_{j_1}-{\mathbb E}\lbrack X_{j_1}\rbrack)(t_{j_2}-{\mathbb E}\lbrack X_{j_2}\rbrack)f_X(t_1, \cdots, t_p) dt_1\cdots dt_p= \] \[ =\int_{{\mathbb R}^2}(t_{j_1}-{\mathbb E}\lbrack X_{j_1}\rbrack)(t_{j_2}-{\mathbb E}\lbrack X_{j_2}\rbrack)f_{(X_{j_1},X_{j_2})}(t_{j_1}, t_{j_2}) dt_{j_1}dt_{j_2}. \]

Nous avons exprimé les moments précédents soit avec la densité du v.a. \(X\), soit avec les densités marginales de la v.a. ou du couple de v.a. correspondantes. Nous retrouvons ainsi la variance théorique d’une v.a. et la covariance théorique entre deux v.a.. Comme pour la dimension \(2\) nous avons le résultat suivant :

Propriété 1. La matrice \(\Sigma_X\) est symétrique et semi-définie positive ; ses valeurs propres sont réelles positives. Si de plus la loi de \(X\) n’est pas dégénérée, c’est-à-dire que l’une des composantes n’est pas une fonction affine d’un certains nombre d’autres, alors \(\Sigma_X\) est inversible et définie positive. Ses valeurs propres sont dans ce cas strictement positives.

En effet, la transposée d’une espérance est l’espérance de la transposée et \(^ta\Sigma_X a={\mathbb V}ar\lbrack\sideset{^t}{}a X\rbrack\). Il suffit alors d’utiliser des techniques classiques d’algèbre linéaire pour obtenir ces résultats.\(\quad \square\)

Définition 2. Nous appelons fonction génératrice des moments d’un v.a. \(X\) la fonction définie, pour les \(s=(s_1,\cdots, s_p)\in{\mathbb R}^p\) dans un voisinage ouvert de \(0_p\) pour lesquels elle existe, par :

\[ g_X(s)={\mathbb E}\lbrack\exp(\sideset{^t}{}sX)\rbrack. \]

Nous appelons fonction caractéristique d’un v.a. \(X\) la fonction définie par :

\[ \forall s=(s_1,\cdots, s_p)\in{\mathbb R}^p,\qquad c_X(s)={\mathbb E}\lbrack\exp(i\sideset{^t}{}sX)\rbrack, \]

où \(i^2=-1\).

Remarque 1. La fonction génératrice des moments d’un v.a., lorsqu’elle existe, détermine sa loi.

Propriété 2. Soit un v.a. \(X\) admettant une fonction génératrice des moments \(g_X(s_1,\cdots, s_p)\) et \(c_X(s_1,\cdots, s_p)\) sa fonction caractéristique. Alors les moments de tous ordres existent et :

\[ {\mathbb E}\lbrack X_{j_1}^{k_1}X_{j_2}^{k_2}\cdots X_{j_m}^{k_m}\rbrack=\int_{{\mathbb R}^p} t_{j_1}^{k_1}t_{j_2}^{k_2}\cdots t_{j_m}^{k_m}f_X(t_1, \cdots, t_p) dt_1\cdots dt_p= \] \[ =\int_{{\mathbb R}^m} t_{j_1}^{k_1}t_{j_2}^{k_2}\cdots t_{j_m}^{k_m}f_{(X_{j_1},X_{j_2},\cdots,X_{j_m})}(t_{j_1},t_{j_2} \cdots, t_{j_m}) dt_{j_1}dt_{j_2}\cdots dt_{j_m}= \] \[ =\frac{\partial^{k_1}}{\partial s_{j_1}^{k_1}}\frac{\partial^{k_2}}{\partial s_{j_2}^{k_2}}\cdots \frac{\partial^{k_m}}{\partial s_{j_m}^{k_m}}g_X(0_p)= \frac{1}{i^{k_1+k_2+\cdots+k_m}}\frac{\partial^{k_1}}{\partial s_{j_1}^{k_1}}\frac{\partial^{k_2}}{\partial s_{j_2}^{k_2}}\cdots \frac{\partial^{k_m}}{\partial s_{j_m}^{k_m}}c_X(0_p), \]

pour tous les nombres \(m,\ k_1,\cdots, k_m\in{\mathbb N}\) et \( j_1,\cdots, j_m\in\lbrace 1,\cdots, p\rbrace\).

Ce résultat s’obtient par dérivations sous l’intégrale. \(\quad \square\)

Nous étudions à présent la relation de l’une des composantes d’un v.a., par exemple \(X_{j_0}\), avec un certain nombre d’autres composantes, par exemple \(X_{j_1},\cdots,\ X_{j_k}\), avec \(j_0,\ j_1,\cdots,\ j_k\in\lbrace 1,\cdots, p\rbrace\), indices différents les uns des autres. Pour faciliter l’écriture des expressions, nous notons \(X^{(k)}= \sideset{^t}{}(X_{j_1},\cdots,\ X_{j_k})\) et \({\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack=\sideset{^t}{}({\mathbb C}ov\lbrack X_{j_0},\ X_{j_1}\rbrack,\cdots,\ {\mathbb C}ov\lbrack X_{j_0},\ X_{j_k}\rbrack)\). Nous supposons que \(\Sigma_{X^{(k)}}^{-1}\) existe.

Propriété 3. Nous avons le résultat :

\[ \min_{a\in{\mathbb R}^k,b\in{\mathbb R}}{\mathbb E}\lbrack (X_{j_0}-\sideset{^t}{}aX^{(k)}-b)^2\rbrack={\mathbb E}\lbrack (X_{j_0}-\sideset{^t}{}{a_{\star}}X^{(k)}-b_{\star})^2\rbrack= \] \[ =\Big({\mathbb V}ar\lbrack X_{j_0}\rbrack-\sideset{^t}{}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\ \Sigma_{X^{(k)}}^{-1}\ {\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\Big), \]

avec

\[ a_{\star}=\Sigma_{X^{(k)}}^{-1}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\quad {\it et}\quad b_{\star}={\mathbb E}\lbrack X_{j_0}\rbrack-\sideset{^t}{}{a_{\star}}{\mathbb E}\lbrack X^{(k)}\rbrack. \]

Pour le voir il suffit d’ajouter et de retrancher \({\mathbb E}\lbrack X_{j_0}\rbrack-\sideset{^t}{}a{\mathbb E}\lbrack X^{(k)}\rbrack\) dans le carré, d’effectuer ce dernier, puis de montrer que le minimum est atteint pour \(a_{\star}\) et \(b_{\star}\). \(\quad \square\)

Définition 3. Nous appelons régression linéaire multiple théorique de \(X_{j_0}\) par rapport à \(X^{(k)}\) la v.a. :

\[ RL(X_{j_0}\mid X^{(k)})=\sideset{^t}{}{a_{\star}}X^{(k)}+b_{\star}=\sideset{^t}{}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\ \Sigma_{X^{(k)}}^{-1}\Big(X^{(k)}-{\mathbb E}\lbrack X^{(k)}\rbrack\Big) +{\mathbb E}\lbrack X_{j_0}\rbrack. \]

Nous appelons coefficient théorique de corrélation linéaire multiple de \(X_{j_0}\) par rapport à \(X^{(k)}\) le carré du coefficient de corrélation linéaire entre \(X_{j_0}\) et la régression linéaire multiple \(RL(X_{j_0}\mid X^{(k)})\) ; nous le notons :

\[ \varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack=\varrho^2\lbrack X_{j_0},\ RL(X_{j_0}\mid X^{(k)})\rbrack. \]

Nous appelons résidu de la régression linéaire multiple théorique de \(X_{j_0}\) par rapport à \(X^{(k)}\) la v.a. \(Res(X_{j_0}\mid X^{(k)})=X_{j_0}-RL(X_{j_0}\mid X^{(k)}).\)

Propriété 4. Nous avons les résultats :

\[ \varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack=\frac{\sideset{^t}{}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\ \Sigma_{X^{(k)}}^{-1}\ {\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack}{{\mathbb V}ar\lbrack X_{j_0}\rbrack}, \] \[ {\mathbb E}\lbrack RL(X_{j_0}\mid X^{(k)})\rbrack={\mathbb E}\lbrack X_{j_0}\rbrack,\quad {\mathbb E}\lbrack Res(X_{j_0}\mid X^{(k)})\rbrack=0, \] \[ {\mathbb V}ar\lbrack RL(X_{j_0}\mid X^{(k)})\rbrack=\sideset{^t}{}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\ \Sigma_{X^{(k)}}^{-1}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack= {\mathbb V}ar\lbrack X_{j_0}\rbrack\ \varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack, \] \[ {\mathbb V}ar\lbrack Res(X_{j_0}\mid X^{(k)})\rbrack={\mathbb V}ar\lbrack X_{j_0}\rbrack\left(1- \varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack\right). \]

Ces égalités s’obtiennent par calcul direct à partir des définitions de \(\varrho^2_M, RL\) et \(Res\). \(\quad \square\)

Interprétation. Le coefficient \(\varrho^2_M\) représente la part de variation de \(X_{j_0}\) «expliquée» par la régression linéaire multiple \(RL(X_{j_0}\mid X^{(k)})\). Celle-ci est la combinaison linéaire des composantes de \(X^{(k)}\) qui est la plus proche de \(X_{j_0}\), au sens des moindres carrés dans l’espace des v.a. centrés, de carré intégrables. C’est la projection orthogonale de \(X_{j_0}\) dans le sous-espace engendré par \(X^{(k)}\).

Propriété 5. Nous avons : \(0\leq \varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack\leq 1\).

- si \(\varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack=0\), alors \(X_{j_0}\) est non corrélée avec chacune des composantes de \(X_{j_0}\).

- si \(\varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack=1\), alors nous observons constamment :

\[ X_{j_0}=\sideset{^t}{}{a_{\star}}X^{(k)}+b_{\star}=\sideset{^t}{}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\ \Sigma_{X^{(k)}}^{-1}\Big(X^{(k)}-{\mathbb E}\lbrack X^{(k)}\rbrack\Big) +{\mathbb E}\lbrack X_{j_0}\rbrack \]

Nous utilisons la définition de \(\varrho^2_M\) et le fait que \(\Sigma_{X^{(k)}}^{-1}\) soit aussi définie positive. \(\quad \square\)

Remarque 2. La non corrélation implique que \(X_{j_0}\) est orthogonale au sous-espace engendré par \(X^{(k)}\). Dans certains cas, comme le cas Normal, nous avons alors l’indépendance de \(X_{j_0}\) et de \(X^{(k)}\). Lorsque \(k=1\) alors \(\varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack=\varrho^2\lbrack X_{j_0},\ X_{j_1}\rbrack\).

Nous abordons, comme dans le cas de deux v.a., un coefficient plus général. La loi \({\cal L}(X_{j_0}\mid X^{(k)}=x^{(k)})\) est définie par :

\[ f_{(X_{j_0}\mid X^{(k)}=x^{(k)})}(x_{j_0})=\frac{f_{(X_{j_0},X^{(k)})}(x_{j_0},\ x^{(k)})}{f_{X^{(k)}}(x^{(k)})}. \]

Nous en déduisons les v.a. \({\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack\) et \({\mathbb V}ar\lbrack X_{j_0}\mid X^{(k)}\rbrack\). Elles satisfont aux égalités suivantes :

\[ {\mathbb E}\Big\lbrack {\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack \Big\rbrack={\mathbb E}\lbrack X_{j_0}\rbrack\quad {\rm et}\quad {\mathbb V}ar\lbrack X_{j_0}\rbrack= {\mathbb E}\Big\lbrack {\mathbb V}ar\lbrack X_{j_0}\mid X^{(k)}\rbrack \Big\rbrack+{\mathbb V}ar\Big\lbrack {\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack \Big\rbrack. \]

Nous retrouvons l’équation de l’Analyse de la Variance théorique. Nous pouvons définir à présent :

Définition 4. Nous appelons coefficient théorique de dépendance multiple en moyenne ou rapport théorique de corrélation multiple de \(X_{j_0}\) par rapport à \(X^{(k)}\) le nombre :

\[ \eta^2\lbrack X_{j_0}\mid X^{(k)}\rbrack=\frac{{\mathbb V}ar\Big\lbrack {\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack \Big\rbrack}{{\mathbb V}ar\lbrack X_{j_0}\rbrack}. \]

La propriété principale de ce coefficient est la suivante :

Propriété 6. Si \({\mathbb H}\) désigne l’ensemble des fonctions \(h\) telles que \(h(X^{(k)})\) soit une v.a., alors :

\[ \min_{h\in{\mathbb H}}{\mathbb E}\Big\lbrack(X_{j_0}-h(X^{(k)}))^2\Big\rbrack={\mathbb E}\Big\lbrack(X_{j_0}-{\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack)^2\Big\rbrack= {\mathbb V}ar\lbrack X_{j_0}\rbrack\ \left(1-\eta^2\lbrack X_{j_0}\mid X^{(k)}\rbrack\right). \]

Après avoir ajouté et retranché \({\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack\) dans le carré, nous le développons. \(\quad \square\)

Interprétation. La v.a. \({\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack\) est la fonction de \(X^{(k)}\) qui est la plus proche de \(X_{j_0}\), au sens des moindres carrés. Le coefficient \(\eta^2\) représente la part de variation de \(X_{j_0}\) «expliquée» par cette fonction.

Propriété 7. Nous avons \(0\leq \eta^2\lbrack X_{j_0}\mid X^{(k)}\rbrack\leq 1\).

L’égalité \(\eta^2\lbrack X_{j_0}\mid X^{(k)}\rbrack=0\) est équivalente à l’observation constante de \({\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack={\mathbb E}\lbrack X_{j_0}\rbrack\) ; nous dirons alors que \(X_{j_0}\) est indépendante en moyenne de \(X^{(k)}\). Dans ce cas nous avons également la non corrélation des variables.

L’égalité \(\eta^2\lbrack X_{j_0}\mid X^{(k)}\rbrack=1\) est équivalente à l’observation constante de \(X_{j_0}={\mathbb E}\lbrack X_{j_0}\mid X^{(k)}\rbrack\) ; nous dirons alors que \(X_{j_0}\) est totalement dépendante en moyenne de \(X^{(k)}\). Nous avons naturellement la relation :

\[ \varrho^2_M\lbrack X_{j_0}\mid X^{(k)}\rbrack\leq \eta^2\lbrack X_{j_0}\mid X^{(k)}\rbrack. \]

Ces affirmations sont des conséquences directes des Propriétés \(4\) et \(6\). \(\quad \square\)

Soit les indices \(j_0,\ j_{00},\ j_1,\cdots,\ j_k\in \lbrace 1,\cdots,\ p\rbrace\) différents les uns des autres. Nous considérons les régressions linéaires \(RL(X_{j_0}\mid X^{(k)})\) et \(RL(X_{j_{00}}\mid X^{(k)})\)

Définition 5. Nous appelons coefficient théorique de corrélation linéaire partielle de \(X_{j_0}\) et \(X_{j_{00}}\) par rapport à \(X^{(k)}\) le nombre :

\[ \varrho_{Par}\lbrack X_{j_0},\ X_{j_{00}}\mid X^{(k)}\rbrack=\varrho\Big\lbrack Res(X_{j_0}\mid X^{(k)}),\ Res(X_{j_{00}}\mid X^{(k)})\Big \rbrack. \]

Interprétation. Le coefficient de corrélation partielle met en évidence l’éventuelle relation linéaire entre les v.a. \(X_{j_0}\) et\(X_{j_{00}}\), après avoir ôté de chacune d’elles toute variation expliquée par le v.a. \(X^{(k)}\).

Propriété 8. Nous avons l’égalité :

\[ \varrho_{Par}\lbrack X_{j_0},\ X_{j_{00}}\mid X^{(k)}\rbrack=\frac{{\mathbb C}ov\lbrack X_{j_0},\ X_{j_{00}}\rbrack - \sideset{^t}{}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\ \Sigma_{X^{(k)}}^{-1}{\mathbb C}ov\lbrack X_{j_{00}},\ X^{(k)}\rbrack} {\sqrt{\left({\mathbb V}ar\lbrack X_{j_0}\rbrack-\sideset{^t}{}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\ \Sigma_{X^{(k)}}^{-1}{\mathbb C}ov\lbrack X_{j_0},\ X^{(k)}\rbrack\right) \left({\mathbb V}ar\lbrack X_{j_{00}}\rbrack-\sideset{^t}{}{\mathbb C}ov\lbrack X_{j_{00}},\ X^{(k)}\rbrack\ \Sigma_{X^{(k)}}^{-1}{\mathbb C}ov\lbrack X_{j_{00}},\ X^{(k)}\rbrack\right)}} \]

En particulier, lorsque \(k=1\), l’expression précédente devient :

\[ \varrho_{Par}\lbrack X_{j_0},\ X_{j_{00}}\mid X_{j_1}\rbrack=\frac{\varrho\lbrack X_{j_0},\ X_{j_{00}}\rbrack-\varrho\lbrack X_{j_0},\ X_{j_1}\rbrack\varrho\lbrack X_{j_{00}},\ X_{j_1}\rbrack } {\sqrt{\left(1-\varrho^2\lbrack X_{j_0},\ X_{j_1}\rbrack\right)\left(1-\varrho^2\lbrack X_{j_{00}},\ X_{j_1}\rbrack\right)}} \]

La Propriété \(4\) et un calcul direct nous donne ces résultats. \(\quad \square\)

Haut de la page.