le logo du site

6. Estimation.

6.1.5.e. Information de Fisher : lois Normales \({\cal N}_p.\quad\ast\)

Nous donnons la matrice d'Information de Fisher en fonctions des covariances (les expressions en terme de corrélation sont difficiles à exprimer simplement). Nous avons les résultats suivants.

Soit \(X\in {\mathbb R}^p\) un v.a. de loi Normale \({\cal N}_p(\mu\ ;\ \Sigma)\), que nous supposons régulière. Nous avons les \(p+\dfrac{p(p+1)}{2}\) paramètres \(\theta=\sideset{^t}{}{(\mu,\ \Sigma)}\in\Theta={\mathbb R}^p\times{\mathbb R}_+^{\star\ p}\times {\mathbb R}^{\frac{p(p-1)}{2}}\), où nous désignons respectivement l’ensemble des \(p\) moyennes \(\lbrace \mu_1,\cdots,\ \mu_p\rbrace\), celui des \(p\) variances \(\lbrace \sigma^2_1,\cdots,\ \sigma^2_p\rbrace\) et celui des \(\dfrac{p(p-1)}{2}\) covariances \(\lbrace \sigma_{1,2},\cdots,\ \sigma_{p-1,p}\rbrace\). La densité s’écrit :

\[ f(x\ ;\ \mu,\ \Sigma)=\frac{1}{\sqrt{(2\pi)^p Det(\Sigma)}} \exp-\frac{1}{2}\sideset{^t}{}{(x-\mu)}\Sigma^{-1}(x-\mu) \]

avec \(x\in {\mathbb R}^p\) ; le support \(S_{\theta}={\mathbb R}^p=S\) ne dépend pas des paramètres. Nous constatons que les conditions (CR 0), (CR 1), (CR 2), (CR 3) et (CR 4) sont satisfaites. Les lignes, notées \(L_j,\ j=1,\cdots,\ p\), et les colonnes, notées \(C_j,\ j=1,\cdots,\ p\), de \(\Sigma\) sont étiquettées par leur indice \(j=1,\cdots,\ p\) et gardent cette étiquette, même lorsque des lignes et des colonnes sont supprimées. Nous notons \((\Sigma \ ;\ j_1,\ \cdots,\ j_k\ ;\ j_1^{\prime},\ \cdots,\ j_k^{\prime})\) la matrice obtenue à partir de \(Sigma\) en supprimant les lignes \(j_1,\ \cdots,\ j_k\) et les colonnes \(j_1^{\prime},\ \cdots,\ j_k^{\prime}\). Son déterminant est appelé un mineur de \(\Sigma\). Nous posons \(Det(\Sigma \ ;\ 1,\ \cdots,\ p\ ;\ 1,\ \cdots,\ p)=1\). Nous avons :

\[ \Sigma^{-1}=(\tau_{j, j^{\prime}},\ j,\ j^{\prime}=1,\cdots,\ p)\quad {\rm avec}\quad \tau_{j, j^{\prime}}=\frac{(-1)^{j+j^{\prime}}Det(\Sigma\ ;\ j\ ;\ j^{\prime})}{Det(\Sigma)}. \]

Nous avons le développement du déterminant de \(Det(\Sigma)\) par rapport à la ligne \(L_j\) :

\[ Det(\Sigma)=\sum_{j^{\prime}=1}^p(-1)^{j+j^{\prime}}\sigma_{j,j^{\prime}}Det(\Sigma\ ;\ j\ ;\ j^{\prime}),\quad j=1,\cdots,\ p. \]

Enfin nous notons \(rg(L_k ; (\Sigma\ ;\ j\ ;\ j^{\prime})),\ j,\ j^{\prime},\ k=1,\cdots,\ p\), avec \(k\not=j,\ j^{\prime},\ p \geq 3,\) le rang de la ligne \(L_k\) dans la matrice \((\Sigma\ ;\ j\ ;\ j^{\prime})\). Nous avons également une notation analogue pour les colonnes.

Pour calculer l’Information de Fisher, nous dérivons \(Det(\Sigma)\) et nous utilisons la fonction \(Tr(A)\), trace d’une matice carrée \(A\), qui donne la somme des éléments diagonaux de cette matrice. C’est une application linéaire et ses propriétés nous permettent d’écrire par exemple :

\[ \begin{array}{cccl} &\displaystyle\frac{\partial^2}{\partial \mu_j\partial \mu_{j^{\prime}}} ^t(x-\mu)\Sigma^{-1}(x-\mu)& = & \frac{\partial^2}{\partial \mu_j\partial \mu_{j^{\prime}}}Tr(^t(x-\mu)\Sigma^{-1}(x-\mu))\cr & & & \cr =&\displaystyle\frac{\partial^2}{\partial \mu_j\partial \mu_{j^{\prime}}}Tr(\Sigma^{-1}(x-\mu)\ ^t(x-\mu))& = & Tr( \frac{\partial^2}{\partial \mu_j\partial \mu_{j^{\prime}}}\Sigma^{-1}(x-\mu)\ ^t(x-\mu)).\cr & & & \cr = & Tr(\Sigma^{-1} \frac{\partial^2}{\partial \mu_j\partial \mu_{j_{\prime}}} (x-\mu)\ ^t(x-\mu)) & = & -2\tau_{j,j^{\prime}}. \end{array} \]

Après de longs calculs nous obtenons :

\[ \quad I_X(\mu_1,\cdots,\ \mu_p,\ \sigma^2_1,\cdots,\ \sigma_{p-1,p})=\pmatrix{ I_X(\mu_1,\cdots,\ \mu_p) & 0_{p\times \frac{p(p+1)}{2}} \cr & \cr 0_{\frac{p(p+1)}{2}\times p} & I_X(\sigma^2_1,\cdots,\ \sigma_{p-1,p}) \cr}.\quad \]

La matrice d’information de Fisher est diagonale par bloc : les paramètres \(\mu_1,\cdots,\ \mu_p\) sont orthogonaux avec les paramètres \(\sigma^2_1,\cdots,\ \sigma^2_p,\ \sigma_{1,2},\cdots,\ \sigma_{p-1,p}\). De plus :

\[ \quad I_X(\mu_1,\ \cdots,\ \mu_p)=\Sigma^{-1}.\quad \]

Pour alléger la présentation, nous donnons ci-dessous les éléments constitutifs de la matrice \(I_X(\sigma^2_1,\cdots,\ \sigma_{p-1,p})\). Pour \(j=1,\cdots,\ p,\) nous avons :

\[ \quad {\mathbb E}\left\lbrack \frac{\partial^2 \ln(f(x))}{\partial (\sigma^2_j)^2}\right\rbrack = -\frac{\tau_{j,j}^2}{2}.\quad \]

Pour \(j,\ j^{\prime}=1,\cdots,\ p\), avec \(j\not=j^{\prime},\ p \geq 2,\) nous avons :

\[ \quad {\mathbb E}\left\lbrack \frac{\partial^2 \ln(f(x))}{\partial (\sigma^2_j) \partial (\sigma^2_{j^{\prime}})}\right\rbrack = -\tau_{j,j^{\prime}}^2 +\frac{1}{2}\tau_{j,j}\tau_{j^{\prime},j^{\prime}} -\frac{Det(\Sigma\ ;\ j,\ j^{\prime}\ ;\ j,\ j^{\prime})}{2Det(\Sigma)},\quad \]

et

\[ \quad {\mathbb E}\left\lbrack \frac{\partial^2 \ln(f(x))}{\partial \sigma_{j,j^{\prime}}^2}\right\rbrack = -2\tau_{j,j}\tau_{j^{\prime},j^{\prime}}+ \frac{Det(\Sigma\ ;\ j,\ j^{\prime}\ ;\ j,\ j^{\prime})}{Det(\Sigma)}, \quad {\mathbb E}\left\lbrack \frac{\partial^2 \ln(f(x))}{\partial(\sigma^2_j)\partial \sigma_{j,j^{\prime}}}\right\rbrack = -\tau_{j,j}\tau_{j^{\prime},j^{\prime}}.\quad \]

Pour \(j,\ j^{\prime},\ j^{\prime\prime}=1,\cdots,\ p\), avec \(j,\ j^{\prime},\ j^{\prime\prime}\) différents les uns des autres et\(p \geq 3,\) nous avons :

\[ \quad {\mathbb E}\left\lbrack \frac{\partial^2 \ln(f(x))}{\partial (\sigma^2_j) \partial (\sigma_{j^{\prime}j^{\prime\prime}})}\right\rbrack = \tau_{j,j}\tau_{j^{\prime},j^{\prime\prime}} -2\tau_{j,j^{\prime}}\tau_{j,j^{\prime\prime}}-(-1)^r\frac{Det(\Sigma\ ;\ j,\ j^{\prime}\ ;\ j,\ j^{\prime\prime})}{Det(\Sigma)},\quad \]

où nous avons posé \(r=rg(L_{j^{\prime}}\;\ (\Sigma\ ;\ j\ ;\ j))+rg(C_{j^{\prime\prime}}\;\ (\Sigma\ ;\ j\ ;\ j)),\) et

\[ \quad {\mathbb E}\left\lbrack \frac{\partial^2 \ln(f(x))}{\partial \sigma_{j,j^{\prime}}\partial\sigma_{j,j^{\prime\prime}}}\right\rbrack = -2\tau_{j,j}\tau_{j^{\prime},j^{\prime\prime}}+ (-1)^{j^{\prime}+j^{\prime\prime}} \frac{Det(\Sigma\ ;\ j,\ j^{\prime}\ ;\ j,\ j^{\prime\prime})}{Det(\Sigma)}. \quad \]

Enfin, pour \(j,\ j^{\prime},\ j^{\prime\prime},\ j^{\prime\prime\prime}=1,\cdots,\ p\), avec \(j,\ j^{\prime},\ j^{\prime\prime}, j^{\prime\prime\prime}\) différents les uns des autres et \(p \geq 4,\) nous avons :

\[ {\mathbb E}\left\lbrack \frac{\partial^2 \ln(f(x))}{\partial \sigma_{j,j^{\prime}}\partial\sigma_{j^{\prime\prime},j^{\prime\prime\prime}}}\right\rbrack = -2( \tau_{j,j^{\prime\prime}}\tau_{j^{\prime},j^{\prime\prime\prime}}+\tau_{j,j^{\prime\prime\prime}}\tau_{j^{\prime},j^{\prime\prime}}-\tau_{j,j^{\prime}}\tau_{j^{\prime\prime},j^{\prime\prime\prime}})- \frac{2(-1)^{j+j^{\prime}+r} Det(\Sigma\ ;\ j,\ j^{\prime\prime}\ ;\ j^{\prime},\ j^{\prime\prime\prime})}{Det(\Sigma)}, \]

où nous avons posé \(r=rg(L_{j^{\prime\prime}}\;\ (\Sigma\ ;\ j\ ;\ j^{\prime}))+rg(C_{j^{\prime\prime\prime}}\;\ (\Sigma\ ;\ j\ ;\ j^{\prime})).\) Ceci complète la description de la matrice \(I_X(\sigma^2_1,\cdots,\ \sigma_{p-1,p})\). \(\quad\square\)

Haut de la page.