Information de Fisher.

6.1.5.a. Information de Fisher : Définition - Propriétés. \(\ast\)

Considérons une v.a. \(X\) dont la loi dépend de \(s\) paramètres notés comme un vecteur \(\theta \in \Theta\subset {\mathbb R}^s\). Nous considérons soit ses probabilités \(f(x\ ;\ \theta)=P(X=x\ ;\ \theta)\) (cas discret), soit sa densité \(f(x\ ;\ \theta)\) (cas continu). Nous utiliserons dans les énoncés la fonction de densité, mais le cas discret est tout à fait analogue. Nous étudions d’abord le cas \(s=1\), puis le cas général. La notion suivante a été introduite par Fisher.

Définition 1. Nous appelons quantité d’information de Fisher apportée par la v.a. \(X\), ou par une observation \(x\) de \(X\), sur le paramètre \(\theta\), la quantité, chaque fois qu’elle a un sens :

\[ I_X(\theta)={\mathbb E}\left\lbrack\left(\frac{\partial \ln(f(X\ ;\ \theta))}{\partial\theta}\right)^2\right\rbrack. \]

Interprétation. Il difficile de donner un aperçu concret de cette notion. Mais elle est liée à l’inverse de la variance d’estimateurs (cf. inégalité de Cramér-Rao), et dans ce contexte il est plus facile de la comprendre.

Propriété 1. La quantité d’information de Fisher est positive.

Dans les pages Lois discrètes, Lois \({\cal N}_1\) et \(Log-{\cal N}\), Lois \({\cal N}_2\) Lois \({\cal N}_p\) Autres lois continues - I et Autres lois continues - II nous donnons les quantités d’information de Fisher pour les lois usuelles.

Conditions (CR). Les conditions suffisantes sous lesquelles \(I_X(\theta)\) existe sont les suivantes.

- (CR 1). L’ensemble des lois \(\lbrace P_{\theta},\ \theta\in \Theta\rbrace\) est dominé. Nous avons admis implicitement cette condition en considérant l’existence de densités. De plus le modèle est identifiable, c’est-à-dire :

\[ \theta_1\not=\theta_2 \Longrightarrow P_{\theta_1}\not= P_{\theta_2},\quad \forall\theta_1,\theta_2\in \Theta. \]

- (CR 2). L’ensemble \(\Theta\) est un ouvert de \({\mathbb R}^s\).

- (CR 3). Pour presque tout \(x\), l’application \(\theta \longmapsto f(x\ ;\ \theta)\) est différentiable sur \(\Theta\) et nous pouvons dériver sous le signe \(\int\), c’est-à-dire que :

\[ \forall A\in{\cal B},\quad\forall j\in\lbrace 1,\ \cdots,\ s\rbrace,\quad \frac{\partial}{\partial\theta_j}\int_A f(x\ ;\ \theta)dx =\int_A \frac{\partial f(x\ ;\ \theta)}{\partial\theta_j} dx. \]

De plus il faut s’assurer de l’existence du moment d’ordre deux définissant \(I_X(\theta)\). Nous désignerons l’ensemble des conditions par (CR).

Définition 2. Dans le cas multivarié \(s > 1\), la matrice d’information de Fisher s’écrit, lorsqu’elle existe :

\[ \begin{array}{ccl} I_X(\theta)& = & \left({\mathbb E}\left\lbrack\displaystyle\frac{\partial \ln(f(X\ ;\ \theta))}{\partial\theta_{j_1}}\frac{\partial \ln(f(X\ ;\ \theta))} {\partial\theta_{j_2}}\right \rbrack\ ;\ j_1,\ j_2 =1,\ \cdots,s\right),\cr & &\cr & = & {\mathbb E}\left\lbrack \nabla_{\theta} \ln(f(X\ ;\ \theta))\sideset{^t}{}{\nabla_{\theta}} \ln(f(X\ ;\ \theta))\right\rbrack, \end{array} \]

où \(\sideset{^t}{}{\nabla_{\theta}}\) désigne l’opérateur \(\displaystyle(\frac{\partial}{\partial\theta_1},\ \cdots,\ \frac{\partial}{\partial\theta_s}).\) Dans ce cas la positivité s’exprime par le fait que \(I_X(\theta)\) est définie positive, c’est-à-dire que :

\[ \forall a\in{\mathbb R}^s,\quad \sideset{^t}{}{a}I_X(\theta)a\geq 0. \]

Remarque. Si \(X_{\bullet}\) est un \(n-\)échantillon, avec la vraisemblance associée \(L(x_{\bullet}\ ;\ \theta)\), et \(T(x_{\bullet})\) une statistique de densité \(g(t\ ;\ \theta)\), alors sous des conditions (CR) adaptées, nous avons les quantités d’information :

\[ I_{X_{\bullet}}(\theta)={\mathbb E}\left\lbrack\left(\frac{\partial \ln(L(X_{\bullet}\ ;\ \theta))}{\partial\theta}\right)^2\right\rbrack\quad {\rm et}\quad I_T(\theta)={\mathbb E}\left\lbrack\left(\frac{\partial \ln(g(X\ ;\ \theta))}{\partial\theta}\right)^2\right\rbrack, \]

apportées par l’échantillon \(X_{\bullet}\) et par la statistique \(T\) sur le paramètre \(\theta\).

Nous considérons une conditions de plus :

- (CR 0). Le support \(S_{\theta}=\lbrace x\ ;\ f(x\ ;\ \theta)>0\rbrace=S\) ne dépend pas de \(\theta\).

Propriété 2. Si toutes les conditions (CR) sont satisfaites alors :

\[ {\mathbb E}\left\lbrack\frac{\partial \ln(f(X\ ;\ \theta))}{\partial\theta}\right\rbrack=0\quad {\rm et}\quad I_X(\theta)= \sigma^2\left\lbrack\frac{\partial \ln(f(X\ ;\ \theta))}{\partial\theta}\right\rbrack. \]

De plus \(I_{X_{\bullet}}(\theta)=nI_X(\theta)\) (propriété d’additivité).

Contre-exemple. Considérons une v.a. \(X\) dont la loi est \({\cal L}(X)={\cal U}(\rbrack 0\ ;\ \theta\lbrack),\ \theta\in\Theta={\mathbb R}_+^{\star}\), une loi Uniforme. Il est clair que la condition (CR 0) n’est pas vérifiée. Un calcul simple nous donne :

\[ \frac{\partial \ln(f(x\ ;\ \theta))}{\partial\theta}=-\frac{1}{\theta}I_{\rbrack 0\ ;\ \theta\lbrack}(x)\quad {\rm et}\quad \frac{\partial \ln(L(x_{\bullet}\ ;\ \theta))}{\partial\theta}=-\frac{n}{\theta}\prod_{i=1}^nI_{\rbrack 0\ ;\ \theta\lbrack}(x_i). \]

En élevant au carré et en prenant la moyenne théorique nous obtenons :

\[ I_{X_{\bullet}}(\theta)=\frac{n^2}{\theta^2}\not=nI_X(\theta)=\frac{n}{\theta^2}. \quad \square \]

Nous considérons une condition de plus :

- (CR 4). Pour presque tout \(x\) l’application \(\theta \longmapsto f(x\ ;\ \theta)\) est deux fois différentiable sur \(\Theta\) et nous pouvons dériver sous le signe \(\int\), c’est-à-dire que :

\[ \forall A\in{\cal B},\quad\forall j_1,\ j_2\in\lbrace 1,\ \cdots,\ s\rbrace,\quad \frac{\partial^2}{\partial\theta_{j_1}\partial\theta_{j_2}}\int_A f(x\ ;\ \theta)dx =\int_A \frac{\partial^2 f(x\ ;\ \theta)}{\partial\theta_{j_1}\partial\theta_{j_2}} dx. \]

Propriété 3. Si l’ensemble des conditions (CR 0), (CR 1), (CR 2), (CR 3) et (CR 4) est satisfait alors :

\[ I_X(\theta)=-{\mathbb E}\left\lbrack\frac{\partial^2 \ln(f(X\ ;\ \theta))}{\partial\theta^2}\right\rbrack. \]

Dans le cas multivarié nous avons :

\[ I_X(\theta)=-\left({\mathbb E}\left\lbrack\frac{\partial^2 \ln(f(X\ ;\ \theta))}{\partial\theta_{j_1}\partial\theta_{j_2}}\right \rbrack\ ;\ j_1,\ j_2 =1,\ \cdots,s\right). \]

C’est cette expression qui est le plus souvent utilisée, lorsque cela est possible, dans le calcul pratique d’une quantité d’information de Fisher.

Nous concluons cette page par une propriété qui concerne les estimateurs exhaustifs. Elle est fondée sur la factorisation :

\[ L(x_{\bullet}\ ;\ \theta)=g(t\ ;\ \theta)\ h(x_{\bullet}\ ;\ t\ ;\ \theta). \]

Propriété 4. Soit \(T\) un estimateur. Si l’ensemble des conditions (CR 0), (CR 1), (CR 2), (CR 3) et (CR 4) est satisfait alors :

\[ I_{X_{\bullet}}(\theta)=I_T(\theta)+I_{X_{\bullet}\mid T}(\theta). \]

Nous en déduisons l'inégalité \(I_{X_{\bullet}}(\theta)\geq I_T(\theta)\), avec l’égalité si et seulement si \(T\) est exhaustif.

Cette propriété permet de comprendre le terme «information» et de voir le rôle important des estimateurs exhaustifs.

Haut de la page.

6. Estimation.

6. Estimation.

6.1.5.a. Information de Fisher : Définition - Propriétés. \(\ast\)