le logo du site

6. Estimation.

6.1.4. Estimateur exhaustif. \(\ast\)

Soit une v.a. \(X\) dont la loi dépend d’un paramètre \(\theta \in \Theta\). Nous considérons, soit ses probabilités \(f(x\ ;\ \theta)=P(X=x\ ;\ \theta)\) (cas discret), soit sa densité \(f(x\ ;\ \theta)\) (cas continu). Nous utiliserons dans les énoncés la fonction de densité, mais le cas discret est tout à fait analogue. Soit \(X_{\bullet}=(X_1,\ \cdots,\ X_n)\) un \(n\)-échantillon de \(X\) et \(T(X_{\bullet})\) une statistique que nous utilisons comme estimateur de \(\theta\). Nous notons \(g(t\ ;\ \theta)\) sa densité.

Propriété 1. Si \(L(x_{\bullet}\ ;\ \theta)\) désigne la vraisemblance de \(X\), nous avons alors, pour tous les \(x_{\bullet}\in {\mathbb R}^n,\ t=T(x_{\bullet}),\ \theta\in\Theta\), l’égalité :

\[ L(x_{\bullet}\ ;\ \theta)=g(t\ ;\ \theta)\ h(x_{\bullet}\ ;\ t\ ;\ \theta). \]

Définition 1. Un estimateur (ou plus généralement une statistique) \(T\) est un estimateur exhaustif pour le paramètre \(\theta\) si, pour tout \(n\in{\mathbb N}\) dans la factorisation précédente nous avons :

\[ L(x_{\bullet}\ ;\ \theta)=g(t\ ;\ \theta)\ h(x_{\bullet}\ ;\ t), \]

c’est-à-dire que la fonction \(h(x_{\bullet}\ ;\ t)\) ne dépend pas de \(\theta\).

Interprétation. La fonction \(h(x_{\bullet}\ ;\ t\ ;\ \theta)\) peut être interprétée comme la densité conditionnelle de \(X\) sachant \(T=t\). Cet estimateur est exhaustif si toute l’«information» sur \(\theta\) apportée par l’échantillon est contenue dans \(T(x_{\bullet})=t\).

Remarque 1. La condition énoncée dans la définition est appelée critère de factorisation de Fisher et de Neyman, des noms des auteurs qui l’ont proposé.

Exemple 1. Considérons une v.a. \(X\) dont la loi est \({\cal L}(X)={\cal P}(\lambda),\ \lambda\in\Theta={\mathbb R}_+^{\star}\), une loi de Poisson. Soit \(T(X_{\bullet})=\overline{X}\) la moyenne d’un échantillon. De la Propriété 3 de ces lois nous savons que :

\[ g(t\ ;\ \lambda)=P(T=t\ ;\ \lambda)=P\left(\sum_{i=1}^nX_i=nt\ ;\ \lambda\right)= e^{-n\lambda}\frac{(n\lambda)^{nt}}{(nt)!},\quad \forall nt\in{\mathbb N}. \]

Nous pouvons alors écrire, pour \(T(x_{\bullet})=\overline{x}=t\) :

\[ L(x_{\bullet}\ ;\ \lambda)=\prod_{i=1}^n\Big( e^{-\lambda}\frac{\lambda^{x_i}}{x_i!}\Big) = e^{-n\lambda}\frac{\lambda^{\sum_i x_i}}{\prod_i (x_i!)}=g(t\ ;\ \theta)\ h(x_{\bullet}\ ;\ t), \]

avec

\[ h(x_{\bullet}\ ;\ t)= \frac{(\sum_ix_i)!}{n^{\sum_i x_i}\prod_i (x_i!)}, \]

qui ne dépend pas de \(\lambda\). Ainsi l’estimateur \(\displaystyle T(X_{\bullet})=\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i\) est exhaustif pour \(\lambda.\) \(\quad\square\)

Exemple 2. Considérons une v.a. \(X\) dont la loi est \({\cal L}(X)={\cal U}(\rbrack 0\ ;\ \theta\lbrack),\ \theta\in\Theta={\mathbb R}_+^{\star}\), une loi Uniforme. Soit \(\displaystyle T(X_{\bullet})=X_{(n)}=\max_{i=1}^nX_i\) le maximum d’un échantillon. Des propriétés de la statistique d’ordre nous savons que :

\[ g(t\ ;\ \theta)=\frac{nt^{n-1}}{\theta^n}I_{\rbrack 0\ ;\ \theta\lbrack}(t),\quad \forall t\in{\mathbb R}. \]

Nous pouvons alors écrire, pour \(\displaystyle T(x_{\bullet})=\max_{i=1}^n{x_i}=t\) :

\[ L(x_{\bullet}\ ;\ \theta)=\prod_{i=1}^n \frac{1}{\theta} I_{\rbrack 0\ ;\ \theta\lbrack)}(x_i)= \frac{1}{\theta^n}I_{\rbrack 0\ ;\ \theta\lbrack)}(t)I_{\rbrack 0\ ;\ t\lbrack)}(\min_{i=1}^nx_i)=g(t\ ;\ \theta)\ h(x_{\bullet}\ ;\ t), \]

avec

\[ h(x_{\bullet}\ ;\ t)= \frac{1}{nt^{n-1}}I_{\rbrack 0\ ;\ t\lbrack}(\min_{i=1}^nx_i), \]

qui ne dépend pas de \(\theta\). Ainsi l’estimateur \(\displaystyle T(X_{\bullet})=\max_{i=1}^nX_i\) est exhaustif pour \(\theta. \quad\square\)

Nous concluons cette page avec un résultat dû à Darmois qui montre l’importance de la famille exponentielle.

Propriété 2. Soit une v.a. \(X\) de loi \(P_{\theta},\ \theta\in \Theta \subset{\mathbb R}^s\). Nous supposons que le support \(S_{\theta}=\lbrace x\in{\mathbb R}^p,\ f(x,\ \theta)> 0\rbrace =S\) ne dépend pas de \(\theta\). Alors, une condition nécessaire et suffisante pour que \({\cal L}(X)\) admette un estimateur exhaustif pour \(\theta\) est que

\[ \ln(f(x\ ;\ \theta))=\left(\sum_{j=1}^s a_j(\theta)T_j(x)\right)+b(\theta)+h(x), \]

c’est-à-dire que \({\cal L}(X)\) appartienne à la famille exponentielle. Si de plus pour tout \(n\)-échantillon \(x_{\bullet}\), l’application :

\[ x_1\longmapsto T(x_{\bullet})=\sum_{i=1}^n\sideset{^t}{}(T_1(x_i),\ \cdots,\ T_s(x_i)), \]

est bijective et continûment différentiable, alors \(\displaystyle T(X_{\bullet})\) est un estimateur exhaustif.

Remarque 2. Après reparamétrage, dans le cas unidimensionnel par exemple, la densité de la statistique \(T(X_{\bullet})\) est de type exponentiel. Ainsi \(\mathbb E\lbrack T^{\alpha}\rbrack\) est finie pour tout \(\alpha \in {\mathbb R}\), parce que son calcul se ramène à l’intégrale d’une densité de loi Gamma.

Exemple 3. Le deuxième exemple de loi appartenant à la famille exponentielle que nous avons traité est celui d’une loi Normale \({\cal L}(X)={\cal N}(\mu\ ;\ \sigma^2)\). Nous avons \(s=2\). Il est facile de constater que :

\[ x_{i_0}\longmapsto \sum_{i=1}^n \pmatrix{x_i\cr x_i^2}, \]

est, pour tout \(i_{i_0}\in \lbrace 1,\ \cdots,\ n\rbrace\) bijective et continûment différentiable, donc \(\displaystyle T(X_{\bullet})=\sideset{^t}{}(\sum_{i=1}^nX_i,\ \sum_{i=1}^nX_i^2)\) est un estimateur exhaustif pour \((\mu\ ;\ \sigma^2).\quad\square\)

Pour terminer voici une propriété sur les transformées d’un paramètre ou d’un estimateur et l’exhaustivité.

Propriété 3. Soit \(\theta,\ \theta_1\) deux paramètres, \(T,\ T_1\) deux estimateurs et \(h,\ h_1\) deux applications, tels que :

\[ T(x_{\bullet})=h(T_1(x_{\bullet})),\quad {\rm et}\quad \theta=h_1(\theta_1). \]

Si \(T\) est exhaustif pour \(\theta\), alors \(T\) est exhaustif pour \(\theta_1\) et \( T_1\) est exhaustif pour \(\theta\).

Haut de la page.