Dans cette page nous présentons une méthode qui, sous certaines conditions, permet de diminuer la variance d’un estimateur. Ce résultat est connu sous le nom de théorème de Rao-Blackwell.
Soit une v.a. \(X\) dont la loi dépend d’un paramètre \(\theta \in \Theta\). Soit \(X_{\bullet}=(X_1,\ \cdots,\ X_n)\) un \(n\)-échantillon de \(X\).
Propriété 1. Soit \(T(X_{\bullet})\) une statistique exhaustive pour \(\theta\) et \(U=U(X_{\bullet})\) un estimateur de \(\theta\) tel que \({\mathbb E}_{\theta}\left\lbrack U^2\right\rbrack < +\infty\). Alors l’estimateur \(V={\mathbb E}_{\theta}\left\lbrack U\mid T\right\rbrack\), espérance conditionnelle de \(U\) par rapport à \(T\), est de même biais que \(U\), mais admet une variance inférieure :
\[ {\mathbb V}ar_{\theta}\left\lbrack V\right\rbrack\leq {\mathbb V}ar_{\theta}\left\lbrack U\right\rbrack,\quad \forall\theta \in \Theta, \]Remarque 1. Les espérances conditionnelles se calculent à partir des lois conditionnelles. Nous en donnons un exemple ci-dessous. Comme \(V={\mathbb E}_{\theta}\left\lbrack U\mid T\right\rbrack\) dépend de \(T\), conditionner une deuxième fois par \(T\) ne permet pas de diminuer encore la variance.
Remarque 2. La preuve de l’inégalité repose sur les propriétés suivantes de l’espérance conditionnelle :
\[ {\mathbb E}_{\theta}\left\lbrack V\right\rbrack= {\mathbb E}_{\theta}\left\lbrack {\mathbb E}_{\theta}\left\lbrack U\mid T\right\rbrack\right\rbrack= {\mathbb E}_{\theta}\left\lbrack U\right\rbrack,\quad \forall\theta \in \Theta, \]qui nous donne un biais identique pour les deux estimateurs, et sur l’inégalité de Jensen, qui implique :
\[ {\mathbb E}_{\theta}\left\lbrack V^2\right\rbrack= {\mathbb E}_{\theta}\left\lbrack ({\mathbb E}_{\theta}\left\lbrack U\mid T\right\rbrack)^2\right\rbrack\leq {\mathbb E}_{\theta}\left\lbrack {\mathbb E}_{\theta}\left\lbrack U^2\mid T\right\rbrack\right\rbrack={\mathbb E}_{\theta}\left\lbrack U^2\right\rbrack,\quad \forall\theta \in \Theta. \]Nous en déduisons le résultat annoncé. \(\quad\square\)
Remarque 3. Il est possible, avec la même démarche, de généraliser le critère de la variance à une fonction de risque définie à partir d’une fonction de perte convexe.
Exemple 1. Nous reprenons l’Exemple 1 d’estimateur convergent et nous allons justifier le choix des estimateurs. Il s’agit d’une v.a. \(X\) dont la loi est \({\cal L}(X)={\cal P}(\lambda),\ \lambda\in{\mathbb R}_+^{\star}\), une loi de Poisson. Soit \(T(X_{\bullet})=\sum_{i=1}^nX_i\) la somme d’un échantillon. De la Propriété 3 de ces lois nous savons que \({\cal L}(T)={\cal P}(n\lambda)\) ; de plus \(T\) est exhaustif pour \(\lambda\). Nous posons \(\theta=\exp(-\lambda)\) ou, ce qui est équivalent, \(\lambda=-\ln(\theta)\). De la Propriété 3 des estimateurs exhaustifs, nous savons que \(T\) est aussi exhaustif pour \(\theta\). Comme \(P(X=0)=\theta\), il est naturel de considérer :
\[ Y_i=\cases{ 1 \quad {\rm si} &\( X_i=0, \)\cr 0 \quad {\rm si} &\( X_i \geq 1.\) } \]Il est clair que \({\cal L}(Y_i)={\cal B}(1\ ;\ \theta)\). Nous posons :
\[ U=\overline{Y}=\frac{1}{n}\sum_{i=1}^nY_i. \]Alors \({\mathbb E}_{\theta}\left\lbrack U^2\right\rbrack < +\infty\). Nous nous proposons de déterminer \(V={\mathbb E}_{\theta}\left\lbrack U\mid T\right\rbrack\). Comme \({\mathbb E}_{\theta}\left\lbrack V\right\rbrack={\mathbb E}_{\theta}\left\lbrack U\right\rbrack=\theta\), l’estimateur \(V\) est sans biais. Nous avons :
\[ {\mathbb E}_{\theta}\left\lbrack Y_i\mid T=k\right\rbrack=\frac{P(Y_i=1,\ T=k)}{P(T=k)}=\frac{P(X_i=0,\ \sum_{j=1,\ j\not=i}^n X_j=k)}{P(T=k)}= \] \[ \frac{P(X_i=0)P(\sum_{j=1,\ j\not=i}^n X_j=k)}{P(T=k)}=\frac{\exp(-\lambda)(\lambda)^0}{0!}\frac{\exp(-\lambda(n-1))(\lambda(n-1))^k}{k!}\frac{k!}{exp(-\lambda n)(\lambda n)^k}= \] \[ =(1-\frac{1}{n})^k. \]Comme :
\[ {\mathbb E}_{\theta}\left\lbrack Y_i\mid T\right\rbrack=\sum_{k=0}^{+\infty}{\mathbb E}_{\theta}\left\lbrack Y_i\mid T=k\right\rbrack I_{\lbrace T=k\rbrace}= \sum_{k=0}^{+\infty}(1-\frac{1}{n})^kI_{\lbrace T=k\rbrace}=(1-\frac{1}{n})^T. \]Nous en déduisons
\[ V={\mathbb E}_{\theta}\left\lbrack U\mid T\right\rbrack={\mathbb E}_{\theta}\left\lbrack \overline{Y}\mid T\right\rbrack=\frac{1}{n}\sum_{i=1}^n{\mathbb E}_{\theta}\left\lbrack Y_i\mid T\right\rbrack= (1-\frac{1}{n})^T. \]De plus
\[ {\mathbb V}ar_{\theta}\left\lbrack V\right\rbrack\leq {\mathbb V}ar_{\theta}\left\lbrack U\right\rbrack=\frac{\theta(1-\theta)}{n},\quad \forall\theta \in \Theta. \]Ainsi nous retouvons le fait que l’estimateur \(V\) est plus efficace que \(U\). \(\quad\square\)
Haut de la page.