Estimation d’une variance théorique.

6.4.5. Estimation d’une variance théorique.

Considérons une v.a. \(X\) dont la loi est inconnue. Nous supposons qu’elle admet une moyenne et une variance théoriques inconnues \({\mathbb E}\lbrack X\rbrack=\mu\) et \({\mathbb V}ar\lbrack X\rbrack=\sigma^2\). Nous nous proposons d’estimer la variance \(\sigma^2\). Soit \(X_{\bullet}=(X_1,\ \cdots,\ X_n)\) un \(n-\)échantillon de \(X\). La méthode des moments nous conduit à considérer la variance empirique :

\[ S^2(X_{\bullet}) = {\mathbb V}ar\lbrack X_{EM}\rbrack=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2. \]

Il est aisé de le constater à partir de la définition de la loi empirique.

Propriété 1. Nous avons les expressions :

\[ S^2(X_{\bullet}) = \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 =\frac{1}{n}\sum_{i=1}^nX_i^2-\overline{X}^2=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2. \]

Lorsque \({\mathbb V}ar\lbrack X\rbrack=\sigma^2\) existe, l’égalité suivante est satisfaite :

\[ {\mathbb E}\lbrack S^2(X_{\bullet})\rbrack = \frac{n-1}{n}\sigma^2. \]

Si \({\mathbb E}\lbrack (X-\mu)^3\rbrack=\mu_3(X)=\mu_3\) existe, alors :

\[ {\mathbb C}ov\lbrack \overline{X}\ ;\ S^2(X_{\bullet})\rbrack = \frac{n-1}{n}\mu_3. \]

Si de plus \({\mathbb E}\lbrack (X-\mu)^4\rbrack=\mu_4(X)=\mu_4\) existe, alors :

\[ {\mathbb V}ar\lbrack S^2(X_{\bullet})\rbrack = \frac{\mu_4-\sigma^4}{n}-2\frac{\mu_4-2\sigma^4}{n^2}+ \frac{\mu_4-3\sigma^4}{n^3}=\frac{(n-1)^2}{n^3}\mu_4-\frac{(n-1)(n-3)}{n^3}\sigma^4. \]

La première série d’égalités s’obtient par calcul direct en introduisant \(\mu\) et en développant les carrés. Pour l’espérance, la covariance et la variance il en est de même en utilisant les moments centrés.\(\quad \square\)

Remarque 1. Les statistiques \(\overline{X}\) et \(S^2(X_{\bullet})\) sont en général liées. Si \(\mu_3=0\), par exemple lorsque \(X\) est symétrique, alors elles sont non corrélées, sans être indépendantes. Cependant dans certains cas, par exemple lorsque \({\cal L}(X)={\cal N}\), elles sont indépendantes.

Propriété 2. La statistique :

\[ S^2_c(X_{\bullet}) = \frac{n}{n-1}S^2(X_{\bullet})= \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2, \]

définit un estimateur convergent et sans biais de \(\sigma^2\). C’est la variance corrigée de l’échantillon. Si de plus \(\mu_4\) existe, alors c’est un estimateur asymptotiquement normal, plus précisément :

\[ \lim_{n\rightarrow +\infty} {\cal L}\left(\sqrt{n}\frac{S^2_c(X_{\bullet})-\sigma^2}{\sqrt{\mu_4-\sigma^4}}\right)={\cal N}(0\ ;\ 1). \]

La propriété 1 implique que \(S^2_c(X_{\bullet})\) est un estimateur sans biais. Comme \(\overline{X}\) est un estimateur convergent de \(\mu\), la loi faible des grands nombres et la propriété 3 de la convergence en probabilité impliquent la convergence de \(S^2_c(X_{\bullet})\) vers \(\sigma^2\). Pour la normalité asymptotique, nous appliquons le Théorème de la Limite Centrale et la propriété 3 de la convergence en loi. \(\quad\square\)

Remarque 2. La statistique \(S_c(X_{\bullet})=\sqrt{S^2_c(X_{\bullet})}\) est en général un estimateur avec biais de \(\sigma\). Cependant nous pouvons montrer qu’elle est asymptotiquement sans biais.

Remarque 3. Nous avons omis les deux derniers termes de la variance de \(S^2_c(X_{\bullet})\) qui sont respectivement en \(\displaystyle\frac{1}{n^2}\) et en \(\displaystyle\frac{1}{n^3}\). Ils sont en effet négligeables par rapport au premier qui lui est en \(\displaystyle\frac{1}{n}\).

Remarque 4. Pour construire un intervalle de confiance de \(\sigma^2\), nous estimons \(\mu_4\) par :

\[ \mu_4(X_{\bullet}) = \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^4, \]

moment d’ordre 4 de l’échantillon. La loi faible des grands nombres et la propriété 3 de la convergence en probabilité impliquent la convergence de cet estimateur.

Propriété 4. Soit \(c\) est le quantile d’ordre \(\displaystyle 1-\frac{\alpha}{2}\) de la loi Normale standard \({\cal N}(0\ ;\ 1)\). Sous l’hypothèse \({\mathbb E}\lbrack (X-\mu)^4\rbrack=\mu_4 < +\infty\), nous avons l’intervalle asymptotique de confiance de \(\sigma^2\) au seuil \(\alpha\) :

\[ I^{\infty}_{conf}(\sigma^2\ ;\ \alpha\ ;\ X_{\bullet})=\Bigg\lbrack \frac{1}{(n+c^2)}\left(nS^2_c(X_{\bullet})-c\sqrt{n\Big(\mu_4(X_{\bullet})-(S^2_c(X_{\bullet}))^2)\Big)+c^2\mu_4(X_{\bullet})}\right)\ ; \] \[ \frac{1}{(n+c^2)}\left(nS^2_c(X_{\bullet})+c\sqrt{n\Big(\mu_4(X_{\bullet})-(S^2_c(X_{\bullet}))^2\Big)+c^2\mu_4(X_{\bullet})}\right) \Bigg\rbrack, \]

En effet la Propriété 2 et la Remarque 4 impliquent asymptotiquement :

\[ P\left(-c \leq \sqrt{n}\frac{S^2_c(X_{\bullet})-\sigma^2}{\sqrt{\mu_4(X_{\bullet})-\sigma^4}}\leq c\right)\approx 1-\alpha. \]

Ce qui est équivalent à :

\[ P\left((n+c^2)\sigma^4-2nS_c^2(X_{\bullet})\sigma^2+n(S^2_c(X_{\bullet}))^2-c^2\mu_4(X_{\bullet})\leq 0\right)\approx 1-\alpha. \]

Nous en déduisons le résultat annoncé en résolvant par rapport à \(\sigma^2\) l’inéquation précédente. Notons que nous avons toujours \((S^2_c(X_{\bullet}))^2⩽\mu_4(X_{\bullet})\). \(\quad\square\)

Remarque 5. En prenant la racine carrée des bornes de l’intervalle précédent, nous obtenons un intervalle asymptotique de confiance de \(\sigma\) au seuil \(\alpha\) :

\[ I^{\infty}_{conf}(\sigma\ ;\ \alpha\ ;\ X_{\bullet})=\Bigg\lbrack \sqrt{\frac{1}{(n+c^2)}\left(nS^2_c(X_{\bullet})-c\sqrt{n\Big(\mu_4(X_{\bullet})-(S^2_c(X_{\bullet}))^2)\Big)+c^2\mu_4(X_{\bullet})}\right)}\ ; \] \[ \sqrt{\frac{1}{(n+c^2)}\left(nS^2_c(X_{\bullet})+c\sqrt{n\Big(\mu_4(X_{\bullet})-(S^2_c(X_{\bullet}))^2)\Big)+c^2\mu_4(X_{\bullet})}\right)} \Bigg\rbrack, \]

Exemple. Nous considérons l’Exemple 4 des dosages. Nous prélevons au hasard sur une chaîne de production d’une usine pharmaceutique \(n=150\) flacons et nous dosons la substance contenue dans ces flacons. Nous supposons que la v.a. :

\(X=\)«Dosage de la subtance contenue dans un flacon choisi au hasard dans la fabrication»,

de loi inconnue, admet un moment d’ordre 4. Nous avons créé la procédure EstimationVarianceAsym. Après l’avoir compilée («sourcée»), nous l’exécutons en indiquant les données à traiter et le seuil à utiliser ; voici les résultats :

EstimationVarianceAsym(Donnees[,1],0.05), réponse :

Estimation ponctuelle de la variance théorique : 9.241566
Intervalle de confiance asymptotique de la variance théorique au seuil de 0.05 :
[ 7.109157 ; 10.91245 ]

Estimation ponctuelle de l’écart type théorique : 3.039994
Intervalle de confiance asymptotique de l’écart type théorique au seuil de 0.05 :
[ 2.6663 ; 3.303399 ]

Interprétation. Nous rappelons que l’interprétation d’une variance ou d’un écart type ne peut se faire que par rapprochement à un autre échantillon ou à une norme.

Haut de la page.

6. Estimation.

6. Estimation.

6.4.5. Estimation d’une variance théorique.