le logo du site

6. Estimation.

6.4.1. Estimation d’une moyenne théorique.

Nous donnons une estimation ponctuelle et un intervalle de confiance de la moyenne théorique d’une v.a. de loi inconnue. Comme pour les tests sur une moyenne théorique, nous utilisons des méthodes asymptotiques générales, forcément approximatimatives. C’est pourquoi nous proposons d’étudier des échantillons de taille au moins \(50\).

Considérons une v.a. \(X\) dont la loi est inconnue. Nous supposons qu’elle admet une moyenne théorique, \({\mathbb E}\lbrack X\rbrack=\mu\), que nous nous proposons d’estimer. Soit \(X_{\bullet}=(X_1,\ \cdots,\ X_n)\) un \(n\)-échantillon de \(X\). La méthode des moments nous donne l’estimateur :

\[ T(X_{\bullet}) = \overline{X}=\frac{1}{n}\sum_{j=1}^nX_j. \]

C’est-à-dire que nous considérons la moyenne empirique \({\mathbb E}\lbrack X_{EM}^1\rbrack\).

Propriété 1. Sous l’hypothèse que \({\mathbb E}\lbrack X\rbrack=\mu\) existe, la statistique \(\overline{X}\) est un estimateur convergent et sans biais de \(\mu\).

Pour le voir, il suffit de constater que nous sommes en présence de v.a. qui sont i.i.d. ; la convergence est une conséquence de la Propriété 2 de la loi Faible des Grands Nombres ; la linéarité de l’espérance implique \({\mathbb E}\lbrack \overline{X}\rbrack=\mu\), ce qui nous donne la nullité du biais. \(\quad\square\)

Propriété 2. Nous admettons l’hypothèse \({\mathbb V}ar\lbrack X\rbrack=\sigma^2 < +\infty\). Alors \({\mathbb V}ar\lbrack \overline{X}\rbrack=\displaystyle\frac{\sigma^2}{n}\). De plus la statistique \(\overline{X}\) est un estimateur asymptotiquement normal de \(\mu\). C’est-à-dire :

\[ \lim_{n\rightarrow +\infty} {\cal L}\left(\sqrt{n}\frac{\overline{X}-\mu}{\sigma}\right)={\cal N}(0\ ;\ 1). \]

Le fait que les \(X_1,\ \cdots,\ X_n\) soient i.i.d. et les Propriétés 1 et 3 des variances théoriques nous donnent la variance de \(\overline{X}\). Pour la loi, nous appliquons le Théorème de la Limite Centrale. \(\quad\square\)

Comme \({\cal L}(X)\) est inconnue, nous ne savons rien pour ce qui concerne les autres propriétés de \(\overline{X}\), en particulier son efficacité. Pour construire un intervalle de confiance de \(\mu\), nous ne pouvons pas utiliser la propriété précédente. En effet la statistique dépend de \(\sigma\). Pour contourner cette difficulté nous posons :

\[ S_c^2(X_{\bullet}) = \frac{1}{n-1}\sum_{j=1}^n(X_j-\overline{X})^2. \]

Sous l’hypothèse que \({\mathbb V}ar\lbrack X\rbrack=\sigma^2 < +\infty\), nous savons par ailleurs que \(S_c^2(X_{\bullet})\) est un estimateur convergent et sans biais de \(\sigma^2\), mais qui est en général dépendant de \(\overline{X}\). Nous pouvons cependant énoncer le résultat suivant.

Propriété 3. Sous l’hypothèse que \({\mathbb V}ar\lbrack X\rbrack=\sigma^2 < +\infty\), la statistique \(\displaystyle\sqrt{n}\frac{\overline{X}-\mu}{S_c(X_{\bullet})}\) suit asymptotiquement la loi Normale standard \({\cal N}(0\ ;\ 1)\).

En effet, de ce qui précède nous pouvons écrire :

\[ \lim_{n\rightarrow +\infty} {\cal L}\left(\sqrt{n}\frac{\overline{X}-\mu}{\sigma}\right)={\cal N}(0\ ;\ 1) \qquad {\rm et} \qquad S_c^2(X_{\bullet})\overset{P}{\underset{n\rightarrow+\infty}\longrightarrow}\sigma^2 . \]

En posant \(h(t)=\sqrt{t}\), la Propriété 4 de la convergence en loi nous permet de conclure :

\[ \lim_{n\rightarrow +\infty} {\cal L}\left(\sqrt{n}\frac{\overline{X}-\mu}{S_c(X_{\bullet})}\right)={\cal N}(0\ ;\ 1). \]

C’est-à-dire que nous avons une statistique asymptotiquement pivotale en \(\mu. \quad\square\)

Propriété 4. Sous l’hypothèse que \({\mathbb V}ar\lbrack X\rbrack=\sigma^2 < +\infty\), nous construisons l’intervalle asymptotique de confiance de \(\mu\) au seuil \(100\alpha\ \%\) :

\[ I^{\infty}_{conf}(\mu\ ;\ \alpha\ ;\ x_{\bullet})=\left\lbrack \overline{x}-c_{\alpha}\frac{S_c(x_{\bullet})}{\sqrt{n}}\ ;\ \overline{x}+c_{\alpha}\frac{S_c(x_{\bullet})}{\sqrt{n}}\right\rbrack, \]

où \(c_{\alpha}=q_{1-\frac{\alpha}{2}}\) est le quantile d’ordre \(\displaystyle 1-\frac{\alpha}{2}\) de la loi Normale \({\cal N}(0\ ;\ 1)\).

Exemple. Nous considérons l’Exemple 4 des dosages. Nous prélevons au hasard sur une chaîne de production d’une usine pharmaceutique \(n=150\) flacons et nous dosons la substance contenue dans ces flacons. Nous supposons que la v.a., notée \(X\), «Dosage de la subtance contenue dans un flacon choisi au hasard dans la fabrication», de loi inconnue, admet une moyenne et une variance théoriques. Avec les commandes suivantes dans R nous avons :

mean(Donnees[,1]), réponse : 574.3267.

Cette réponse est une réalisation d’un estimateur sans biais et convergent de la moyenne théorique inconnue de la fabrication. Nous fixons, comme d’habitude, le seuil à \(5\ \%\) ; pour les deux bornes de l’intervalle asymptotique de confiance nous utilisons :

mean(Donnees[,1]) -
qnorm(0.975, lower.tail=TRUE)* sd(Donnees[,1])/ sqrt( length(Donnees[,1]))
,
réponse : 573.8402 ;
mean(Donnees[,1]) +
qnorm(0.975, lower.tail=TRUE)* sd(Donnees[,1])/ sqrt( length(Donnees[,1]))
,
réponse : 574.8132.

Les mêmes résultats peuvent s’obtenir avec la procédure EstimationMoyenneAsym, que nous avons créée. Après l’avoir compilée («sourcée») dans R, nous l’exécutons en indiquant les données à traiter et le seuil à utiliser :

EstimationMoyenneAsym(Donnees[,1],0.05), réponse :
Estimation ponctuelle de la moyenne théorique : 574.3267
Ecart type observé : 3.039994

Intervalle de confiance asymptotique de la moyenne théorique au seuil de 0.05 :
[ 573.8402 ; 574.8132 ]

Interprétation. Nous constatons que la moyenne théorique d’un dosage des flacons fabriqués se trouve aux environs de 574,3. La variation de la fabrication et de la méthode de dosage est très faible, environ \(0,6 \%\) :

\[ CV(x_{\bullet})=100\frac{S_c(x_{\bullet})}{\overline{x}}=100\frac{3,039994}{574,3267}=0,592. \]

Il serait intéressant de confronter ces résultats aux spécifications de la fabrication. \(\quad\square\)

Remarque 1. L’amplitude de l’intervalle de confiance est \(\displaystyle \frac{2cS_c(x_{\bullet})}{\sqrt{n}}\). Ainsi, ayant une estimation préalable de \(\sigma\), notée \(\widehat{\sigma}\), il est possible de déterminer le nombre d’observations \(n\) à réaliser afin d’obtenir un intervalle de confiance d’une amplitude donnée \(a\) :

\[ n=(\frac{2c\widehat{\sigma}}{a})^2. \]

Exemple. Nous reprenons l’exemple ci-dessus. Pour \(\widehat{\sigma}=3,039994 , a=1,5\) et \(c=1,96\), nous obtenons \(n=64\). C’est-à-dire que 64 observations nous donneront un intervalle de confiance au seuil de \(5\ \%\) d’une amplitude de 1,5 environ.

Remarque 2. Si la population observée est constituée de \(N\) unités, nous désignons par \(x_1,\ \cdots,\ x_N\) les valeurs de la v.a. \(X\) sur celles-ci. La moyenne et la variance inconnues s’écrivent alors :

\[ \mu=\frac{1}{N}\sum_{j=1}^N x_j, \quad {\rm et}\quad \sigma^2=\frac{1}{N}\sum_{j=1}^N(x_j-\mu)^2. \]

Nous procédons à un tirage sans remise de \(n\) unités et nous désignons par \(X_1,\ \cdots,\ X_n\) les copies de \(X\) correspondant à l’observation des ces unités. Pour estimer \(\mu\) nous considérons la moyenne empirique \(\overline{X}\). Il est possible de montrer alors :

\[ {\mathbb E}\lbrack \overline{X}\rbrack=\mu, \quad {\rm et}\quad {\mathbb V}ar\lbrack X\rbrack=\frac{\sigma^2}{n}\Big(\frac{N-n}{N-1}\Big). \]

Ainsi, dans ce type d’échantillonnage, \(\overline{X}\) est un estimateur sans biais de \(\mu\) . Il peut être considéré comme convergent dans la mesure où sa variance est décroissante et elle devient nulle lorsque \(n=N\), c’est-à-dire lorsque nous avons observé toute la population ; nous connaissons alors exactement la moyenne \(\mu\) de \(X\) sur celle-ci.

Références. Des détails sont donnés dans l’ouvrage de L. Sachs (1984).

Haut de la page.