le logo du site

6. Estimation.

6.4.3. Estimation d’une proportion théorique.

Dans une population, une proportion inconnue \(p\in \lbrack 0\ ;\ 1\rbrack\) d’unités possèdent un caractère donné \({\cal C}\). Nous nous proposons d’estimer cette proportion. Dans cette page, outre l’estimation ponctuelle, nous donnons les méthodes asymptotiques pour l’intervalle de confiance. Les méthodes exactes pour ce type d’intevalle sont présentées dans l’estimation du paramètre d’une loi de Bernoulli.

Propriété 1. Dans cette population nous tirons au hasard une unité, c’est-à-dire que le processus de tirage est tel que toutes les unités ont les mêmes « chances » d’être extraites. Alors nous avons :

\[ P(\lbrace\mathit{l\ 'unité\ choisie\ possède}\ {\cal C}\rbrace)=p \quad \mathit{et}\quad P(\lbrace\mathit{l\ 'unité\ choisie\ ne\ possède\ pas}\ {\cal C}\rbrace)=1-p. \]

Nous définissons la v.a. \(X\) par : \(X=1\) si l’unité choisie possède \({\cal C}\) et \(X=0\) sinon. Nous reconnaissons une v.a. suivant la loi de Bernoulli \({\cal B}(1\ ;\ p)\). Nous pouvons résumer les expressions précédentes par \(P(X=x)=p^x(1-p)^{1-x},\quad x=1,\ 0\). Comme nous connaissons exactement le type de loi de \(X\), nous allons construire un estimateur avec de bonnes propriétés. Soit \(X_{\bullet}=(X_1,\ \cdots,\ X_n)\) un \(n-\)échantillon de \(X\). La vraisemblance s’écrit :

\[ L(x_{\bullet}\ ;\ p)=p^{(\sum_{i=1}^nx_i)}(1-p)^{(n-\sum_{i=1}^nx_i)}. \]

Remarquons que le codage \(0\) ou \(1\) implique que \(\sum_{i=1}^nx_i\) est le nombre exact d’unités de l’échantillon possédant \({\cal C}\).

Nous avons les expressions :

\[ {\mathbb E}\lbrack X\rbrack=p,\quad {\rm et}\quad{\mathbb V}ar\lbrack X\rbrack=p(1-p). \]

Propriété 2. La méthode des moments et le maximum de la vraisemblance nous donnent l’estimateur :

\[ \widehat{p}(X_{\bullet})={\overline X}=\frac{1}{n}\sum_{i=1}^nX_i. \]

Les définitions des méthodes et un calcul simple nous montrent ce résultat.\(\quad\square\)

Propriété 3. La statistique \(\overline{X}\) satisfait aux propriétés suivantes :

En effet les Propriété 1 et Propriété 3 de l’espérance impliquent \({\mathbb E}\lbrack \overline{X}\rbrack=p\), ce qui nous donne aussi la nullité du biais. Comme nous sommes en présence de v.a. qui sont i.i.d. les Propriété 1 et Propriété 3 de la variance impliquent la deuxième égalité. Pour ce qui est de \({\cal L}(n\overline{X})\), c’est la définition même de la loi Binomiale. La convergence est une conséquence de la Propriété 2 de la loi Faible des Grands Nombres et de l’existence de l’espérance. Le Théorème de la Limite Centrale implique la normalité asymptotique. L’information de Fisher pour le paramètre d’une loi de Bernoulli est :

\[ I_X(p)=\displaystyle\frac{1}{p(1-p)} ; \]

ceci implique l’efficacité. Comme nous pouvons écrire la vraisemblance :

\[ L(x_{\bullet}\ ;\ p)=p^{(\sum_{i=1}^nx_i)}(1-p)^{(n-\sum_{i=1}^nx_i)}=P(\sum_{i=1}^nX_i=t)\frac{1}{C^t_n}=g(t\ ;\ p)h(t), \]

qui est la factorisation de Fisher-Neyman nous avons l’exhaustivité. Enfin, si \({\mathbb E}\lbrack h({\overline X})\rbrack=0\), nous pouvons montrer que, en faisant tendre \(p \rightarrow 0^+\), successivement tous les termes \(h(\frac{k}{n}),\ k=0,\ 1,\cdots,\ n,\) sont nuls ; l’estimateur est donc complet.\(\quad\square\)

Une propriété utile pour la construction d’intervalle de confiance est la loi des évenement rares, que nous rappelons ici.

Propriété 4. Considérons une suite \(\lbrace X_n,\ n\in {\mathbb N}\rbrace\) de v.a. suivant respectivement une loi Binomiale \({\cal B}(n\ ;\ p_n)\). Nous supposons que \(\displaystyle \lim_{n\rightarrow+\infty} np_n=\lambda\). Nous avons alors :

\[ \lim_{n\rightarrow+\infty}{\cal L}(X_n)={\cal P}(\lambda). \]

Nous donnons par la suite deux intervalles de confiance asymptotiques d’une proportion.

Propriété 5. Un intervalle de confiance asymptotique de \(p\) avec la loi Normale, au seuil \(\alpha\) est donné par :

\[ I_{conf}^{\infty}(p\ ;\ \alpha\ ;\ X_{\bullet})=\Big\lbrack \frac{1}{n+c^2}\Big (n\overline{X}+\frac{c^2}{2}-c\sqrt{n\overline{X}(1-\overline{X})+\frac{c^2}{4}}\Big)\ ; \] \[ \frac{1}{n+c^2}\Big (n\overline{X}+\frac{c^2}{2}+c\sqrt{n\overline{X}(1-\overline{X})+\frac{c^2}{4}}\Big)\Big\rbrack. \]

où \(c\) est le quantile d’ordre \(1-\dfrac{\alpha}{2}\) de la loi Normale \({\cal N}(0\ ;\ 1)\).

Comme la loi Normale \({\cal N}(0\ ;\ 1)\) est symétrique autour de \(0\), de la Propriété 3 ci-dessus nous déduisons :

\[ P\Big(-c\leq\sqrt{n}\frac{\overline{X}-p}{\sqrt{p(1-p)}}\leq c\Big)\approx 1-\alpha. \]

Nous obtenons le résultat annoncé en résolvant par rapport à \(p\) l’inéquation :

\[ n(\overline{X}-p)^2\leq c^2(p(1-p)).\quad \square \]

Propriété 6. Un intervalle de confiance asymptotique de \(p\) avec la loi Poisson, au seuil \(\alpha\), est donné par :

\[ I_{conf}^{\infty}(p\ ;\ \alpha\ ;\ X_{\bullet})=\lbrack \underline{\lambda}(X_{\bullet})\ ;\ \overline{\lambda}(X_{\bullet})\rbrack, \]

où \(\underline{\lambda}(X_{\bullet})\) (resp. \(\overline{\lambda}(X_{\bullet})\)) est le plus petit (resp. grand) paramètre \(\lambda\) tel que :

\[ \sum_{i=1}^nX_i=n\overline{X}\in I_{pred}({\cal P}(\lambda)\ ;\ \alpha), \]

intervalle de prédiction au seuil \(\alpha\) d’une loi de Poisson de paramètre \(\lambda\).

Nous appliquons simplement la méthode générale de construction d’un intervalle de confiance et la Propriété 4 ci-dessus. \(\quad \square\)

Remarque. Il est à noter que la méthode précédente ne donne de bons résultats que si l’estimation de \(p\) est très proche de \(0\) ou de \(1\) et que \(n\) est très grand, au moins \(200\). Nous avons créé deux procédures dans R pour le calcul d’un intervalle de confiance, l’une avec l’approche de la loi Normale EstimaProporAsymNormale, et l’autre avec l’approche de la loi Poisson EstimaProporAsymPoisson.

Exemple 1. Lors d’une journée de dons de sang, parmi 158 donneurs il a été constaté que 59 d’entre eux étaient du groupe sanguin \(0^+\). En admettant que les 158 donneurs soient un échantillon représentatif de la population française, nous nous proposons d’estimer la proportion du groupe sanguin \(0^+\) dans cette population et d’en construire un intervalle de confiance en utilisant les méthodes asymptotiques. Après avoir compilé (ºsourcé») dans R les deux procédures de la remarque pécédente, nous obtenons :

EstimaProporAsymNormale(59,158,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.3734
Intervalle de confiance asymptotique avec la loi Normale
de la proportion théorique au seuil de 5 % :
[ 0.3018 ; 0.451 ]

et

EstimaProporAsymPoisson(59,158,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.3734
Intervalle de confiance asymptotique avec la loi de Poisson
de la proportion théorique au seuil de 5 % :
[ 0.2868 ; 0.4832 ]

Avec la méthode exacte de construction d’un intervalle de confiance, présentée dans l’estimation du paramètre d’une loi de Bernoulli, nous obtenons :

EstimaProporExact(59,158,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.3734
Intervalle de confiance de la proportion théorique au seuil de 5 % :
[ 0.3003 ; 0.4524 ]

Interprétation. Ainsi environ 37,3 % de la population est du groupe sanguin \(0^+\). Nous constatons que l’intervalle asymptotique de confiance le plus proche de celui obtenu par la méthode exacte est fourni par l’approxoimation avec la loi Normale.\(\quad\square\)

Exemple 2. Lors d’une enquête un échantillon de 800 personnes a été interrogé sur l’opportunité d’un équipement urbain ; 402 d’entre elles se sont prononcées en faveur de cet équipement. En admettant que les 800 personnes soient un échantillon représentatif de la population concernée, nous nous proposons d’estimer la proportion de la population en faveur de cet équipement. L’application des deux procédures asymptotiques nous donne :

EstimaProporAsymNormale(402,800,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.5025
Intervalle de confiance asymptotique avec la loi Normale
de la proportion théorique au seuil de 5 % :
[ 0.4679 ; 0.5371 ]

et

EstimaProporAsymPoisson(402,800,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.5025
Intervalle de confiance asymptotique avec la loi de Poisson
de la proportion théorique au seuil de 5 % :
[ 0.4554 ; 0.5542 ]

Avec la méthode exacte de construction d’un intervalle de confiance, présentée dans l’estimation du paramètre d’une loi de Bernoulli, nous obtenons :

EstimaProporExact(402,800,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.5025
Intervalle de confiance de la proportion théorique au seuil de 5 % :
[ 0.4675 ; 0.5375 ]

Interprétation. L’opinion publique est partagée entre la présence et la non présence de l’équipement. Nous constatons encore une fois que l’intervalle asymptotique de confiance le plus proche de celui obtenu par la méthode exacte est fourni par l’approxoimation avec la loi Normale.\(\quad\square\)

Exemple 3. Lors d’un contrôle de la qualité sur une chaîne de production, il a été constaté \(2\) pièces défectueuses sur \(1 000\) pièces contrôlées. L’application des deux procédures asymptotiques pour l’estimation de la proportion de pièces défectueuses, nous donne :

EstimaProporAsymNormale(2,1000,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.002
Intervalle de confiance asymptotique avec la loi Normale
de la proportion théorique au seuil de 5 % :
[ 0.0005486 ; 0.007263 ]

et

EstimaProporAsymPoisson(2,1000,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.002
Intervalle de confiance asymptotique avec la loi de Poisson
de la proportion théorique au seuil de 5 % :
[ 0.00035 ; 0.0073 ]

Avec la méthode exacte de construction d’un intervalle de confiance, présentée dans l’estimation du paramètre d’une loi de Bernoulli, nous obtenons :

EstimaProporExact(2,1000,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.002
Intervalle de confiance de la proportion thééorique au seuil de 5 % :
[ 0.000375 ; 0.007239 ]

Interprétation. Nous estimons la proportion de pièces défectueuses   \(0,2 \%\). Nous constatons ici que l’intervalle asymptotique de confiance le plus proche de celui obtenu par la méthode exacte est fourni par l’approxoimation avec la loi de Poisson.\(\quad\square\)

En conclusion, c’est la méthode exacte de construction d’un intervalle de confiance qu’il faut utiliser. Si nous ne disposons pas de R, l’approximation par une loi Normale nous donne de bons résultats. L’approche par une loi de Poisson n’est conseillée que pour de grands chantillons et de très petites ou très grande proportions.

Haut de la page.