Estimation du paramètre d’une loi de Bernoulli.

6.7.1. Estimation du paramètre d’une loi de Bernoulli.

Nous rappelons qu’une v.a. \(X\) suit une loi de Bernoulli \({\cal L}(X)={\cal B}(1\ ;\ p)\) si elle ne prend que deux valeurs, \(0\) et \(1\) avec :

\[ P(X=0)=1-p \quad {\rm et} \quad P(X=1)=p. \]

Nous pouvons résumer ces expressions par \(P(X=x)=p^x(1-p)^{1-x},\quad x=1,\ 0\). Si nous observons un \(n-\)échantillon de \(X\), soit \(X_{\bullet}=(X_1,\ \cdots,\ X_n)\), une suite de \(0\) et de \(1\), alors la vraisemblance s’écrit :

\[ L(x_{\bullet}\ ;\ p)=p^{(\sum_{i=1}^nx_i)}(1-p)^{(n-\sum_{i=1}^nx_i)},\quad x_1, \cdots, x_n \in \lbrace 0,\ 1\rbrace. \]

Une telle v.a. correspond, entre autres, à l’expérience aléatoire suivante : un ensemble contient une proportion \(p\in \lbrack 0\ ;\ 1\rbrack\) d’éléments qui possèdent une propriété donnée \({\cal P}\) ; nous tirons un élément au hasard (i.e. chaque élément de l’ensemble a les mêmes chances d’être tiré) et nous posons \(X=1\) (resp. \(X=0\)) si l’élément extrait possède (resp. ne possède pas) la propriété \({\cal P}\). Estimer \(p\) à l’aide de \(X_{\bullet}\) revient à estimer une proportion. Ici outre l’estimation ponctuelle, nous donnons les méthodes exactes pour l’intervalle de confiance. Les méthodes asymptotiques pour ce type d’intevalle sont présentées dans l’estimation d’une proportion théorique.

Nous avons les expressions :

\[ {\mathbb E}\lbrack X\rbrack=p,\quad {\rm et}\quad{\mathbb V}ar\lbrack X\rbrack=p(1-p). \]

Propriété 1. La méthode des moments et le maximum de la vraisemblance nous donnent l’estimateur :

\[ \widehat{p}(X_{\bullet})={\overline X}=\frac{1}{n}\sum_{i=1}^nX_i. \]

Remarquons que le codage \(0,\ 1,\) implique que \(\sum_{i=1}^nx_i\) est le nombre exact d’unités de l’échantillon possédant \({\cal P}\).

Propriété 2. La statistique \(\overline{X}\) satisfait aux propriétés suivantes :

Ses caractéristiques sont \({\mathbb E}\lbrack\overline{X}\rbrack=p\), \( {\mathbb V}ar\lbrack \overline{X}\rbrack=\dfrac{p(1-p)}{n}\). De plus \({\cal L}(n\overline{X})={\cal B}(n\ ;\ p)\), loi Binomiale de paramètres \(n\) et \(p\).
C’est un estimateur convergent ; lorsque la taille de l’échantillon augmente, il se rapproche du paramètre inconnu \(p\).
C’est un estimateur sans biais ; en moyenne les estimations donnent le paramètre inconnu \(p\).
Il est asymptotiquement normal ; \(\displaystyle\lim_{n\rightarrow +\infty} {\cal L}\left(\sqrt{n}\dfrac{\overline{X}-p}{\sqrt{p(1-p)}}\right)={\cal N}(0\ ;\ 1)\).
C’est un estimateur efficace ; sa variance est la plus petite possible.
C’est un estimateur exhaustif ; toute l’information apportée par l’échantillon sur le paramètre inconnu \(p\) est contenue dans l’estimateur.
C’est un estimateur complet ; il ne contient pas d’information superflue.

En effet les Propriété 1 et Propriété 3 de l’espérance impliquent \({\mathbb E}\lbrack \overline{X}\rbrack=p\), ce qui nous donne aussi la nullité du biais. Comme nous sommes en présence de v.a. qui sont i.i.d. les Propriété 1 et Propriété 3 de la variance impliquent la deuxième égalité. Pour ce qui est de \({\cal L}(n\overline{X})\), c’est la définition même de la loi Binomiale. La convergence est une conséquence de la Propriété 2 de la loi Faible des Grands Nombres et de l’existence de l’espérance. Le Théorème de la Limite Centrale implique la normalité asymptotique. L’information de Fisher pour le paramètre d’une loi de Bernoulli est :

\[ I_X(p)=\displaystyle\frac{1}{p(1-p)} ; \]

ceci implique l’efficacité. Comme nous pouvons écrire la vraisemblance :

\[ L(x_{\bullet}\ ;\ p)=p^{(\sum_{i=1}^nx_i)}(1-p)^{(n-\sum_{i=1}^nx_i)}=P(\sum_{i=1}^nX_i=t)\frac{1}{C^t_n}=g(t\ ;\ p)h(t), \]

qui est la factorisation de Fisher - Neyman nous avons l’exhaustivité. Enfin, si \({\mathbb E}\lbrack h({\overline X})\rbrack=0\), nous pouvons montrer que, en faisant tendre \(p \rightarrow 0^+\), successivement tous les termes \(h(\frac{k}{n}),\ k=0,\ 1,\cdots,\ n,\) sont nuls ; l’estimateur est donc complet.\(\quad\square\)

Propriété 3. Un intervalle de confiance exact de \(p\), au seuil \(\alpha\), est donné par :

\[ I_{conf}(p\ ;\ \alpha\ ;\ X_{\bullet})=\lbrack \underline{p}(X_{\bullet})\ ;\ \overline{p}(X_{\bullet})\rbrack, \]

où \(\underline{p}(X_{\bullet})\) (resp. \(\overline{p}(X_{\bullet})\)) est le plus petit (resp. grand) paramètre \(p\) tel que :

\[ \sum_{i=1}^nX_i=n\overline{X}\in I_{pred}({\cal B}(n\ ;\ p)\ ;\ \alpha), \]

intervalle de prédiction d’une loi Binomiale de paramètres \(n\) et \(p\).

Nous appliquons simplement la méthode générale de construction d’un intervalle de confiance. \(\quad\square\)

Remarque. Nous avons créé dans R la procédure EstimaProporExact qui donne un intevalle de confiance exact du paramètre \(p\) avec la méthode ci-dessus.

Exemple 1. Lors d’une journée de dons de sang, parmi 158 donneurs il a été constaté que 59 d’entre eux étaient du groupe sanguin \(0^+\). En admettant que les 158 donneurs soient un échantillon représentatif de la population française, nous nous proposons d’estimer la proportion du groupe sanguin \(0^+\) dans cette population et d’en construire un intervalle de confiance. Après avoir compilée («sourcée») dans R la procédure EstimaProporExact, nous l’utilisons pour l’exemple en indiquant le nombre de donneurs du groupe sanguin \(0^+\), \(\sum_{i=1}^nx_i=59\), le nombre total de donneurs, \(n=158\), et le seuil de l’intervalle \(\alpha=0,05\).

EstimaProporExact(59,158,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.3734
Intervalle de confiance de la proportion théorique au seuil de 5 % :
[ 0.3003 ; 0.4524 ]

Interprétation. Ainsi nous estimons qu’environ 37,3 % de la population est du groupe sanguin \(0^+\) ; la proportion théorique de cette sous-population devrait être comprise entre \(30 \%\) et \(45,2 \%\). Cependant il nous faut remarquer que l’amplitude de l’intervalle de confiance est supérieure à 15 % . Cette variabilité est une des caractéristiques des lois Binomiales. Nous pouvons diminuer cette amplitude, mais au prix d’une augmentation considérable du nombre d’observations. \(\quad\square\)

Exemple 2. Lors d’une enquête, un échantillon de 800 personnes a été interrogé sur l’opportunité d’un équipement urbain ; 402 d’entre elles se sont prononcées en faveur de cet équipement. En admettant que les 800 personnes constituent un échantillon représentatif de la population concernée, nous nous proposons d’estimer la proportion de la population en faveur de cet équipement. Nous utilisons dans R la procédure EstimaProporExact avec \(\sum_{i=1}^nx_i=402\), le nombre total de réponses, \(n=800\), et le seuil de l’intervalle \(\alpha=0,05\).

EstimaProporExact(402,800,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.5025
Intervalle de confiance de la proportion théorique au seuil de 5 % :
[ 0.4675 ; 0.5375 ]

Interprétation. L’opinion publique est partagée entre la réalisation ou non de l’équipement. Remarquons ici qu’avec une taille d’échantillon de \(n=800\) l’amplitude de l’intervalle est de l’ordre de \(6,9 \%\). Supposons que \(n=3200\) personnes ont été interrogées dont un nombre \(k=1607\) d’opinions favorables. La procédure nous donne :

EstimaProporExact(1607,3200,0.05), réponse :
Estimation ponctuelle de la proportion théorique : 0.5022
Intervalle de confiance de la proportion théorique au seuil de 5 % :
[ 0.4849 ; 0.5194 ]

Nous constatons que l’amplitude de l’intervalle est à présent de 3,4 % ; elle a été à peine divisée par deux, alors que le nombre d’observations est quatre fois supérieur. \(\quad\square\)

Remarquons qu’il est possible d’obtenir des intervalles de confiance en utilisant des lois asymptotiques de la loi Binomiale, les lois Normales et de Poisson. C’est ce qui est décrit dans l’estimation d’une proportion théorique

Haut de la page.

6. Estimation.

6. Estimation.

6.7.1. Estimation du paramètre d’une loi de Bernoulli.