le logo du site

6. Estimation.

6.7.1.b. Estimation de la différence de deux paramètres de lois de Bernoulli.

Nous considérons deux v.a., notées \(X^{(1)}\) et \(X^{(2)}\), indépendantes de lois \({\cal B}(1\ ;\ p_1)\) et \({\cal B}(1\ ;\ p_2)\) respectivement. Nous nous proposons d’estimer \(p_1-p_2\) ; nous présentons une estimation ponctuellle et un intervalle de confiance exact qui nécessite une procédure de R. Par contre une méthode asymptotique plus facile à mettre en œuvre mais moins précise est présentée à la page différence de deux proportions théoriques.

Nous rappelons qu’une v.a. \(X^{(i)}\) suit une loi de Bernoulli \({\cal L}(X)={\cal B}(1\ ;\ p_i)\) si elle ne prend que deux valeurs, \(0\) et \(1\), avec \(P(X^{(i)}=0)=1-p\) et \(P(X^{(i)}=1)=p\) ; de plus nous avons \({\mathbb E}\lbrack X^{(i)}\rbrack=p_i\) et \({\mathbb V}ar\lbrack X^{(i)}\rbrack=p_i(1-p_i),\ i=1,\ 2\). Soit deux échantillons indépendants \(X^{(1)}_{\bullet}=(X^{(1)}_1,\ \cdots,\ X^{(1)}_{n_1})\) et \(X^{(2)}_{\bullet}=(X^{(2)}_1,\ \cdots,\ X^{(2)}_{n_2})\). Considérons la statistique :

\[ D(X^{(1)}_{\bullet} ;\ X^{(2)}_{\bullet})=D=\left(\dfrac{1}{n_1}\sum_{j=1}^{n_1}X^{(1)}_j\right) - \left(\dfrac{1}{n_2}\sum_{j=1}^{n_2}X^{(2)}_j\right)=F(X^{(1)})-F(X^{(2)}). \]

Remarquons que le codage \(0,\ 1,\) implique que \(\sum_{i=1}^nx_i^{(i)}\) est le nombre exact d’unités de l’échantillon \((i)\) où \(X^{(i)}=1,\ i=1,\ 2\) ; ainsi les moyennes des échantillons correspondent bien aux fréquences des \(X^{(i)}=1\).

Propriété 1. La statistique \(D\) satisfait aux propriétés suivantes :

En effet les Propriété 1 et Propriété 3 de l’espérance impliquent \({\mathbb E}\lbrack D\rbrack=p_1-p_2\), ce qui nous donne aussi la nullité du biais. Comme nous sommes en présence de v.a. qui sont i.i.d. les Propriété 1 et Propriété 3 de la variance impliquent la deuxième égalité. La convergence est une conséquence de la Propriété 2 de la loi Faible des Grands Nombres et de l’existence des espérances. Le T.L.C. et le comportement asymptotique de la f.c. de la v.a. \(D\), centrée et réduite, impliquent la normalité asymptotique. \(\quad\square\)

Propriété 2. Un intervalle de confiance exact de \(p_1-p_2\), au seuil \(\alpha\), est donné par :

\[ I_{conf}(p_1-p_2\ ;\ \alpha\ ;\ D)=\lbrack \underline{d}(X^{(1)}_{\bullet} ;\ X^{(2)}_{\bullet})\ ;\ \overline{d}(X^{(1)}_{\bullet} ;\ X^{(2)}_{\bullet})\rbrack, \]

où \(\underline{d}(X^{(1)}_{\bullet} ;\ X^{(2)}_{\bullet})\) (resp. \(\overline{d}(X^{(1)}_{\bullet} ;\ X^{(2)}_{\bullet})\)) est la plus petite (resp. grande) différence des paramètres \(p_1-p_2\) pour laquelle :

\[ D(x^{(1)}_{\bullet} ;\ x^{(2)}_{\bullet})\in I_{pred}({\cal L}(D)\ ;\ \alpha), \]

intervalle de prédiction de la loi des différences de deux fréquences.

Nous appliquons simplement la méthode générale de construction d’un intervalle de confiance. \(\quad\square\)

Remarque. Nous avons créé la procédure EstimaDifProporExacte qui donne un intevalle de confiance exact de la différence \(p_1-p_2\) avec la méthode ci-dessus. Après l’avoir compilée (« sourcée ») dans R, nous l’exécutons dans les exemples suivants.

Exemple 1. Dans un quartier d’une ville, sur 57 personnes interrogées, 7 se déclarent opposées à un équipement en périphérie. Dans un autre quartier elles sont 4 sur 52. Pour chaque personne interrogée nous admettons avoir la réalisation d’une v.a. indicatrice de l’opposition à l’équipement, indicatrices qui sont indépendantes les unes des autres. Nous estimons la différence des paramètres des deux quartiers.

EstimaDifProporExacte(7,57,4,52,0.05), réponse :
Estimation de la premire proportion théorique : 0.1228 .
Taille du premier échantillon : 57 .
Estimation de la deuxième proportion théorique : 0.07692 .
Taille du deuxième échantillon : 52 .

Estimation ponctuelle de la diffrence de deux proportions théoriques : 0.04588.
Estimation de l’intervalle de confiance exact de la différence :
[ 0.03588 ; 0.05588 ].

Interprétation. Nous constatons que l’intervalle a une amplitude de \( 2\%\), ce qui est relativement faible pour ce qui est d’opinions humaines.

Exemple 2. Lors de la livraison de deux lots provenants de deux fabricants différants, nous avons constaté que dans le premier lot de 450 pièces, il y en avait 6 de défectueuses, et dans le secod de 400 pièces, il y en avait 4 de défectueuses. Pour chaque pièce examinées nous admettons avoir la réalisation d’une v.a. indicatrice de la non conforfité de la pièce, indicatrices qui sont indépendantes les unes des autres. Nous estimons la différence des paramètres des deux lots.

EstimaDifProporExacte(6,450,4,400,0.05), réponse :
Estimation de la première proportion théorique : 0.01333 .
Taille du premier échantillon : 450 .
Estimation de la deuxième proportion théorique : 0.01 .
Taille du deuxième échantillon : 400 .

Estimation ponctuelle de la différence de deux proportions théoriques : 0.003333 .
Estimation de l’intervalle de confiance exact de la différence :
[ -0.006667 ; 0.01333 ]

Interprétation. La différence est de \(2 \%\) ; elle peut être décisive dans le choix du fabricant.

Nous reprenons ces exemples lors de l’étude de la méthode asymptotique.

Haut de la page.