Nous considérons deux populations où dans chacune d’elles une proportion d’unités possèdent une caractéristique donné en proportion \(p_1\) et \(p_2\) respectivement. Nous nous proposons d’estimer \(p_1-p_2\). Le modèle sous-jacent est le suivant. Soit deux v.a., notées \(X^{(1)}\) et \(X^{(2)}\), indépendantes, indicatrices dans chaque population de la présence ou non de la caractéristique. Elles suivent alors les lois \({\cal B}(1\ ;\ p_1)\) et \({\cal B}(1\ ;\ p_2)\) respectivement. Nous donnons une estimation ponctuellle et un intervalle de confiance asymptotique utilisant une approximation normale. Par contre une méthode exacte plus précise et nécessitant une procédure de R est présentée à la page différence de deux paramètres de lois de Bernoulli.
Nous rappelons qu’une v.a. \(X^{(i)}\) suit une loi de Bernoulli \({\cal L}(X)={\cal B}(1\ ;\ p_i)\) si elle ne prend que deux valeurs, \(0\) et \(1\), avec \(P(X^{(i)}=0)=1-p\) et \(P(X^{(i)}=1)=p\) ; de plus nous avons \({\mathbb E}\lbrack X^{(i)}\rbrack=p_i\) et \({\mathbb V}ar\lbrack X^{(i)}\rbrack=p_i(1-p_i),\ i=1,\ 2\). Soit deux échantillons indépendants \(X^{(1)}_{\bullet}=(X^{(1)}_1,\ \cdots,\ X^{(1)}_{n_1})\) et \(X^{(2)}_{\bullet}=(X^{(2)}_1,\ \cdots,\ X^{(2)}_{n_2})\). Considérons la statistique :
\[ D(X^{(1)}_{\bullet} ;\ X^{(2)}_{\bullet})=D=\left(\dfrac{1}{n_1}\sum_{j=1}^{n_1}X^{(1)}_j\right) - \left(\dfrac{1}{n_2}\sum_{j=1}^{n_2}X^{(2)}_j\right)=\overline{X^{(1)}}-\overline{X^{(2)}}. \]Remarquons que le codage \(0,\ 1,\) implique que \(\sum_{i=1}^nx_i^{(i)}\) est le nombre exact d’unités de l’échantillon \((i)\) où \(X^{(i)}=1,\ i=1,\ 2\) ; ainsi les moyennes des échantillons correspondent aux fréquences des \(X^{(i)}=1\).
Propriété 1. La statistique \(D\) satisfait aux propriétés suivantes :
En effet les Propriété 1 et Propriété 3 de l’espérance impliquent \({\mathbb E}\lbrack D\rbrack=p_1-p_2\), ce qui nous donne aussi la nullité du biais. Comme nous sommes en présence de v.a. qui sont i.i.d. les Propriété 1 et Propriété 3 de la variance impliquent la deuxième égalité. La convergence est une conséquence de la Propriété 2 de la loi Faible des Grands Nombres et de l’existence des espérances. Le T.L.C. et le comportement asymptotique de la f.c. de la v.a. \(D\), centrée et réduite, impliquent la normalité asymptotique. \(\quad\square\)
Propriété 2. Une estimation d’un intervalle de confiance asymptotique de \(p_1-p_2\), au seuil \(\alpha\), est donné par :
\[ I_{conf}^{\infty}\left(p_1-p_2\ ;\ \alpha\ ;\ D(x^{(1)}_{\bullet} ;\ x^{(2)}_{\bullet})\right)=\left\lbrack \overline{x^{(1)}}-\overline{x^{(2)}}-c_{\alpha}\sqrt{\frac{\overline{x^{(1)}}(1-\overline{x^{(1)}})}{n_1}+ \frac{\overline{x^{(2)}}(1-\overline{x^{(2)}})}{n_2}}\ ;\ \overline{x^{(1)}}-\overline{x^{(2)}}+c_{\alpha}\sqrt{\frac{\overline{x^{(1)}}(1-\overline{x^{(1)}})}{n_1}+ \frac{\overline{x^{(2)}}(1-\overline{x^{(2)}})}{n_2}}\right\rbrack, \]où \(c_{\alpha}\) est le quantile d’ordre \(1-\dfrac{\alpha}{2}\) de la loi \({\cal N}(0\ ;\ 1)\).
Nous appliquons simplement le fait que les fréquences observées sont des estimations sans biais et convergentes et la normalité asymptotique de \(D\). \(\quad\square\)
Remarque 1. Comme il s’agit de méthodes asymptotiques, un minimum de 50 observations par échantillons est nécessaire. Et encore la convergence et si lente, que les estimations ne sont pas très précises, comme nous le constaterons dans les exemples suivants.
Remarque 2. Nous avons créé la procédure EstimaDifProporAsymNormale qui donne un intevalle de confiance exact de la différence \(p_1-p_2\) avec la méthode asymptotique ci-dessus. Après l’avoir compilée (« sourcée ») dans R, nous l’exécutons dans les exemples suivants.
Exemple 1. Dans un quartier d’une ville, sur 57 personnes interrogées, 7 se déclarent opposées à un équipement en périphérie. Dans un autre quartier elles sont 4 sur 52. Pour chaque personne interrogée nous admettons avoir la réalisation d’une v.a. indicatrice de l’opposition à l’équipement, indicatrices qui sont indépendantes les unes des autres. Nous estimons la différence des paramètres des deux quartiers.
EstimaDifProporAsymNormale(7,57,4,52,0.05), réponse :
Estimation de la premire proportion théorique : 0.1228 .
Taille du premier échantillon : 57 .
Estimation de la deuxième proportion théorique : 0.07692 .
Taille du deuxième échantillon : 52 .
Estimation ponctuelle de la diffrence de deux proportions théoriques : 0.04588.
Estimation de l’intervalle de confiance asymptotique de la différence
avec la loi Normale au seuil de 5 % :
[ -0.06594 ; 0.1577 ]
Interprétation. Nous constatons que l’intervalle a une amplitude de \( 22\%\), ce qui est important ; l’intervalle exact a quant à lui une amplitude de \( 2\%\) ; ce qui montre que pour de petits échantillons la démarche asymptotique n’est pas adaptée.
Exemple 2. Lors de la livraison de deux lots provenants de deux fabricants différants, nous avons constaté que dans le premier lot de 450 pièces, il y en avait 6 de défectueuses, et dans le secod de 400 pièces, il y en avait 4 de défectueuses. Pour chaque pièce examinées nous admettons avoir la réalisation d’une v.a. indicatrice de la non conforfité de la pièce, indicatrices qui sont indépendantes les unes des autres. Nous estimons la différence des paramètres des deux lots.
EstimaDifProporAsymNormale(6,450,4,400,0.05), réponse :
Estimation de la première proportion théorique : 0.01333 .
Taille du premier échantillon : 450 .
Estimation de la deuxième proportion théorique : 0.01 .
Taille du deuxième échantillon : 400 .
Estimation ponctuelle de la différence de deux proportions théoriques : 0.003333 .
Estimation de l’intervalle de confiance asymptotique de la différence :
avec la loi Normale au seuil de 5 % :
[ -0.01107 ; 0.01773 ]
Interprétation. La différence est de \(2,8 \%\) ; elle peut être décisive dans le choix du fabricant. L’amplitude est ici comparable au cas de l’intervalle exact.
Nous reprenons ces exemples lors de l’étude de la méthode exacte.
Haut de la page.