Tests sur deux moyennes théoriques indépendantes

7.5.2.c. Tests asymptotiques sur la différence des moyennes de deux v.a. indépendantes - Contre-hypothèses intervalles finis.

Nous présentons des tests asymptotiques sur la différence des moyennes théoriques de deux v.a., notées \(X^{(1)}\) et \(X^{(2)}\), indépendantes et de lois inconnues. Ces tests ont des contre-hypothèses intervalles finis. Comme pour l’estimation de la différence de deux moyennes théoriques, nous utilisons des méthodes asymptotiques générales, forcément approximatives. C’est pourquoi nous considérons des échantillons de taille au moins \(50\) et nous interprétons les résultats avec réserve.

Nous supposons que \(X^{(1)}\) et \(X^{(2)}\) admettent des variances théoriques inconnues, \({\mathbb V}ar\lbrack X^{(i)}\rbrack=\sigma^2_i<\infty\), et donc des moyennes théoriques \({\mathbb E}\lbrack X^{(i)}\rbrack=\mu_i<\infty\), pour \(i=1,\ 2\). Soit \(X_{\bullet}^{(i)}=(X_1^{(i)},\ \cdots,\ X_{n_i}^{(i)})\) un \(n_i\)-échantillon de \(X^{(i)},\ i=1,\ 2\). Les deux échantillons sont indépendants. Nous considèrons les statistiques :

\(D_m(X_{\bullet}^{(1)}\ ;\ X_{\bullet}^{(2)})=D_m={\overline X}^{(1)}-{\overline X}^{(2)}=\dfrac{1}{n_1}\displaystyle\sum_{j=1}^{n_1}X^{(1)}_j-\dfrac{1}{n_2}\sum_{j=1}^{n_2}X^{(2)}_j\) et
\(S_m^2(X_{\bullet}^{(1)}\ ;\ X_{\bullet}^{(2)})=S_m^2=\dfrac{S_c^2(X_{\bullet}^{(1)})}{n_1}+\dfrac{S_c^2(X_{\bullet}^{(2)})}{n_2}=\dfrac{1}{n_1(n_1-1)}\displaystyle\sum_{j=1}^{n_1}(X^{(1)}_j-{\overline X}^{(1)})^2+ \frac{1}{n_2(n_2-1)}\sum_{j=1}^{n_2}(X^{(2)}_j-{\overline X}^{(2)})^2,\)

la différence des moyennes et la variance de cette différence, empiriques. Nous notons :

\({\mathbb E}\lbrack D_m\rbrack=\mu_1-\mu_2=\delta_m,\quad {\mathbb V}ar\lbrack D_m\rbrack=\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}=\sigma^2_m\quad {\rm et} \ \quad {\mathbb E}\lbrack S^2_m\rbrack=\sigma^2_m.\)

Propriété 1. Sous l’hypothèse d’existence des variances \(\sigma_i^2,\ i=1,\ 2,\) nous avons les résultats suivants :

Si \(n_{tot}=n_1+n_2\), la variance \(\sigma_m^2\) est minimale pour \(n_1=n_{tot}\dfrac{\sigma_1}{\sigma_1+\sigma_2}\) et \(n_2=n_{tot}\dfrac{\sigma_2}{\sigma_1+\sigma_2}\).
\(\displaystyle \lim_{n_1,\ n_2\rightarrow +\infty} {\cal L}_{\delta_m,\sigma_m}\Big(\frac{D_m-\delta_m}{\sigma_m}\Big)={\cal N}(0\ ;\ 1),\ \) c’est-à-dire \(\displaystyle \lim_{n_1,\ n_2\rightarrow +\infty}P_{\delta_m, \sigma_m}\left(\frac{D_m-\delta_m}{\sigma_m}\leq t\right)=\Phi(t),\ \forall t\in {\mathbb R}\).
\(S_m\overset{P}{\underset{n_1,\ n_2\rightarrow+\infty}\longrightarrow}\sigma_m\).
\(\displaystyle\lim_{n_1,\ n_2\rightarrow +\infty} {\cal L}_{\delta_m}\left(\frac{D_m-\delta_m}{S_m}\right)={\cal N}(0\ ;\ 1),\ \) c’est-à-dire \(\displaystyle \lim_{n_1,\ n_2\rightarrow +\infty}P_{\delta_m}\left(\frac{D_m-\delta_m}{S_m}\leq t\right)=\Phi(t),\ \forall t\in {\mathbb R}\).

Nous avons noté \({\cal N}(0\ ;\ 1)\) la loi Normale Standard et \(\Phi\) sa f.r..

Le premier résultat a déjà été vu lors de la Propriété 3 de l’estimation de la différence de deux moyennes théoriques ; il est issu d’un calcul direct. Les trois suivants sont fondés sur la condition d’existence de \(\sigma^2_m\), la Propriété 1 de l’estimation de la différence de deux moyennes théoriques, le T.L.C. et la loi Faible des Grands Nombres. \(\ \square\)

Alternative 4.

Soit \(\delta_1,\ \delta_2\in{\mathbb R}\), donnés tels que \(\delta_1 < \delta_2\) et \(\alpha\in \rbrack 0\ ;\ 1\lbrack\) un seuil fixé. Pour tester l’alternative :

\({\cal H}_0^{(4)}=\lbrace\delta_m\not\in\rbrack\delta_1\ ;\ \delta_2\lbrack\rbrace\quad\) contre \(\quad{\cal H}_1^{(4)}=\lbrace\delta_m\in\rbrack\delta_1\ ;\ \delta_2\lbrack\rbrace\),

ainsi que les Alternatives 4 associées, nous considérons le test asymptotique \(\psi^{(4)}_{\infty}(d_m)=I_{\rbrack c_1\ ;\ c_2\lbrack}(d_m)\) où \(c_1=\dfrac{\delta_1+\delta_2}{2}-t_{\alpha,n}\sigma_m\) et \(c_2=\dfrac{\delta_1+\delta_2}{2}+t_{\alpha,n}\sigma_m\) avec \(t_{\alpha,n}\) solution de l’équation critique en t :

\(g_4(t)=\Phi(\dfrac{\delta_2-\delta_1}{2\sigma_m}+t)-\Phi(\dfrac{\delta_2-\delta_1}{2\sigma_m}-t)=\alpha.\)

Donc, en théorie :

si \(d_m \in \rbrack c_1\ ;\ c_2\lbrack\), alors nous décidons «\({\cal H}_1^{(4)}\) est vraie» ;
si \(d_m \not\in \rbrack c_1\ ;\ c_2\lbrack\), alors nous décidons «\({\cal H}_0^{(4)}\) est vraie».

En général l’écart type \(\sigma_m\) est inconnu. Nous l’estimons par \(S_m\). Ainsi nous obtenons des estimations convergentes \(\widehat{t}_{\alpha,n},\ \widehat{c}_1\) et \(\widehat{c}_2\) de \(t_{\alpha},\ c_1\) et \(c_2\) respectivement, avec \(\widehat{t}_{\alpha,n}\) solution de l’équation :

\(\widehat{g}_4(t)=\Phi(\dfrac{\delta_2-\delta_1}{2s_m}+t)-\Phi(\dfrac{\delta_2-\delta_1}{2s_m}-t)=\alpha.\)

Ainsi en pratique :

si \(d_m \in \rbrack \widehat{c}_1 ;\widehat{c}_2\lbrack\), alors nous décidons «\({\cal H}_1^{(4)}\) est vraie» ;
si \( d_m \not\in \rbrack \widehat{c}_1 ; \widehat{c}_2\lbrack\), alors nous décidons «\({\cal H}_0^{(4)}\) est vraie».

Remarque 1. Si pour l’utilisateur décider à tort que la différence des moyennes théoriques de deux v.a. indépendantes et de lois inconnues est dans un intervalle donné a les conséquences les plus défavorabes, c’est sur ce test \(\psi^{(4)}_{\infty}\) qu’il doit fonder sa démarche. Le test \(\psi^{(4)}_{\infty}\) au seuil \(\alpha\) est identique au test \(1-\psi^{(3)}_{\infty}\) au seuil \(1-\alpha\) défini pour les Alternatives 3. Le choix du test est fondamental.

Remarque 2. Pour tout \(\alpha\in \rbrack 0\ ;\ 1\lbrack\), les solutions \(t_{\alpha,n}\) de \(g_4(t)=\alpha\) et \(\widehat{t}_{\alpha,n}\) de \(\widehat{g}_4(t)=\alpha\) existent et sont uniques. Pour le voir il suffit d’étudier les variations de la fonction \(g_4(t)\) et de la fonction \(\widehat{g}_4(t)\), et d’utiliser les propriétés de \(\Phi\).

Propriété 2. Le test \(\psi^{(4)}_{\infty}\) possède les propriétés suivantes :

Pour tout \(\delta_m\not\in\rbrack \delta_1\ ;\ \delta_2\lbrack\), nous avons \(\displaystyle\lim_{n_1, n_2\rightarrow +\infty}{\mathbb E}_{\delta_m,\sigma_m}\left\lbrack\psi^{(4)}_{\infty}\right\rbrack\leq \displaystyle\lim_{n_1, n_2\rightarrow +\infty}{\mathbb E}_{\delta_1,\sigma_m}\left\lbrack\psi^{(4)}_{\infty}\right\rbrack= \displaystyle\lim_{n_1, n_2\rightarrow +\infty}{\mathbb E}_{\delta_2,\sigma_m}\left\lbrack\psi^{(4)}_{\infty}\right\rbrack=\alpha\) ; le test est asymptotiquement de seuil \(\alpha\).
Pour tout \(\delta_m\in\rbrack \delta_1\ ;\ \delta_2\lbrack\), nous avons \(\alpha\leq\displaystyle\lim_{n_1, n_2\rightarrow +\infty}{\mathbb E}_{\delta_m,\sigma_m}\left\lbrack\psi^{(4)}_{\infty}\right\rbrack\) ; le test est, pour ce seuil, asymptotiquement sans biais.
Une approximation de la fonction puissance asymptotique au point \(\delta_m\) est donnée par :

\(pu_{\psi^{(4)}_{\infty}}(\delta_m)\approx \Phi\Big(\dfrac{1}{\sigma_m}(\dfrac{\delta_1+\delta_2}{2}-\delta_m)+t_{\alpha,n}\Big) -\Phi\Big(\dfrac{1}{\sigma_m}(\dfrac{\delta_1+\delta_2}{2}-\delta_m)-t_{\alpha,n}\Big).\)

Une estimation convergente de cette approximation est donnée par :

\(\widehat{pu}_{\psi^{(4)}_{\infty}}(\delta_m)\approx \Phi\Big(\dfrac{1}{s_m}(\dfrac{\delta_1+\delta_2}{2}-\delta_m)+\widehat{t}_{\alpha,n}\Big) -\Phi\Big(\dfrac{1}{s_m}(\dfrac{\delta_1+\delta_2}{2}-\delta_m)-\widehat{t}_{\alpha,n}\Big).\)

Une étude des variations de la fonction \(h_4(\delta_m)=\Phi\Big(\dfrac{1}{\sigma_m}(\dfrac{\delta_1+\delta_2}{2}-\delta_m)+t_{\alpha,n}\Big) -\Phi\Big(\dfrac{1}{\sigma_m}(\dfrac{\delta_1+\delta_2}{2}-\delta_m)-t_{\alpha,n}\Big)\), un calcul simple sur la f.r. de la loi Normale Standard, l’appliquation du T.L.C. et les propriétés de convergence en probabilité pour \(S_m\) et en loi pour \(D_m\), nous donnent ces résultats.\( \square\)

Remarque 3. Si nous avons observé \(D_m=d_m\), alors une approximation de la puissance a posteriori et son estimation sont données, respectivement, par :

\(pu_{\psi^{(4)}_{\infty}}(d_m)\approx \Phi\Big(\dfrac{1}{\sigma_m}(\dfrac{\delta_1+\delta_2}{2}-d_m)+t_{\alpha,n}\Big) -\Phi\Big(\dfrac{1}{\sigma_m}(\dfrac{\delta_1+\delta_2}{2}-d_m)-t_{\alpha,n}\Big)\) et
\(\widehat{pu}_{\psi^{(4)}_{\infty}}(d_m)\approx \Phi\Big(\dfrac{1}{s_m}(\dfrac{\delta_1+\delta_2}{2}-d_m)+\widehat{t}_{\alpha,n}\Big) -\Phi\Big(\dfrac{1}{s_m}(\dfrac{\delta_1+\delta_2}{2}-d_m)-\widehat{t}_{\alpha,n}\Big).\)

Remarque 4. La puissance est maximale lorsque la variance de la différence des moyennes est minimale. D’après la Propriété 1, i., en estimant \(\sigma_1\) et \(\sigma_2\) nous pouvons juger a posteriori ce qu’il en est pour la taille des échantillons observés.

Propriété 3. Si nous avons observé \(D_m=d_m\), la \(p-\)valeur du test et son estimation sont données, respectivement, par :

\(p_{val}=\Phi\Big(\dfrac{\delta_1-\delta_2}{2\sigma_m}+t_{\alpha,n}\Big)-\min\left\lbrace\Phi(\dfrac{d_m-\delta_1}{\sigma_m})\ ;\ \Phi(\dfrac{\delta_2-d_m}{\sigma_m}) \right\rbrace\) et
\(\widehat{p}_{val}=\Phi\Big(\dfrac{\delta_1-\delta_2}{2s_m}+\widehat{t}_{\alpha,n}\Big)-\min\Big\lbrace\Phi(\dfrac{d_m-\delta_1}{s_m})\ ;\ \Phi(\dfrac{\delta_2-d_m}{s_m})\Big\rbrace.\)

Ainsi en pratique :

si \(\widehat{p}_{val} < \alpha\), nous décidons «\({\cal H}_1^{(4)}\) est vraie»
si \(\alpha \leq \widehat{p}_{val}\), nous décidons «\({\cal H}_0^{(4)}\) est vraie».

Pour le voir, il suffit, dans les deux inégalités précédentes avant estimation, de remplacer \(\alpha\) par \(g_4(t_{\alpha,n})\) et d’utiliser les propriétés de \(\Phi\). \(\square\)

Remarque 5. Nous avons créé deux procédures dans R, la première Test4Asym2MoyeInde qui permet de réaliser le test \(\psi^{(4)}_{\infty}\), la seconde Puis4Asym2MoyeInde, qui permet le calul d’une estimation de la puissance de ce test.

Exemple. Nous considérons les données de Sinistres. Nous extrayons les objets PermInf15Mont contenant les observations «Coût du sinistre avec une anciéneté de permis de moins de 15 ans» et PermSup15Mont contenant les observations «Coût du sinistre avec une anciéneté de permis de plus de 15 ans». Nous supposons que les v.a. observées admettent une moyenne et une variance théorique et que leurs réalisations sont obtenues de manières indépendantes. Nous nous proposons de tester l’alternative :

\({\cal H}_0^{(4)}=\lbrace\delta_m\not\in\rbrack 0\ ;\ 500\lbrack\rbrace\quad\) contre \(\quad{\cal H}_1^{(4)}=\lbrace\delta_m\in\rbrack 0\ ;\ 500\lbrack\rbrace\)

Nous utilisons la procédure Test4Asym2MoyeInde de la Remarque 5 ci-dessus. Après l’avoir compilée («sourcée» dans R), nous l’exécutons en indiquant les données à traiter, \(\delta_1=0,\ \delta_2=500\) et le seuil \(\alpha=0,01\) à utiliser, parce que \(n_1=142\) et \(n_2=214\).

Test4Asym2MoyeInde (PermInf15Mont[,2],PermSup15Mont[,2],0,500,0.01), réponse :
Test asymptotique de l'alternative : H^{(4)}_0={ Delta_m ⩽ 0 ou 500 ⩽ Delta_m} contre H^{(4)}_1={ 0 < Delta_m < 500 }.
Premier échantillon, taille : 142 ; moyenne : 473.4 ; écart type : 667.8 .
Deuxième échantillon, taille : 214 ; moyenne : 296.6 ; écart type : 474.9 .

Différence observée : 176.8 ; écart type observé de la différence : 64.76 .

Seuil asymptotique du test : 0.01 ; solution de l'équation critique : 1.534 .
Estimation des valeurs critiques : 150.7 et 349.3 .

Décision : «H^{(4)}_1 est vraie».

Estimation de la p-valeur : 0.003168 .
Estimation des effectifs a posteriori donnant la puissance maximale :
Premier échantillon : 208 ; second échantillon : 148 .

Le test est significatif. La même conclusion s’obtient en comparant la \(p-\)valeur à \(0,01\). Les estimations des effectifs impliquant une puissance asymptotique maximale sont différentes de celles observées dans la réalité. Nous pouvons estimer une approximation de la puissance de ce test aux points \(\delta_m=176.8\) et \(\delta_m=275\) par exemple. Après avoir compilé («sourcée») la procédure correspondante de la Remarque 5 ci-dessus, nous l’exécutons une première fois en indiquant les données à traiter, \(\delta_1=0,\ \delta_2=500,\ \alpha=0,01\) et \(\delta_m=176.8\) et une deuxième fois avec \(\delta_m=275\).

Puis4Asym2MoyeInde(PermInf15Mont[,2],PermSup15Mont[,2],0,500,0.01,176.8), réponse : 0.6529 ;
Puis4Asym2MoyeInde(PermInf15Mont[,2],PermSup15Mont[,2],0,500,0.01,275), réponse : 0.847.

Nous pouvons tracer une estimation du graphique de la fonction puissance avec la commande suivante :

plot( function(Delta_m) Puis4Asym2MoyeInde (PermInf15Mont[,2],PermSup15Mont[,2],0,500,0.01,Delta_m),-20,520, xlab="Delta",
ylab="pu", xlim=c(-2,502), ylim=c(0,1), main="Fig. 1. Approximation de la puissance\n asymptotique du test 4..", col="green4"),
segments( x0=c(0,0,500,500,275,275,176.8,176.8), y0=c(0,0.01,0,0.01,0,0.847,0,0.6529), x1=c(0,-20,500,-20,275,-20,176.8,-20),
y1=c(0.01,0.01,0.01,0.01,0.847,0.847,0.6529,0.6529), col="blue"))
points( x=c(0,500,275,176.8) y=c(0.01,0.01,0.847,0.6529), col="red", pch=".", cex=5), réponse :

Le test est bien asymptotiquement de seuil \(0,01\) et sans biais. Nous avons marqué en rouge les points de coordonnées \((\delta_1\ ;\ \alpha)=(0\ ;\ 0,01)\), \((\delta_2\ ;\ \alpha)=(500\ ;\ 0,01)\), \((176.8\ ;\ \widehat{pu}_{\psi^{(4)}_{\infty}}(176.8))\approx(176.8\ ;\ 0,6529)\) et \((275\ ;\ \widehat{pu}_{\psi^{(4)}_{\infty}}(275))\approx(275\ ;\ 0,847)\).\(\ \square\)

Haut de la page.

7. Tests classiques d’hypothèses.

7. Tests classiques d’hypothèses.

7.5.2.c. Tests asymptotiques sur la différence des moyennes de deux v.a. indépendantes - Contre-hypothèses intervalles finis.