Tests sur deux moyennes appariées - Alternatives 1a et 1b.

7.5.3.a. Tests sur la différence des moyennes théoriques de deux v.a. appariées - Contre-hypothèses unilatérales.

Nous présentons les tests unilatéraux sur la différence des moyennes théoriques de deux v.a., notées \(X^{(1)}\) et \(X^{(2)}\) appariées et de lois inconnues. Comme pour l’estimation nous utilisons des méthodes asymptotiques générales, forcément approximatives. Nous admettons avoir suffisamment d’observations, au moins 50 en général. Nous interprètons les résultats avec réserve.

La situation expérimentale typique est le cas où chaque unité est observée «avant» un traitement, résultat \(X^{(1)}\), et «après» ce traitement, résultat \(X^{(2)}\). Nous notons \(D=X^{(1)}-X^{(2)}\) et nous supposons que \({\mathbb V}ar\lbrack D\rbrack=\sigma^2_D <\infty\). Ce qui implique \({\mathbb E}\lbrack D\rbrack=\delta_D < \infty\).

Propriété 1. Soit \(D_{\bullet}=(D_1,\cdots,D_n)=(X^{(1)}_1-X^{(2)}_1,\cdots,X^{(1)}_n-X^{(2)}_n)\) un \(n\)-échantillon de \(D\). Nous considérons les statistiques :

\(\overline{D} =\dfrac{1}{n}\sum_{j=1}^nD_j,\quad {\it et} \quad S_c^2(D_{\bullet}) = \dfrac{1}{n-1}\displaystyle\sum_{j=1}^n(D_j-\overline{D})^2,\)

moyenne et variance corrigée empiriques de l’échantillon de \(D\). Nous avons les résultats suivants :

\(\displaystyle\lim_{n\rightarrow +\infty} {\cal L_{\delta_D,\sigma_D}}\left(\sqrt{n}\frac{\overline{D}-\delta_D}{\sigma_D}\right)={\cal N}(0\ ;\ 1),\ \) c’est-à-dire \(\displaystyle \lim_{n\rightarrow +\infty}P_{\delta_D, \sigma_D}\left(\sqrt{n}\frac{\overline{D}-\delta_D}{\sigma_D}\leq t\right)=\Phi(t),\ \forall t\in {\mathbb R}\).
\(S_c(D_{\bullet})\overset{P}{\underset{n\rightarrow+\infty}\longrightarrow}\sigma_D\).
\(\displaystyle\lim_{n\rightarrow +\infty} {\cal L_{\delta_D}}\left(\sqrt{n}\frac{\overline{D}-\delta_D}{S_c(D_{\bullet})}\right)={\cal N}(0\ ;\ 1),\ \) c’est-à-dire \(\displaystyle \lim_{n\rightarrow +\infty}P_{\delta_D}\left(\sqrt{n}\frac{\overline{D}-\delta_D}{S_c(D_{\bullet})}\leq t\right)=\Phi(t),\ \forall t\in {\mathbb R}\).

Nous désignons par \({\cal N}(0\ ;\ 1)\) la loi Normale Standard et par \(\Phi\) sa f.r..

Comme \({\mathbb V}ar\lbrack D\rbrack\) est finie, nous montrons que la f.c. de \(\overline{D}\) se comporte asymptotiquement comme celle de la loi Normale Standard, c’est le T.L.C.. Nous avons la première normalité asymptotique. Pour la convergence en probabilité, nous constatons que nous sommes en présence de v.a. qui sont i.i.d. et nous appliquons la Propriété 2 de la loi Faible des Grands Nombres. En posant \(h(t)=\sqrt{t}\), la Propriété 4 de la convergence en loi nous permet de conclure. \(\square\)

Alternative 1a.

Soit \(\delta_0\in{\mathbb R}\) donné et \(\alpha\in \rbrack 0\ ;\ 1\lbrack\) un seuil fixé. Pour tester l’alternative :

\({\cal H}_0^{(1a)}=\lbrace\delta_D\leq\delta_0\rbrace\quad\) contre \(\quad{\cal H}_1^{(1a)}=\lbrace \delta_0 < \delta_D\rbrace\),

ainsi que les autres Alternatives 1a associées, nous considérons le test asymptotique \(\psi^{(1a)}_{\infty}(d_{\bullet})=I_{\rbrack c\ ;\ +\infty\lbrack}(\overline{d})\), avec \( c=\delta_0+q_{1-\alpha}\dfrac{\sigma_D}{\sqrt{n}}\). Le nombre \(q_{1-\alpha}\) est le quantile d’ordre \(1-\alpha\) de la loi \({\cal N}(0\ ;\ 1)\). Ainsi en théorie :

si \(c < \overline{d}\), alors nous décidons «\({\cal H}_1^{(1a)}\) est vraie» ;
si \(\overline{d} \leq c\), alors nous décidons «\({\cal H}_0^{(1a)}\) est vraie».

L’écart type \(\sigma_D\) étant en général inconnu, nous l’estimons par \(S_c(D_{\bullet})\), qui est convergent. Donc \(c\) est estimé par \(\widehat{c}=\delta_0+q_{1-\alpha}\dfrac{S_c(d_{\bullet})}{\sqrt{n}}\). Ainsi en pratique :

si \(\widehat{c} < \overline{d}\), alors nous décidons «\({\cal H}_1^{(1a)}\) est vraie» ;
si \(\overline{d} \leq \widehat{c}\), alors nous décidons «\({\cal H}_0^{(1a)}\) est vraie».

Remarque 1. Si pour l’utilisateur décider à tort que la différence des moyennes théoriques de deux v.a. de lois inconnues, appariées, est plus grande qu’une valeur donnée a les conséquences les plus graves, c’est sur ce test \(\psi^{(1a)}_{\infty}(D_{\bullet})\) qu’il doit fonder sa démarche. Ce test \(\psi^{(1a)}_{\infty}\) au seuil \(\alpha\) est identique au test \(1-\psi^{(1b)}_{\infty}\), présenté ci-après, au seuil \(1-\alpha\). Le choix de l’atternative est donc fondamental.

Propriété 2. Le test \(\psi^{(1a)}_{\infty}\) satisfait à :

Pour tout \(\delta_D\in{\mathbb R},\ \delta_D\leq \delta_0\), nous avons \(\displaystyle\lim_{n\rightarrow +\infty}{\mathbb E}_{\delta_D}\lbrack\psi^{(1a)}_{\infty}(D_{\bullet})\rbrack \leq \displaystyle\lim_{n\rightarrow +\infty}{\mathbb E}_{\delta_0}\lbrack\psi^{(1a)}_{\infty}(D_{\bullet})\rbrack=\alpha\) ; le test est asymptotiquement de seuil \(\alpha\).
Pour tout \(\delta_D\in{\mathbb R},\ \delta_0\leq \delta_D\), nous avons \(\alpha \leq \displaystyle\lim_{n\rightarrow +\infty}{\mathbb E}_{\delta_D}\lbrack\psi^{(1a)}_{\infty}(D_{\bullet})\rbrack\) ; le test est asymptotiquement sans biais pour ce seuil.
Pour tout \(\delta_D\ \in{\mathbb R}\), une approximation de la fonction puissance asymptotique est donnée, par :
\(pu_{\psi^{(1a)}_{\infty}}(\delta_D)\approx1-\Phi\left(q_{1-\alpha}+\sqrt{n}\dfrac{\delta_0-\delta_D}{\sigma_D}\right)\).
Une estimation convergente de cette approximation est donnée par :
\(\widehat{pu}_{\psi^{(1a)}_{\infty}}(\delta_D)\approx 1-\Phi\left(q_{1-\alpha}+\sqrt{n}\dfrac{\delta_0-\delta_D}{S_c(d_{\bullet})}\right).\)

Un calcul simple sur la f.r. de la loi Normale Standard \(\Phi\) et l’appliquation de la Propriété 1., nous donnent ces résultats.\(\ \square\)

Remarque 2. Si nous avons observé \(\overline{D}=\overline{d}\), une approximation de la puissance a posteriori peut être estimée par :

\(\widehat{pu}_{\psi^{(1a)}_{\infty}}(\overline{d})\approx 1-\Phi\left(q_{1-\alpha}+\dfrac{\delta_0-\overline{d}}{S_c(d_{\bullet})}\right).\)

Propriété 3. Si nous avons observé \(\overline{D}=\overline{d}\), la \(p\)-valeur du test \(\psi^{(1a)}_{\infty}\) est donnée par \(p_{val}=1-\Phi\left(\sqrt{n}\dfrac{(\overline{d}-\delta_0)}{\sigma_D}\right)\). Ainsi en théorie :

si \(p_{val} < \alpha\), alors nous décidons «\({\cal H}_1^{(1a)}\) est vraie» ;
si \(\alpha \leq p_{val}\), alors nous décidons «\({\cal H}_0^{(1a)}\) est vraie».

L’écart type \(\sigma_D\) étant en général inconnu, nous l’estimons par \(S_c(D_{\bullet})\), qui est convergent ; donc la \(p-\)valeur peut être estimée par \(\widehat{p}_{val}=1-\Phi\left(\sqrt{n}\dfrac{(\overline{d}-\delta_0)}{S_c(d_{\bullet})}\right)\). Ainsi en pratique :

si \(\widehat{p}_{val} < \alpha\), alors nous décidons «\({\cal H}_1^{(1a)}\) est vraie» ;
si \(\alpha \leq \widehat{p}_{val}\), alors nous décidons «\({\cal H}_0^{(1a)}\) est vraie».

Pour le voir il suffit de montrer, en utilisant les propriétés de \(\Phi\), que les inégalités sur la \(p-\)valeur conduisent aux décisions données dans la définition du test.\(\ \square\)

Remarque 3. Nous avons créé dans R deux procédures. La première Test1aAsym2MoyeAppa permet de réaliser le test \(\psi^{(1a)}_{\infty}\). La seconde Puis1aAsym2MoyeAppa permet de calculer une estimation d’une approximation de la puissance asymptotique de ce test.

Exemple 1. Nous considérons les données de Sinistres. Nous notons \(X^{(1)}\) la v.a. «AGE du titulaire au moment du sinistre» et \(X^{(2)}\) la v.a. «PERM anciéneté du permis au moment du sinistre» ; ainsi la v.a. \(D\) correspond à l’âge d’acquisition du permis. Nous supposons que cette v.a. admet une variance théorique. Nous nous proposons de tester l’alternative :

\({\cal H}_0^{(1a)}=\lbrace\delta_D\leq 23\rbrace\quad\) contre \(\quad{\cal H}_1^{(1a)}=\lbrace 23 < \delta_D\rbrace\)

Nous utilisons la procédure Test1aAsym2MoyeAppa de la Remarque 3 ci-dessus. Après l’avoir compilée («sourcée» dans R), nous l’exécutons en indiquant les données à traiter, \(\delta_0=23\) et le seuil \(\alpha=0,01\) à utiliser, parce que \(n=356\).

Test1aAsym2MoyeAppa (Donnees[,1],Donnees[,2],23,0.01), réponse :
Test asymptotique de l'alternative : H^{(1a)}_0={ Delta_D ⩽ 23 } contre H^{(1a)}_1={ 23 < Delta_D }.
Premier échantillon, taille : 356 ; moyenne : 42.25 ; écart type : 11.77 .
Deuxième échantillon, taille : 356 ; moyenne : 18.52 ; écart type : 8.623 .

Moyenne observée des différences : 23.73 ; écart type observé des différences: 7.472 .

Seuil asymptotique du test : 0.01 ; estimation de la valeur critique : 23.92 .

Décision : «H^{(1a)}_0={ Delta_D ⩽ 23 } est vraie».

Estimation de la p-valeur : 0.03257 .

Estimation de la puissance asymptotique a posteriori est : 0.3149 .

Le test n’est pas significatif. La même conclusion s’obtient en comparant la \(p-\)valeur à \(0,01\). Etant donné la taille de l’échantillon \(n=356\), malgré la relative faiblesse de la puissance a posteriori (\(0,3149\)), nous pouvons faire confiance à notre décision. Nous pouvons estimer la puissance asymptotique de ce test aux points \(23,73\) et \(24\) par exemple. Après avoir compilé («sourcée» dans R) la procédure correspondante de la Remarque 3 ci-dessus, nous l’exécutons une première fois en indiquant les données à traiter, \(\delta_0=23,\ \alpha=0,01\) et \(\delta_D=23,73\) et une deuxième fois avec \(\delta_D=24\).

Puis1aAsym2MoyeAppa(Donnees[,1],Donnees[,2],23,0.01,23.73), réponse : 0.3146,
Puis1aAsym2MoyeAppa(Donnees[,1],Donnees[,2],23,0.01,24), réponse : 0.5788 .

Nous pouvons également tracer le graphique d’une estimation de l’approximation de la fonction puissance asymptotique du test avec la commande suivante :

plot( function(Delta_D) Puis1aAsym2MoyeAppa (Donnees[,1],Donnees[,2],23,0.01,Delta_D),22,25,xlab ="Delta_D",
ylab="pu", ylim= c(0,1), main="Fig. 1. approximation de la puissance\n asymptotique du test 1a.", col="green4"),
segments( x0=c(23,23,23.73,23.73,24,24), y0=c((0,0.01,0,0.3146,0,0.5788), x1=c(23,0,23.73,0,24,0), y1=c(0.01,0.01,0.3146,0.3146,0.5788,0.5788), col="blue"))
points( x=c(23,23.73,24), y=c(0.01,0.3146,0.5788), col="red", pch=".", cex=5), réponse :

Le test est bien asymptotiquement de seuil \(0,01\) et sans biais. Nous avons marqué en rouge les points de coordonnées \((\delta_0\ ;\ \alpha)=(23\ ;\ 0,01)\), \((23,73\ ;\ \widehat{pu}(23,73))\approx(23,73\ ;\ 0,3146)\) et \((24\ ;\ \widehat{pu}(24))\approx(24\ ;\ 0,5788)\). \(\ \square\)

Alternative 1b.

Soit \(\delta_0\in{\mathbb R}\) donné et \(\alpha\in \rbrack 0\ ;\ 1\lbrack\) un seuil fixé. Pour tester l’alternative :

\({\cal H}_0^{(1b)}=\lbrace\delta_0\leq\delta_D\rbrace\quad\) contre \(\quad{\cal H}_1^{(1b)}=\lbrace \delta_D < \delta_0\rbrace\),

et les autres Alternatives 1b, nous considérons le test asymptotique \(\psi^{(1b)}_{\infty}(d_{\bullet})=I_{\rbrack -\infty\ ;\ c\lbrack}(\overline{d})\), avec \(c=\delta_0+q_{\alpha}\dfrac{\sigma_D}{\sqrt{n}}\); le nombre \(q_{\alpha}\) est le quantile d’ordre \(\alpha\) de la loi \({\cal N}(0\ ;\ 1)\). Ainsi en théorie :

si \(\overline{d} < c\), alors nous décidons «\({\cal H}_1^{(1b)}\) est vraie» ;
si \(c \leq \overline{d}\), alors nous décidons «\({\cal H}_0^{(1b)}\) est vraie».

L’écart type \(\sigma_D\) étant en général inconnu, nous l’estimons par \(S_c(D_{\bullet})\), qui est convergent. Donc \(c\) est estimé par \(\widehat{c}=\delta_0+q_{\alpha}\dfrac{S_c(d_{\bullet})}{\sqrt{n}}\). Ainsi en pratique :

si \(\overline{d}< \widehat{c} \), alors nous décidons «\({\cal H}_1^{(1b)}\) est vraie» ;
si \(\widehat{c} \leq \overline{d}\), alors nous décidons «\({\cal H}_0^{(1b)}\) est vraie».

Remarque 4. Si pour l’utilisateur décider à tort que la différence des moyennes théoriques de deux v.a. de lois inconnues, appariées, est plus petite qu’une valeur donnée a les conséquences les plus graves, c’est sur ce test \(\psi^{(1b)}_{\infty}(D_{\bullet})\) qu’il doit fonder sa démarche. Ce test \(\psi^{(1b)}_{\infty}\) au seuil \(\alpha\) est identique au test \(1-\psi^{(1a)}_{\infty}\), présenté ci-avant, au seuil \(1-\alpha\). Le choix de l’atternative est donc fondamental.

Propriété 4. Le test \(\psi^{(1b)}_{\infty}\) satisfait à :

Pour tout \(\delta_D\in{\mathbb R},\ \delta_0\leq \delta_D\), nous avons \(\displaystyle\lim_{n\rightarrow +\infty}{\mathbb E}_{\delta_D}\lbrack\psi^{(1b)}_{\infty}(D_{\bullet})\rbrack \leq \displaystyle\lim_{n\rightarrow +\infty}{\mathbb E}_{\delta_0}\lbrack\psi^{(1b)}_{\infty}(D_{\bullet})\rbrack=\alpha\) ; le test est asymptotiquement de seuil \(\alpha\).
Pour tout \(\delta_D\in{\mathbb R},\ \delta_D\leq \delta_0\), nous avons \(\alpha \leq \displaystyle\lim_{n\rightarrow +\infty}{\mathbb E}_{\delta_D}\lbrack\psi^{(1b)}_{\infty}(D_{\bullet})\rbrack\) ; le test est asymptotiquement sans biais à ce seuil.
Pour tout \(\delta_D\ \in{\mathbb R}\), une approximation de la fonction puissance asymptotique est donnée, par :
\(pu_{\psi^{(1b)}_{\infty}}(\delta_D)\approx \Phi\left(q_{\alpha}+\sqrt{n}\dfrac{\delta_0-\delta_D}{\sigma_D}\right)\).
Une estimation convergente de cette approximation est donnée par :
\(\widehat{pu}_{\psi^{(1b)}_{\infty}}(\delta_D)\approx \Phi\left(q_{\alpha}+\sqrt{n}\dfrac{\delta_0-\delta_D}{S_c(d_{\bullet})}\right).\)

Un calcul simple sur la f.r. de la loi Normale Standard \(\Phi\) et l’appliquation de la Propriété 1., nous donnent ces résultats.\(\ \square\)

Remarque 5. Si nous avons observé \(\overline{D}=\overline{d}\), une approximation de la puissance asymptotique a posteriori peut être estimée par :

\(\widehat{pu}_{\psi^{(1b)}_{\infty}}(\overline{d})\approx \Phi\left(q_{\alpha}+\dfrac{\delta_0-\overline{d}}{S_c(d_{\bullet})}\right).\)

Propriété 5. Si nous avons observé \(\overline{D}=\overline{d}\), la \(p\)-valeur du test \(\psi^{(1b)}_{\infty}\) est donnée par \(p_{val}=\Phi\left(\sqrt{n}\dfrac{(\overline{d}-\delta_0)}{\sigma_D}\right)\). Ainsi en théorie ;

si \(p_{val} < \alpha\), alors nous décidons «\({\cal H}_1^{(1b)}\) est vraie» ;
si \(\alpha \leq p_{val}\), alors nous décidons «\({\cal H}_0^{(1b)}\) est vraie».

L’écart type \(\sigma_D\) étant en général inconnu, nous l’estimons par \(S_c(D_{\bullet})\), qui est convergent ; donc la \(p-\)valeur peut àtre estimée par \(\widehat{p}_{val}=\Phi\left(\sqrt{n}\dfrac{(\overline{d}-\delta_0)}{S_c(d_{\bullet})}\right)\). Ainsi en pratique :

si \(\widehat{p}_{val} < \alpha\), alors nous décidons «\({\cal H}_1^{(1b)}\) est vraie» ;
si \(\alpha \leq \widehat{p}_{val}\), alors nous décidons «\({\cal H}_0^{(1b)}\) est vraie».

Pour le voir il suffit de montrer, en utilisant les propriétés de \(\Phi\), que les inégalités sur la \(p-\)valeur conduisent aux décisions données dans la définition du test.\(\ \square\)

Remarque 6. Nous avons créé dans R deux procédures. La première Test1bAsym2MoyeAppa permet de réaliser le test \(\psi^{(1b)}_{\infty}\). La seconde Puis1bAsym2MoyeAppa permet de calculer une estimation de l’approximation de la puissance asymptotique du test.

Exemple 2. Nous considérons les données de Sinistres, les mêmes que celles de l’Exemple 1. précédent. Nous notons \(X^{(1)}\) la v.a. «AGE du titulaire au moment du sinistre» et \(X^{(2)}\) la v.a. «PERM anciéneté du permis au moment du sinistre» ; ainsi la v.a. \(D\) correspond à l’âge d’acquisition du permis. Nous supposons que cette v.a. admet une variance théorique. Nous nous proposons de tester l’alternative :

\({\cal H}_0^{(1b)}=\lbrace 20 \leq \delta_D\rbrace\quad\) contre \(\quad{\cal H}_1^{(1b)}=\lbrace \delta_D < 20\rbrace\)

Nous utilisons la procédure Test1bAsym2MoyeAppa de la Remarque 6 ci-dessus. Après l’avoir compilée («sourcée» dans R), nous l’exécutons en indiquant les données à traiter, \(\delta_0=20\) et le seuil \(\alpha=0,01\) à utiliser, parce que \(n=356\).

Test1bAsym2MoyeAppa (Donnees[,1],Donnees[,2],20,0.01), réponse :
Test asymptotique de l'alternative : H^{(1b)}_0={ 20 ⩽ Delta_D } contre H^{(1b)}_1={ Delta_D < 20 }.
Premier échantillon, taille : 356 ; moyenne : 42.25 ; écart type : 11.77 .
Deuxième échantillon, taille : 356 ; moyenne : 18.52 ; écart type : 8.623 .

Moyenne observée des différences : 23.73 ; écart type observé des différences: 7.472 .

Seuil asymptotique du test : 0.01 ; estimation de la valeur critique : 19.08 .

Estimation de la p-valeur : 1 .

Décision : «H^{(1b)}_0={ Delta_D >= 20 } est vraie».

Le test n’est pas significatif. La même conclusion s’obtient en comparant la \(p-\)valeur (assimilée à \(1\) !) à \(0,01\). Etant donné la taille de l’échantillon \(n=356\), comme le risque au point \(23,73\) est très faible (\(3.719e-32\)), nous pouvons faire confiance à notre décision. Nous pouvons estimer une approximation de la puissance asymptotique de ce test aux points \(\delta_D=20.5\) et \(\delta_D=18.7\) par exemple. Après avoir compilé («sourcée» dans R) la procédure correspondante de la Remarque 6 ci-dessus, nous l’exécutons une première fois en indiquant les données à traiter, \(\delta_0=20,\ \alpha=0,01\) et \(\delta_D=20.5\) et une deuxième fois avec \(\delta_D=18.7\).

Puis1bAsym2MoyeAppa(Donnees[,1],Donnees[,2],20,0.01,20.5), réponse : 0.000166,
Puis1bAsym2MoyeAppa(Donnees[,1],Donnees[,2],23,0.01,18.7), réponse : 0.8306 .

Nous pouvons également tracer le graphique d’une estimation de l’approximation de la fonction puissance asymptotique du test avec la commande suivante :

plot( function(Delta_D) Puis1bAsym2MoyeAppa (Donnees[,1],Donnees[,2],20,0.01,DeltaD),18,21, xlab="Delta_D",
ylab="pu", ylim= c(0,1), main="Fig. 2. Approximation de la puissance\n asymptotique du test 1b.", col="green4"),
segments( x0=c(20,20,20.5,20.5,18.7,18.7), y0=c(0,0.01,0,0.000166,0,0.8306), x1=c(20,0,20.5,0,18.7,0), y1=c(0.01,0.01,0.000166,0.000166,0.8306,0.8306), col="blue"))
points( x=c(20,20.5,18.7), y=c(0.01,0.000166,0.8306), col="red", pch=".", cex=5), réponse :

Le test est bien asymptotiquement de seuil \(0,01\) et sans biais. Nous avons marqué en rouge les points de coordonnées \((\delta_0\ ;\ \alpha)=(20\ ;\ 0,01)\), \((20,5\ ;\ \widehat{pu}(20,5))\approx(20,5\ ;\ 0,000166)\) et \((18,7\ ;\ \widehat{pu}(18,7))\approx(18,7\ ;\ 0,8306)\). \(\ \square\)

Haut de la page.

7. Tests classiques d’hypothèses.

7. Tests classiques d’hypothèses.

7.5.3.a. Tests sur la différence des moyennes théoriques de deux v.a. appariées - Contre-hypothèses unilatérales.