le logo du site

6. Estimation.

6.4.2. Estimation de la différence de deux moyennes théoriques.

Nous donnons une estimation ponctuelle et un intervalle de confiance de la différence des moyennes théoriques de deux v.a., notées \(X^{(1)}\) et \(X^{(2)}\), de lois inconnues. Nous utilisons des méthodes asymptotiques générales, forcément approximatimatives. C’est pourquoi nous proposons de procéder avec des échantillons de taille au moins \(50\).

Premier cas : les deux v.a. sont indépendantes.

Comme pour les tests sur la différence de deux moyennes théoriques dans le cas indépendant, nous supposons que les deux v.a. \(X^{(1)}\) et \(X^{(2)}\), de lois inconnues, admettent des variances théoriques, \({\mathbb V}ar\lbrack X^{(i)}\rbrack=\sigma^2_i\), et donc une moyenne théorique \({\mathbb E}\lbrack X^{(i)}\rbrack=\mu_i\), finies pour \(i=1,\ 2\). Nous nous proposons d’estimer \(\delta_{\mu}=\mu_1-\mu_2\), sans estimer forcément chacune des moyennes \(\mu_1\) et \(\mu_2\) séparément. Soit \(X_{\bullet}^{(i)}=(X_1^{(i)},\ \cdots,\ X_{n_i}^{(i)})\) un \(n_i\)-échantillon de \(X^{(i)},\ i=1,\ 2\). La méthode des moments nous donne l’estimateur :

\[ D_m(X_{\bullet}^{(1)}\ ;\ X_{\bullet}^{(2)}) = D_m = \overline{X^{(1)}}-\overline{X^{(2)}}=\frac{1}{n_1}\sum_{j=1}^{n_1}X_j^{(1)}-\frac{1}{n_2}\sum_{j=1}^{n_2}X_j^{(2)}. \]

Propriété 1. la statistique \(D_m\) est un estimateur sans biais de \(\delta\). Sous l’hypothèse que \(\sigma_i^2,\ i=1,\ 2\) sont finies, lorsque \(n_1,\ n_2 \rightarrow +\infty\) simultanément, il est aussi convergent et asymptotiquement normal.

Pour voir que \(D_m\) est sans biais il suffit d’appliquer les Propriétés 1 et 3 des moyennes théoriques. Pour la convergence, nous constatons que nous sommes en présence de v.a. qui sont i.i.d. et nous appliquons les Propriétés 1 et 3 des variances théoriques et la Propriété 2 de la loi Faible des Grands Nombres. Pour la normalité asymptotique, comme \({\mathbb V}ar\lbrack D_m\rbrack=\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}\), nous montrons que la f.c. de \(D_m\) se comporte asymptotiquement comme celle de la loi Normale Standard.\(\quad\square\)

Comme \({\cal L}(X^{(i)}),\ i=1,\ 2\), sont inconnues, nous ne savons rien pour ce qui concerne les autres propriétés de \(D_m\), en particulier son efficacité. Pour construire un intervalle de confiance de \(\delta_{\mu}\), nous ne pouvons pas utiliser la propriété précédente. En effet la statistique dépend de \(\sigma_i,\ i=1,\ 2\). Pour contourner cette difficulté nous considérons :

\[ S_c^2(X_{\bullet}^{(i)}) = \frac{1}{n_i-1}\sum_{j=1}^{n_i}(X_j^{(i)}-\overline{X^{(i)}})^2,\ i=1,\ 2. \]

Sous l’hypothèse que \({\mathbb V}ar\lbrack X^{(i)}\rbrack=\sigma_i^2 < +\infty,\ i=1,\ 2\), nous savons par ailleurs que \(S_c^2(X_{\bullet}^{(i)}),\ i=1,\ 2\), sont des estimateurs convergents et sans biais de \(\sigma^2_i,\ i=1,\ 2\), respectivement. Nous pouvons énoncer le résultat suivant.

Propriété 2. Sous l’hypothèse que \({\mathbb V}ar\lbrack X^{(i)}\rbrack=\sigma_i^2 < +\infty,\ i=1,\ 2\), nous construisons l’intervalle asymptotique de confiance de \(\delta_{\mu}\) au seuil \(\alpha\) :

\[ I^{\infty}_{conf}(\delta_{\mu}\ ;\ \alpha\ ;\ x_{\bullet}^{(1)},\ x_{\bullet}^{(2)})= \] \[ =\left\lbrack \overline{x^{(1)}}-\overline{x^{(2)}}-c_{\alpha}\sqrt{\frac{S_c^2(x_{\bullet}^{(1)})}{n_1}+\frac{S_c^2(x_{\bullet}^{(2)})}{n_2}}; \ \overline{x^{(1)}}-\overline{x^{(2)}}+c_{\alpha}\sqrt{\frac{S_c^2(x_{\bullet}^{(1)})}{n_1}+\frac{S_c^2(x_{\bullet}^{(2)})}{n_2}}\right\rbrack, \]

où \(c_{\alpha}\) est le quantile d’ordre \(\displaystyle 1-\frac{\alpha}{2}\) de la loi Normale \({\cal N}(0\ ;\ 1)\).

En effet, de ce qui précède nous pouvons écrire :

\[ \lim_{n_1,\ n_2\rightarrow +\infty} {\cal L}\Big(\frac{D_m-\delta_{\mu}}{\sqrt{\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}}}\Big)={\cal N}(0\ ;\ 1) \qquad {\rm et} \qquad S_c^2(X_{\bullet}^{(i)})\overset{P}{\underset{n_i\rightarrow+\infty}\longrightarrow}\sigma^2_i,\ i=1,\ 2 . \]

En posant \(h(t)=\sqrt{t}\), la Propriété 4 de la convergence en loi nous permet de conclure :

\[ \lim_{n_1,\ n_2\rightarrow +\infty} {\cal L}\Big(\frac{D_m-\delta_{\mu}}{\sqrt{\dfrac{S_c^2(x_{\bullet}^{(1)})}{n_1}+\dfrac{S_c^2(x_{\bullet}^{(2)})}{n_2}}}\Big)={\cal N}(0\ ;\ 1). \]

C’est-à-dire que nous avons une statistique asymptotiquement pivotale en \(\delta_{\mu}. \quad\square\)

Propriété 3. Si la taille totale des deux échantillons \(n=n_1+n_2\) est fixée, les tailles \(n_i,\ i=1,\ 2\) qui minimisent \({\mathbb V}ar\lbrack D\rbrack\) sont respectivement :

\[ n_1=n\frac{\sigma_1}{\sigma_1+\sigma_2},\quad n_2=n\frac{\sigma_2}{\sigma_1+\sigma_2}. \]

Ainsi pour avoir le plus petit intervalle de confiance possible, nous devons considérer des échantillons dont les tailles sont proportionnelles aux écarts type. Mais ceux-ci étant en général inconnus, nous pouvons a posteriori en avoir un aperçu en remplaçant les écarts type théoriques par les observés.

Exemple 1. Nous considérons l’exemple des Sinistres. Nous nous proposons d’estimer la différence des moyennes théoriques entre les coûts des sinistres dont le conducteur a une part de responsabilité et ceux où le conducteur n’a aucune responsabilté. Nous notons \(X^{(1)}\) la v.a. « Coût du sinistre avec une part de responsabilité» et \(X^{(2)}\) la v.a. « Coût du sinistre sans responsabilité». Nous supposons que ces v.a. admettent une moyenne et une variance théorique et que leurs réalisations sont obtenues de manières indépendantes. Avec les commandes suivantes nous créons deux vecteurs contenant les données à traiter:

X1=subset(Donnees,RESP > 0, select= c(RESP,MONT))
X2=subset(Donnees,RESP == 0, select= c(RESP,MONT))

Les commandes mean, sd et qnorm permettent d’obtenir les résultats de l’estimation. Nous avons créé une procédure qui donne les mêmes résultats, EstimatAsympDiff2MoyennesIndep. Après l’avoir compilée («sourcée» dans R), nous l’exécutons en indiquant les données à traiter et le seuil à utiliser :

EstimatAsympDiff2MoyennesIndep(X1[,2],X2[,2],0.05), réponse :
Estimation asymptotique de la différence de deux moyennnes théoriques de v. a. indépendantes.

Premier échantillon, taille : 67 ; moyenne : 764.1239 ; écart type : 596.1113 .
Deuxième échantillon, taille : 289 ; moyenne : 275.1251 ; écart type : 517.4804 .

Estimation de la différence des 2 moyennes : 488.9988 .
Estimation de l'écart type de la différence des 2 moyennes : 78.93229 .
Coefficient de variation : 16.14161 %.

Seuil asymptotique de l'intervalle de confiance : 0.05 .
L'intervalle asymptotique de confiance est : [ 334.2944 ; 643.7033 ].

Estimation de la taille optimale des échantillons : 165 et 191 .

Interprétation. Nous constatons que l’estimation de la différence des deux moyennes théoriques est très importante. Le coefficient de variation est élevé. Ceci montre que non seulement il y a un surcoût en cas de resposabilité dans le sinistre, mais également que ce surcoût n’est pas uniforme. Notons qu’il y a un important déséquilibre des tailles des échantillons observés. Pour avoir une estimation plus précise il faudrait les rééquilibrer.\(\quad\square\)

Deuxième cas : les deux v.a. sont appariées.

Comme pour les tests sur la différence de deux moyennes théoriques dans le cas apparié, nous observons deux v.a. \(X^{(1)}\) et \(X^{(2)}\), de lois inconnues, sur les mêmes unités. La situation expérimentale typique est le cas où chaque unité est observée «avant», résultat \(X^{(1)}\), et «après», résultat \(X^{(2)}\), un traitement. Nous supposons qu’elles admettent une variance théorique, \({\mathbb V}ar\lbrack X^{(i)}\rbrack=\sigma^2_i,\ i=1,\ 2\), et donc une moyenne théorique \({\mathbb E}\lbrack X^{(i)}\rbrack=\mu_i,\ i=1,\ 2\) et une covariance théorique \({\mathbb C}ov\lbrack X^{(1)},\ X^{(2)}\rbrack=cov\) finies. Nous nous proposons d’estimer \(\delta_D=\mu_1-\mu_2\), sans estimer forcément chacune des moyennes \(\mu_1\) et \(\mu_2\) séparément. Posons \(D=X^{(1)}-X^{(2)}\) ; nous observons \(D_{\bullet}=(D_1,\ \cdots,\ D_n)=(X_1^{(1)}-X_1^{(2)},\ \cdots,\ X_n^{(1)}-X_n^{(2)})\) un \(n\)-échantillon de la v.a. différence \(D\) et nous considérons les statistiques :

\[ \overline{D} =\frac{1}{n}\sum_{j=1}^nD_j,\quad S_c^2(D_{\bullet}) = \frac{1}{n-1}\sum_{j=1}^n(D_j-\overline{D})^2. \]

Des Propriétés 1 et 2 de l’estimation d’une moyenne théorique et de la Propriété 5 des moments d’un v.a. de dimension \(2\), nous déduisons :

\[ {\mathbb E}\lbrack\overline{D}\rbrack =\delta_m,\quad {\mathbb V}ar\lbrack\overline{D}\rbrack = \frac{1}{n}(\sigma_1^2+\sigma_2^2-2cov)=\sigma^2_D. \]

Bien entendu cette variance est inconnue. Nous l’estimons avec \(S_c^2(D_{\bullet})\). De manière identique à celles Propriétés 1, 2 et 4 de l’estimation d’une moyenne théorique nous avons :

Propriété 4. Sous l’hypothèse que \({\mathbb V}ar\lbrack X^{(i)}\rbrack=\sigma_i^2 < +\infty,\ i=1,\ 2\), la statistique \(\overline{D}\) est un estimateur sans biais, covergent et asymptotiquement normal de \(\delta_D\). De plus nous construisons l’intervalle asymptotique de confiance de \(\delta_D\) au seuil \(\alpha\) en posant :

\[ I^{\infty}_{conf}(\delta_D\ ;\ \alpha\ ;\ di_{\bullet})=\left\lbrack \overline{d}-c_{\alpha}\frac{S_c(d_{\bullet})}{\sqrt{n}}\ ;\ \overline{d}-c_{\alpha}\frac{S_c(d_{\bullet})}{\sqrt{n}}\right\rbrack, \]

où \(c_{\alpha}\) est le quantile d’ordre \(\displaystyle 1-\frac{\alpha}{2}\) de la loi Normale \({\cal N}(0\ ;\ 1)\).

Exemple 2. Nous considérons à nouveau l’exemple des Sinistres. Nous nous proposons d’estimer la différence des moyennes théoriques entre les l’âge du conducteur au moment du sinistre noté \(X^{(1)}\) et l’ancienneté de son permis au même moment noté (X^{(2)}\), c’est-à-dire en réalité l’âge d’obtention du permis de conduire pour ces conductuers qui ont eu un sinistre. Les variables sont bien appariées. Nous supposons que la différence de ces v.a. admet une moyenne et une variance théorique et que les réalisations d’une personne à l’autre sont indépendantes. Avec les commandes suivantes nous créons un objet contenant les données à traiter:

Donnees1=subset(Donnees, select= c(AGE,PERM))

Les commandes mean, sd et qnorm permettent d’obtenir les résultats de l’estimation. Nous avons créé une procédure, analogue à celle de l’estimation d’une moyenne théorique, qui permer d’obtenir les mêmes résultats, EstimatAsympDiff2MoyennesAppar. Après l’avoir compilée («sourcée» dans R), nous l’exécutons en indiquant les données à traiter et le seuil à utiliser :

EstimatAsympDiff2MoyennesAppar(Donnees1[,1],Donnees1[,2],0.05), réponse :
Estimation asymptotique de la différence de deux moyennnes théoriques de v. a. appariées.

Premier échantillon, taille : 356 ; moyenne : 42.24719 ; écart type : 11.76773 .
Deuxième échantillon, taille : 356 ; moyenne : 18.51685 ; écart type : 8.623404 .

Estimation de la moyenne théorique des différrences : 23.73034 .
Estimation de l'écart type théorique des différences : 7.471658 .

Seuil asymptotique de l'intervalle de confiance : 0.05 .
L'intervalle asymptotique de confiance est : [ 22.9542 ; 24.50648 ].

Interprétation. Nous constatons que l’estimation de la différence des deux moyennes théoriques est \(23,73\) ans. C’est une estimation de l’âge moyen d’obtention du permis de conduire dans cette population des conducteurs qui ont eu un sinistre. A noter que la taille élevée de l’échantillon nous donne un intervalle de confiance de très faible amplitude.\(\quad\square\)

Haut de la page.