le logo du site

6. Estimation.

6.2.5. Khi-deux minimum.

Soit \(X\) une v.a. dont la loi dépend de \(s\) paramètres notés \(\theta \in \Theta\subset {\mathbb R}^s\). Soit \(x_{\bullet}\) un \(n-\)échantillon de \(X\). Nous considérons une distribution statistique associée à cet échantillon. Nous la notons :

\[ Dist(x_{\bullet})=\lbrace (c_1, n_1),\ (c_2, n_2),\cdots ,\ (c_r, n_r)\rbrace, \]

où les \(c_i\) désignent soit des modalités (cas discret) soit des classes (cas continu), et \(n_i=n_i(x_{\bullet})\) les effectifs associés, c’est-à-dire que \(n_i(x_{\bullet})\) est le nombre d’observations de l’échantillon qui sont, soit égales à la modalité \(c_i\), soit dans la classe \(c_i\). Nous avons \(n=n_1+\cdots +n_r\). Nous notons également \(p_i(\theta)\) la probabilité sous la loi \({\cal L}_{\theta}(X)\) de \(c_i\).

Définition 1. Nous appelons statistique du khi-deux d’adéquation de la distribution \(Dist(x_{\bullet})\) à la loi \({\cal L}_{\theta}(X)\) la fonction :

\[ kh(x_{\bullet}\ ;\ \theta)=\sum_{i=1}^r\frac{(n_i-np_i(\theta))^2}{np_i(\theta)}. \]

Interprétation. Le vecteur \(\sideset{^t}{}{(np_1(\theta),\cdots,\ np_r(\theta))}\) correspond aux effectifs théoriques. Ainsi la statistique du khi-deux d’adéquation mesure la distance entre les effectifs observés et les effectifs théoriques. Chacune des différences considérées est pondérée par l’inverse de l’effectif associé, tenant ainsi plus compte de ces différences pour de faibles effectifs que pour des effectifs élevés. Cette statistique tout à fait naturelle a été proposée en 1900 par K. Pearson.

Définition 2. Nous appelons estimateur de \(\theta\) par la méthode du khi-deux minimun la fonction :

\[ T(x_{\bullet})=\arg\lbrace \min_{\theta\in\Theta}kh(x_{\bullet}\ ;\ \theta)\rbrace. \]

Interprétation. Ainsi nous choisissons comme estimateur des paramètres les valeurs pour lesquelles les effectifs observés sont le plus proches des effectifs théoriques. Cette méthode a été élaborée par H. Cramér et par C. Rao.

Remarques. En général nous n’avons pas d’expression explicite de l’estimateur, mais uniquement des réalisations calculées sur l’échantillon. Notons également que l’estimateur dépend du choix des modalités ou classes. Il est possible, afin de faciliter les calculs, d’utiliser une statistique du khi-deux d’adéquation modifiée :

\[ kh_{mod}(x_{\bullet}\ ;\ \theta)=\sum_{i=1}^r\frac{(n_i-np_i(\theta))^2}{n_i}. \]

Cette modification permet d’obtenir dans certains cas une expression explicite de \(T(x_{\bullet})\), mais qui converge plus lentement.

Propriété 1. Nous donnons la version multivariée de la propriété et nous supposons que les conditions (CR 0), (CR 1), (CR 2), (CR 3) et (CR 5) sont satisfaites. Alors l’estimateur du khi-deux minimum \(T(X_{\bullet})\) converge en probabilité vers la «vraie» valeur de \(\theta\) ; il est également asymptotiquement sans biais, efficace et normal. Nous avons :

\[ \lim_{n\rightarrow +\infty} {\cal L}_{\theta}\left(\sqrt{n}(T(X_{\bullet})-\theta)\right)={\cal N}_s(0\ ;\ I(\theta)^{-1}), \]

où \(I(\theta)\) est la matrice d’information de Fisher associée à \(\theta\). De plus \(T(X_{\bullet})\) est asymptotiquement indépendant de \(kh(X_{\bullet}\ ;\ T(X_{\bullet}))\) et

\[ \lim_{n\rightarrow +\infty} {\cal L}_{\theta}\left(kh(X_{\bullet}\ ;\ T(X_{\bullet})\right)=\chi^2_{r-s-1}, \]

où \(s\) est la dimension de \(\theta\).

Remarque. Il est généralement admis que, pour pouvoir utiliser les propriétés asymptotiques, nous devons avoir \(n> 50\) et \(np_i \geq 5\), pour tout \(i=1,\ \cdots,\ r.\)

Exemple 1. Nous considérons l’Exemple 3. Nous avons observé le nombre d’arrêts d’une chaîne de production durant \(n=1000\) périodes de huit heures. La distribution des données est la suivante :

Nombre d’arrêts\(\quad 0\quad\) \(\quad 1\quad\)\(\quad 2\quad\) \(\quad 3\quad\)\(\quad 4\quad\)
Nombre de périodes\(\quad 509\quad\) \(\quad 327\quad\)\(\quad 125\quad\) \(\quad 35\quad\)\(\quad 4\quad\)

Pour chaque période \(i\ ,\ i=1,\ \cdots,\ n,\) nous notons \(X_i\) le nombre d’arrêts de la chaîne. Nous supposons que tous les \(X_i\) suivent la même loi de Poisson \({\cal P}(\lambda)\), et sont indépendantes les unes des autres. Nous étendons la denière modalité de la distribution à « 4 et plus ». Tous les calculs sont effectués dans R.

La moyenne des observations est : mean(Donnees) ; réponse : 0.698. Nous enregistrons les effectifs observés dans le vecteur noté ni : ni = c(509,327,125,35,4) ; puis nous utilisons la procédure créée dans R PoissonKhideuxAjust. Après l’avoir sourcée, elle est invoquée en indiquant les effectifs observés et une valeur initiale du paramètre. Elle nous permet d’obtenir, entre autres, une estimation de celui-ci par la méthode du khi-deux minimum. Nous l’exécutons en prenant comme valeur initiale la moyenne observé :

PoissonKhideuxAjust(ni,0.698) ;
réponse :
Estimation ponctuelle du paramètre par la méthode du khi-deux minimum :
lambda-chapeau = 0.701382

Statistique du khi-deux d’ajustement pour cette valeur du paramètre : kh = 3.695338
Degrés de liberté : ddl = 3 , \(p-\)valeur : p = 0.296297

Probabilités théoriques pour cette valeur du paramètre :
0.4958995  0.347815  0.1219756  0.02851716  0.005792779

Les degrés de liberté et la \(p-\)valeur sont utilisés dans le cadre du test du khi-deux d’ajustement. En considérant la plus petite des probabilités théoriques, comme \(n=1000\) et \(0,005796145\ n =5,796145\), nous en déduisons que les conditions de validité des propriétés asymptotiques sont satisfaites. Nous décidons de retenir comme estimation du paramètre \({\widehat \lambda}=0,701382\). Cependant il faut noter que cette estimation du paramètre d’une loi de Poisson n’est pas la meilleure possible.\(\quad\square\)

Exemple 2. Nous considérons l’Exemple 4. Nous avons dosé une substance dans \(n=150\) flacons choisis au hasard sur une chaîne de production d’une usine pharmaceutique. Nous supposons que ces dosages sont des réalisations indépendantes d’une v.a. \(X\) qui suit une loi Normale et nous nous proposons d’estimer les paramètres \(\theta=\sideset{^t}{}{(\mu,\ \sigma)}\) par la méthode du khi-deux minimum. Nous obtenons, dans R, la distribution statistique des données avec la commande suivante :

Distri= hist(Donnees[,2],breaks="Sturges",
plot=FALSE,right=TRUE,include.lowest=TRUE)
.

L’objet Distri ainsi créé, contient, entre autres, les sous-objets suivants :

Distri$breaks ;
réponse : [1] 568 570 572 574 576 578 580 582 ;
Distri$counts ;
réponse : [1] 15 26 33 42 20 11 3.

C’est-à-dire que nous avons le tableau :

Dosages\(\ \lbrack 568\ ;\ 570\rbrack\ \) \(\ \rbrack 570\ ;\ 572\rbrack\ \)\(\ \rbrack 572\ ;\ 574\rbrack\ \)\) \(\ \rbrack 574\ ;\ 576\rbrack\ \)
Effectifs\(\quad 15\quad \) \(\quad 26\quad\)\(\quad 33\quad\) \(\quad 42\quad\)
Dosages\(\ \rbrack 576\ ;\ 578\rbrack\ \) \(\ \rbrack 578\ ;\ 580\rbrack\ \)\(\ \rbrack 580\ ;\ 582\rbrack\ \)
Effectifs\(\quad 20\quad\) \(\quad 11\quad\)\(\quad 3\quad\)

La moyenne des observations est : mean(Donnees) ; réponse : 574.3267 ; l’écart type des observations, associé à la variance corrigée, est : sd(Donnees) ; réponse : 3.039994 . Nous utilisons la procédure créée dans R KhideuxAjustNorm. Après l’avoir sourcée, elle est invoquée en indiquant les effectifs observés Ni = Distri$counts, les bornes des classes Bornes = Distri$breaks, une valeur initiale pour le paramètre moyenne Mo=574 (valeur proche de la moyenne observée) et eu une pour le paramètre écart type Ec=3.04 (valeur proche de l’écart type observé). Elle nous permet d’obtenir, entre autres, des estimations de ces deux paramètres par la méthode du khi-deux minimum. Nous avons :

KhideuxAjustNorm(Ni,Bornes,Mo,Ec) ;
réponse :
Estimations ponctuelles des paramètres par la méthode du khi-deux minimum :
mu-chapeau = 573.898 sigma-chapeau = 3.00733

Statistique du khi-deux d’ajustement pour ces valeurs des paramètres : kh = 2.02747
Degrés de liberté R-1-2: ddl = 4 , \(p-\)valeur : p = 0.730706

Probabilités théoriques pour ces valeurs des paramètres :
0.0974686  0.166529  0.249553  0.244178  0.155996  0.0650505  0.021224

Les degrés de liberté et la \(p-\)valeur sont utilisés dans le cadre du test du khi-deux d’ajustement. En considérant la plus petite des probabilités théoriques, comme \(n=150\) et \(150\times 0,021224=3,1836\), nous constatons que la deuxième condition des propriétés asymptotiques n’est pas satisfaite. Pour contourer cette difficulté, nous allons regrouper en une seule classe les deux dernières classes qui correspondent aux deux probabilités théoriques les plus faible. Nous posons : NiB = c(15,26,33,42,20,14) et BornesB = c(568,570,572,574,576,578,580). Nous relançons alors l’estimation. Nous obtenons :

KhideuxAjustNorm(NiB,BornesB,Mo,Ec) ;
réponse :
Estimations ponctuelles des paramètres par la méthode du khi-deux minimum :
mu-chapeau = 573.897 sigma-chapeau = 3.05274

Statistique du khi-deux d’ajustement pour ces valeurs des paramètres : kh = 1.92694
Degrés de liberté R-1-2: ddl = 3 , \(p-\)valeur : p = 0.587709

Probabilités théoriques pour ces valeurs des paramètres :
0.100898  0.166302  0.2463  0.241087  0.155963  0.0894511

Nous constatons à présent que les conditions sont satisfaites : \(n=150\) et \(150\times 0,0894511=13,4177\). Nous décidons de retenir comme estimation des paramètres \(T(x_{\bullet})=({\widehat \mu}\ ,\ {\widehat \sigma})=(573,897\ ;\ 3,05274)\). Cependant il faut noter que cette estimation des paramètres d’une loi de Normale n’est pas la meilleure possible. \(\quad\square\)

Références. Des détails sur cette méthode sont donnés dans l’ouvrage de P. E. Greenwood, M. S. Nikulin.

Haut de la page.