le logo du site

6. Estimation.

6.4.6. Estimation d’une médiane et de quantiles théoriques.

Soit \(X\) une v.a. et \(X_{\bullet}\) un \(n-\)échantillon de celle-ci. Le quantile théorique d’ordre \(p\), noté \(Q_X(p)=Q(p)\), est défini à partir de l’inverse généralisé de la f.r. \(F(t)\) de \(X\). Nous suivons la même démarche pour l’estimateur de ce quantile à partir de la f.r. empirique \(F_n(t)=F_{X_{\bullet}}(t)=F_{EM}(t)\).

Définition 1. Soit \(X_{(\bullet)}=(X_{(1)},\ X_{(2)},\ \cdots,\ X_{(n)})\) l’échantillon ordonné associé à \(X_{\bullet}\). Pour \(p\in \rbrack 0\ ;\ 1\lbrack\) nous appelons estimateur du quantile \(Q(p)\), la v.a. notée \(Q_{X_{\bullet}}(p)\) et définie par :

\[ Q_{X_{\bullet}}(p)=F_n^{-1}(p)=\inf\lbrace t\in {\mathbb R} : F_n(t)\geq p\rbrace. \]

Propriété 1. L’estimateur du quantile d’ordre \(p\) est aussi la plus petite variable \(X_{(i)}\) telle que \(p \leq\displaystyle \frac{i}{n}.\) Une autre manière équivalente de définir l’estimateur du quantile est :

\[ Q_{X_{\bullet}}(p)=\cases{ X_{(np)} \quad {\it si} \ np\ {\it est\ entier}, \cr X_{(Ent(np)+1)} \quad {\it sinon},\cr } \]

où \(Ent(u)\) désigne la partie entière de \(u\).

En effet, pour le voir il suffit d’appliquer la définition de la f.r. empirique \(F_n(t)\). Dans la pratique plusieurs autres estimateurs ont été proposés. Parmi eux le suivant.

Définition 2. Soit \(j^{\ \prime}=Ent(p(n+1))\) la partie entière et \(d=Dec(p(n+1))=p(n+1)-j^{\ \prime}\) la partie décimale de \(p(n+1)\). Nous posons :

\[ Q^{(2)}_{X_{\bullet}}(p)=X_{(j^{\ \prime})}+d(X_{(j^{\ \prime}+1)}-X_{(j^{\ \prime})})=(1-d)X_{(j^{\ \prime})}+dX_{(j^{\ \prime}+1)}. \]

Ces deux estimateurs sont très proches et ont même comportement asymptotique. Nous avons les résultats suivants.

Propriété 2. Si \(np=j\) est un nombre entier, alors :

\[ Q_{X_{\bullet}}(p)=X_{(j)}\leq Q^{(2)}_{X_{\bullet}}(p)=(1-p)X_{(j)}+pX_{(j+1)}\leq X_{(j+1)}. \]

Si \(np\) n’est pas un nombre entier, si \(j=Ent(np)\) et si \(np+p < j+1\) alors :

\[ X_{(j)}\leq Q^{(2)}_{X_{\bullet}}(p)=(1-d)X_{(j)}+dX_{(j+1)}\leq X_{(j+1)}=Q_{X_{\bullet}}(p),\quad {\it avec}\quad d=np+p-j. \]

Si \(np\) n’est pas un nombre entier, si \(j=Ent(np)\) et si \(j+1\leq np+p\) alors :

\[ X_{(j+1)}=Q_{X_{\bullet}}(p)\leq Q^{(2)}_{X_{\bullet}}(p)=(1-d)X_{(j+1)}+dX_{(j+2)}\leq X_{(j+2)}, \]

avec \(d=np+p-j-1\). De plus à partir d’un certain rang, pour tout \(n\) dépassant ce rang et tout nombre réel \(t\), nous avons :

\[ P(X_{(j+1)}\leq t)\leq P(X_{(j)}\leq t)\leq P(X_{(j+1)}\leq t)+\frac{1}{\sqrt{2\pi nF(t)(1-F(t)}}. \]

Les trois premières séries d’inégalités sont des conséquences immédiates des définitions des estimateurs. La première inégalité de la dernière série découle du fait que \(X_{(j)}\leq X_{(j+1)}\). La seconde s’obtient en utilisant la f.r. de \(X_{(j)}\) sous la forme d’une somme, puis en approchant une probabilité binomiale par une densité normale. \(\quad\square\)

Exemple 1. Nous estimons la médiane d’une v.a. \(X\). Premier cas : \(n=2k\) est pair, alors

\[ Q_{X_{\bullet}}(0,5)=Me(X_{\bullet})=X_{(k)}\quad Q^{(2)}_{X_{\bullet}}(0,5)=0,5(X_{(k)}+X_{(k+1)}). \]

Deuxième cas : \(n=2k+1\) est impair, alors

\[ Q_{X_{\bullet}}(0,5)=Me(X_{\bullet})=X_{(k+1)}=Q^{(2)}_{X_{\bullet}}(0,5). \]

Nous constatons que \(Q^{(2)}_{X_{\bullet}}(0,5)\) est mieux «centré» dans l’échantillon que \(Q_{X_{\bullet}}(0,5)\). \(\quad\square\)

Il existe d’autres estimateurs des quantiles plus ou moins proches de ceux présentés ici ; mais ces derniers sont les plus utilisés. Il est très difficile d’en établir des propriétés exactes en général. Nous nous contenterons du comportement asymptotique. Comme \(Q_{X_{\bullet}}(p)\) et \(Q^{(2)}_{X_{\bullet}}(p)\) ont même comportement asymptotique, dans la suite nous étudions \(Q_{X_{\bullet}}(p)\).

Propriété 3. Soit \(p\in \rbrack 0\ ;\ 1\lbrack\). Si pour tout nombre \(\varepsilon\in{\mathbb R}^{\star}_+\) nous avons :

\[ F(Q(p)-\varepsilon) < p < F(Q(p)+\varepsilon), \]

alors l’estimateur \(Q_{X_{\bullet}}(p)\) est convergent :

\[ Q_{X_{\bullet}}(p)\overset{P}{\underset{n\rightarrow+\infty}\longrightarrow}Q(p). \]

Pour le voir il faut, par exemple, écrire \(P(\mid Q_{X_{\bullet}}(p)- Q(p)\mid \geq \varepsilon)\), en utilisant les lois des statisiques d’ordre, sous une forme faisant intervenir la fonction de répartition d’une loi Binomiale, puis d’approcher ces probabilités binomiales par des f.r. de loi normale et enfin montrer la convergence vers 0 en utilisant les conditions ci-dessus. \(\quad\square\)

Remarque 1. La condition précédente peut s’exprimer plus simplement : si \(F(Q(p))=p\) alors \(F(t)\) est strictement croissante dans un voisinage à droite de \(Q(p)\). Nous donnons un exemple simple qui illustre la convergence et la non convergence.

Exemple 2. Soit \(X\) une v.a. de loi de Bernoulli \({\cal B}(1\ ; 0,5)\). Alors :

\[ F(t)=\cases{ 0 \quad {\rm si} \ t < 0, \cr 0,5 \quad {\rm si}\ 0\leq t < 1,\cr 1 \quad {\rm si} \ 1 \leq t.\cr } \]

Il est clair que le premier quartile \(Q(0,25)=\inf\lbrace t\ :\ F(t)\geq 0,25\rbrace = 0\) satisfait à la condition de la Propriété 3 ci-dessus. Par contre ce n’est pas le cas de la médiane \(Q(0,5)=\inf\lbrace t\ :\ F(t)\geq 0,5\rbrace = 0\). Soit \(X_{\bullet}\) un \(n-\)échantillon de \(X\). Nous notons \(N_0\) le nombre de \(X_j\) qui sont nuls. Nous avons :

\[ F_n(t)=\cases{ 0 \quad {\rm si} \ t < 0, \cr \displaystyle\frac{N_0}{n} \quad {\rm si}\ 0\leq t < 1,\cr 1 \quad {\rm si} \ 1 \leq t.\cr } \]

Nous avons :

\[ Q_{X_{\bullet}}(0,25)=\cases{ 0 \quad {\rm si} \ \displaystyle\frac{N_0}{n}\geq 0,25\ ,\cr 1 \quad {\rm si} \ \displaystyle\frac{N_0}{n}< 0,25\ .\cr } \]

De même \(Q_{X_{\bullet}}(0,5)\) vérifie les mêmes relations en remplaçant 0,25 par 0,5. Comme \(N_0\) suit une loi Binomiale \({\cal B}(n\ ; 0,5) \approx {\cal N}(0,5 n\ ; 0,25 n)\) loi Normale, il est aisé de vérifier que

\[ P(\mid Q_{X_{\bullet}}(0,25)- Q(0,25)\mid \geq \varepsilon)\approx \Phi(-0,25\sqrt{n}){\underset{n\rightarrow+\infty}\longrightarrow}0. \]

Nous obtenons donc la convergence de \(Q_{X_{\bullet}}(0,25)\) vers \(Q(0,25)\). Pour la médiane empirique, un raisonnement strictement analogue montre que :

\[ P(\mid Q_{X_{\bullet}}(0,5)- Q(0,5)\mid \geq \varepsilon)\approx \Phi(0)=0,5 \ , \]

qui ne converge pas vers \(0\). Ainsi, dans ce cas \(Q_{X_{\bullet}}(0,5)\) ne converge pas vers \(Q(0,5). \quad\square\)

En imposant une hypothèse supplémentaire nous avons une convergence presque sûre.

Propriété 4. Si la f.r. \(F(t)\) de \(X\) est continue et strictement croissante alors pour tout nombre \(p\in \rbrack 0\ ;\ 1\lbrack\) nous avons :

\[ Q_{X_{\bullet}}(p)\overset{p.s.}{\underset{n\rightarrow+\infty}\longrightarrow}Q_X(p). \]

En utilisant l’hypothèse et la Propriété 5 de la convergence presque sûre, il nous suffit de prouver que \(F(Q_{X_{\bullet}}(p))\overset{p.s.}\longrightarrow F(Q_X(p))=p\) lorsque \(n\longrightarrow +\infty\), puis d’appliquer \(F^{-1}\). Pour obtenir cette convergence il faut remarquer que \(F_{X_{\bullet}}(Q_{X_{\bullet}}(p))\) s’écarte de \(p\) d’au plus \(\dfrac{1}{n}\) et faire appel à la propriété de Glivenko et Cantelli. \(\quad\square\)

Avec une hypothèse un peu plus forte, nous pouvons préciser le comportement asymptotique de \(Q_{X_{\bullet}}(p)\).

Propriété 5. Si la fonction densité \(f(t)\) de \(X\) existe, est continue et strictement positive alors, pour tout nombre \(p\in \rbrack 0\ ;\ 1\lbrack\), l’estimateur \(Q_{X_{\bullet}}(p)\) est asymptotiquement sans biais et normal. De manière précise nous avons :

\[ \lim_{n\rightarrow +\infty} {\cal L}\Big(\sqrt{n}(Q_{X_{\bullet}}(p)-Q_X(p))\Big)={\cal N}\Big(0\ ;\ \frac{p(1-p)}{f^2(Q_X(p))}\Big). \]

Pour le voir, il faut écrire la densité de \(\sqrt{n}(Q_{X_{\bullet}}(p)-Q_X(p))\) en utilisant la Propriété 4 des statistiques d’ordre, puis en utilisant la formule Stirling et des développements limités, montrer qu’elle converge vers celle de la loi \(\displaystyle{\cal N}\Big(0\ ;\ \frac{p(1-p)}{f^2(Q_X(p))}\Big). \quad \square\)

Remarque 2. Comme la quantité \(f^2(Q_X(p))\) est en général inconnue, la variance de la loi Normale précédente est elle-même inconnue. Pour l’évaluer nous pouvons utiliser soit des méthodes de rééchantillonnage (Bootstrap, Jackknife) soit la Stabilisation de la variance. Nous avons, pour une fonction dérivable \(h\),

\[ \lim_{n\rightarrow +\infty} {\cal L}\Big(\sqrt{n}(h(Q_{X_{\bullet}}(p))-h(Q_X(p)))\Big)={\cal N}\Big(0\ ;\ \frac{p(1-p)(h^{\prime}(Q_X(p)))^2}{f^2(Q_X(p))}\Big). \]

Nous choisissons \(h(t)=F(t)\) et estimons cette dernière par la f.r. empirique \(F_n(t)\).

Propriété 6. Un intervalle de confiance de \(Q_X(p)\) au seuil \(\alpha\) est donné par :

\[ I_{conf}(Q_X(p)\ ;\ \alpha\ ;\ X_{\bullet})=\lbrack X_{(k_1)}\ ;\ X_{(k_2)}\rbrack, \]

avec \(k_1, k_2\) définissant l’intervalle de prédiction :

\[ I_{pred}({\cal B}(n\ ;\ F(Q_X(p)))\ ;\ \alpha)=\lbrack k_1 ; k_2-1\rbrack. \]

La Propriété 3 des statistiques d’ordre nous permet d’écrire :

\[ P\Big(X_{(k_1)}\leq Q_X(p)< X_{(k_2)}\Big)=P\Big(k_1\leq {\cal B}(n\ ;\ F(Q_X(p))) < k_2-1\Big). \]

Le résultat s’en suit. \(\quad\square\)

Remarque 3. L’intervalle ainsi construit est non paramétrique ; il ne dépend de la \({\cal L}(X)\) que par \(F(Q_X(p))\). Se pose la question de la connaissance de cette quantité. Si \(F\) est continue, alors \(F(Q_X(p))=p\). Si elle est discontinue et si \(Q_X(p)\) est un point de discontinuité, alors \(F(Q_X(p))\) est égale à la plus petite probabilité cumulée :

\[ \sum_{i=1}^j p_i\quad {\rm telle\ que}\quad \sum_{i=1}^{j-1} p_i < p\leq \sum_{i=1}^j p_i, \]

qui peut être estimée par la fréquence cumulée correspondante \(\displaystyle\sum_{i=1}^j\frac{n_i}{n}\).

La Remarque 2 ci-dessus nous permet de construire l’intevalle de confiance asymptotique suivant :

Propriété 7. Si la fonction de densité \(f(t)\) est continue et strictement positive alors un intervalle asymptotique de \(Q_X(p)\) au seuil \(\alpha\) est donné par :

\[ I^{\infty}_{conf}(Q_X(p)\ ;\ \alpha\ ;\ X_{\bullet})= \] \[ \Big\lbrack F_n^{-1}\Big(F_n(Q_{X_{\bullet}}(p))-\sqrt{\frac{p(1-p)}{n}}c\Big)\ ;\ F_n^{-1}\Big(F_n(Q_{X_{\bullet}}(p))+\sqrt{\frac{p(1-p)}{n}}c\Big)\Big\rbrack, \]

où \(F_n\) est la f.r. empirique, \(F_n^{-1}\) son inverse généralisée et \(c\) le quantile d’ordre \(1-\dfrac{\alpha}{2}\) de la loi \({\cal N}(0\ ;\ 1).\)

Exemple 3. Nous considérons l’Exemple 2 de la durée de vie d’un équipement. Nous calculons le premier décile :

quantile(Durees[,1], probs=0.1, type=1)
réponse : 10%
2.61
,

c’est-à-dire que \(Q_{x_{\bullet}}(0,1)=2,61\). Nous avons également :

quantile(Durees[,1], probs=0.1, type=6)
réponse : 10%
2.61
,

c’est-à-dire que \(Q^{(2)}_{x_{\bullet}}(0,1)=2,61\). Les deux estimations sont ici identiques. Le même résultat, ainsi que l’intervalle de confiance, peuvent s’obtenir avec la procédure EstimationQuantile, que nous avons créée. Après l’avoir compilée («sourcée») dans R, nous l’exécutons en indiquant les données à traiter, l’ordre du quantile et le seuil à utiliser :

EstimationQuantile (Durees[,1],0.1,0.05), réponse :
Estimation ponctuelle du quantile théorique d’ordre 0.1
2.61
Intervalle de confiance du quantile théorique d’ordre 0.1 au seuil de 0.05 :
[ 2.51 ; 2.67 ]

Ainsi nous avons \(Q_{x_{\bullet}}(0,1)=2,61\) et \(I_{conf}(Q_X(0,1)\ ;\ 0.05\ ;\ x_{\bullet})=\lbrack 2,51\ ;\ 2,67\rbrack\).

Nous admettons à présent que les conditions de la propriété 6 ci-dessus sont satisfaites. Nous avons créé une procédure permettant de calculer l’intervalle asymptotique de confiance : EstimationAsymQuantile. Après l’avoir compilée («sourcée») dans R, nous l’exécutons en indiquant les données à traiter, l’ordre du quantile et le seuil à utiliser :

EstimationAsymQuantile (Durees[,1],0.1,0.05), réponse :
Estimation ponctuelle du quantile théorique d’ordre 0.1
2.61
Intervalle asymptotique de confiance du quantile théorique d’ordre 0.1 au seuil de 0.05 :
[ 2.52 ; 2.68 ]

Nous en concluons que \(Q_{x_{\bullet}}(0,1)=2,61\) et \(I^{\infty}_{conf}(Q_X(0,1)\ ;\ 0,05\ ;\ x_{\bullet})=\lbrack 2,52\ ;\ 2,68\rbrack\).

Les deux intervalles sont très proches, mais le premier est plus précis dans la mesure où il n’y a aucune approximation.

Références. Des détails sont donnés dans l’ouvrage de P. K. Sen et J. H. Singer (1993).

Haut de la page.