Une caractéristique de dispersion ou d’échelle donne un aperçu du degré d’éparpillement des observations.
Définition 1. La variance observée ou empirique d’un \(n\)−échantillon \(x_{\bullet}\) ou respectivement d’une distribution statistique \(Dist(x_{\bullet})\) d’une variable quantitative est la caractéristique de dispersion, notée \(S^2(x_{\bullet})\), qui est définie par l’expression :
\[ S^2(x_{\bullet}) = \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2,\qquad {\rm {\it ou\ bien}} \qquad S^2(x_{\bullet}) = \frac{1}{n}\sum_{j=1}^r n_j(c_j-\overline{x})^2. \]La racine carrée de la variance, notée \(S(x_{\bullet})\), est appelée écart type de la variable.
Interprétation. Une variance est toujours positive. La valeur d’une variance ne peut être interprétée que par comparaison à la valeur d’une norme ou d’une autre variance. Si une variance est nulle, cela veut dire que toutes les observations sont égales à la moyenne, ce qui implique qu’il n’y a aucune variation de celles-ci. Par contre, plus une variance est élévée plus la dispersion des observations est importante ; elle est très sensible aux valeurs extrêmes. En pratique c’est l’écart type qui est le plus utilisé ; il s’exprime en effet avec les mêmes unités que les observations ; la variance, quant à elle, s’exprime avec les unités au carré.
Remarques 1. Une variance est la moyenne des carrés des écarts à la moyenne, ou encore la moyenne des carrés diminuée du carré de la moyenne. En effet, il est facile de montrer que la variance s’écrit aussi, et c’est la formule utilisée pour le calcul à « la main »,
\[ S^2(x_{\bullet}) = \frac{1}{n}\sum_{i=1}^n x_i^2-(\overline{x})^2,\qquad {\rm {\it ou\ bien}} \qquad S^2(x_{\bullet}) = \frac{1}{n}\sum_{j=1}^r n_j(c_j)^2-(\overline{x})^2. \]Si la variable admet, dans toute la population de référence, une variance, inconnue en général, notée \(\sigma^2\), alors sous certaines conditions, nous avons \(\displaystyle\lim_{n\rightarrow +\infty} S^2(x_{\bullet})=\sigma^2\). C’est encore une propriété du type loi des grands nombres. Une meilleure estimation de \(\sigma^2\) est obtenue en posant \(S^2_c(x_{\bullet}) = \displaystyle\frac{nS^2(x_{\bullet})}{n-1}\), appelée variance corrigée. Il est à noter que pour \(100\leq n\) la correction est insignifiante. L’étude précise des propriétés de cette estimation est donnée à la page concernant l’estimation d’une variance théorique .
L’écart type représente une variabilité absolue. Très souvent il est utile d’exprimer une variabilité relative. Cela se réalise à l’aide du coefficient de variation défini par le rapport exprimé en pourcentage
\[ CV(x_{\bullet})=\displaystyle\frac{100 S(x_{\bullet})}{\overline{x}}. \]Définition 2. Désignons par \(x_{(\bullet)}=(x_{(1)},\ x_{(2)},\ \cdots,\ x_{(n)})\), l’échantillon ordonné. L’étendue d’un échantillon \(x_{\bullet}\) est le nombre, noté \(Et(x)\), défini par la différence entre la plus grande et la plus petite observation \(Et(x_{\bullet})=x_{(n)}-x_{(1)}\).
Interprétation. Cette caractéristique indique la plage totale de variation des observations. Il est très sensible aux valeurs extrêmes.
Remarques 2. Comme l’étendue est très facile à calculer, elle est utilisée dans le contrôle statistique de la qualité de fabrication inustrielle, où \(\sigma\) est estimé par \(Et(x_{\bullet})h_n\). Voici quelques exemples de valeurs de \(h_n\), en fonction du nombre \(n\) d’observations :
\[ h_2=\frac{\sqrt{\pi}}{2}\approx 0,887\ ,\quad h_5=0,430\ ,\quad h_{12}=0,325\ ,\quad h_{20}=0,268\ ,\quad h_{54}=0,222. \]Nous présentons le troisième type de caractéristique de dispersion.
Définition 3. Soit un \(n\)−échantillon \(x_{\bullet}\) et \(x_{(\bullet)}=(x_{(1)},\ x_{(2)},\ \cdots,\ x_{(n)})\) l’échantillon ordonné associé. Pour \(p\in \rbrack 0\ ;\ 1\lbrack\) nous appelons quantile ou fractile d’ordre \(p\) de celui-ci, noté \(Q_{x_{\bullet}}(p)\), le plus petit nombre \(x_{(i)}\) tel que : \(p \leq\displaystyle \frac{i}{n}.\) Une manière équivalente de définir le quantile est :
\[ Q_{x_{\bullet}}(p)=\cases{ x_{(np)} \quad {\it si} \ np\ {\it est\ entier}, \cr x_{(Ent(np)+1)} \quad {\it sinon},\cr } \]où \(Ent(u)\) désigne la partie entière de \(u\).
Interprétation. Cette caractéristique \(Q_{x_{\bullet}}(p)\) sépare les observations en deux parties : la première, inférieure à celle-ci, contient une proportion \(p\) d’observations, la seconde, supérieure à la caractéristique, contient une proportion de \(1-p\) d’observations. En fait ce calcul n’est rien d’autre que l’inversion de la fonction de répartition empirique.
Remarque. Certains auteurs préconisent de définir le quantile d’ordre \(p\) de la manière suivante. Désignons par \(m\) et \(d\) les parties entière et décimale de \(p(n+1)\). Nous posons alors \(Q^{(2)}_{x_{\bullet}}(p) = x_{(m)}+ d(x_{(m+1)} - x_{(m)})=(1-d)x_{(m)}+dx_{(m+1)}.\) Nous constatons que les deux définition sont proches.
Nous particularisons l’ordre.
Définition 4. Nous appelons premier quartile d’un échantillon \(x_{\bullet}\) le nombre \(Q_{x_{\bullet}}(0,25)\). Nous appelons troisième quartile d’un échantillon \(x_{\bullet}\) le nombre \(Q_{x_{\bullet}}(0,75)\). L’étendue interquartile, ou l’interquartile, est le nombre \(IQR(x_{\bullet})=Q_{x_{\bullet}}(0,75)-Q_{x_{\bullet}}(0,25)\).
Interprétation. L’interquartile permet de donner, quelles que puissent être les valeurs extrêmes observées, la longueur d’un intervalle contenant la moitié des observations qui se trouvent dans la partie centrale de l’échantillon. Les règles pratiques de calcul sont identiques à celles de la médiane, qui est le deuxième quartile. Ainsi ces trois caractéristiques découpent un échantillon ou une distribution en quatre «tranches» contenant chacune 25 % des observations.
Remarque 3. Il est utilisé, dans certains cas, des découpages, non pas en quarts, mais en dixièmes et il s’agit alors de déciles et \(IDR(x_{\bullet})=Q_{x_{\bullet}}(0,9)-Q_{x_{\bullet}}(0,1)\) est l’étendue interdécile ; ou bien en vingtièmes et il s’agit de vingtiles et \(IVR(x_{\bullet})=Q_{x_{\bullet}}(0,95)-Q_{x_{\bullet}}(0,05)\) est l’étendue intervingtile ; mais les quantités les plus usitées, après les quartiles, sont les centiles ou percentiles et l’étendue intercentile \(ICR(x_{\bullet})=Q_{x_{\bullet}}(0,99)-Q_{x_{\bullet}}(0,01)\). Plus rarement il est fait usage des milliles.
Remarque 4. Il est possible de définir un coefficient de variation « non paramétrique » en divisant une des étendues interquantiles par la médiane.
Remarque 5. Il est à noter qu’il existe d’autres définitions des quantiles empririques ; celles que nous avons données sont les plus utilisées et les plus facilement interprètables. Elles ont toutes pour objet l’estimation des quantiles théoriques. L’étude précise des propriétés de ces estimations est donnée à la page concernant l’estimation des quantiles théoriques.
Haut de la page.