le logo du site

1. Les observations.

1.3. Distributions statistiques.

Définition 1. Nous appelons distribution statistique associée à un \(n\)−échantillon \(x_{\bullet}\) d’une v.a. \(X\) la donnée d’un regroupement issu de l’échantillon, noté

\[ Dist(x_{\bullet})=\lbrace (c_1, n_1),\ (c_2, n_2),\cdots ,\ (c_r, n_r)\rbrace, \]

qui est construit de la manière suivante :

- Pour les trois premiers types de v.a., les valeurs distinctes sont déterminées ; elles sont appelées modalités et sont désignées par les \(c_i\) ; puis le nombre de fois où chacune d’elles est observée est compté ; ces nombres, désignés par \(n_i\), sont appelés effectifs.

- Pour les v.a. continues, une partition en \(r\) intervalles disjoints de l’ensemble des valeurs est construite ; ces intervalles sont appelés classes et sont désignés par

\[ c_1 = \rbrack a_0,\ a_1 \rbrack,\ c_2 = \rbrack a_1,\ a_2 \rbrack,\ \cdots,\ c_r = \rbrack a_{r-1},\ a_r \rbrack \ ; \]

puis le nombre de valeurs observées dans chaque classe, appelé effectif et noté \(n_i\), est compté. Par abus de notation, les centres de classes seront également notés \(c_i\).

Remarque. Bien entendu, nous avons \( n_1 + n_2 + \cdots + n_r = n\). Il est à noter que le choix des classes est arbitraire. Plusieurs auteurs ont proposé des choix de \(r\). Par exemple Sturges suggère :

\[ 1+\frac{10\ln(n)}{3\ln(10)}, \]

où \(\ln(a)\) désigne le logarithme népérien de \(a\). Lorsque la répartition des données semble symétrique (cf. le chapitre sur la description numérique), il convient de construire des classes de même amplitude. Si elle n’est pas symétrique ou si une classe a un effectif nul ou très faible, alors il convient de la regrouper avec la suivante (resp. précédente) si cette classe se trouve à droite (resp. gauche) de la classe la plus fréquente. Cette technique permet d’obtenir une répartition régulière.

Exemple 1. Nous considérons l’Exemple 1 du nombre de personnes absentes par jour dans une entreprise. Nous avons vu qu’il s’agit d’une v.a. discrète. Dans R nous affichons la distribution des effectifs:

table(Donnees)

Réponse de R:

Nombre d’absents 0 1 2 3 4 5 6 7
Nombre de jours 23 57 66 50 27 16 8 3

Nous donnons une interprétation de cette distribution avec le tracé du diagramme des fréquences.

Exemple 2. Nous reprenons l’exemple des Sinistres. Nous construisons la distribution pour la v.a. continue MONT, coût en euros du sinistre (septième colonne du tableau des données), avec la commande suivante :

Distri= hist (Donnees[,7], breaks ="Sturges", plot =FALSE, right =TRUE,
include.lowest =TRUE)

Avec cette commande nous créons un objet dans R de nom Distri qui contient tous les éléments constitutifs d’un histogramme de la distribution. Pour voir la liste des sous-objets de cet objet il suffit d’exécuter la commande summary(Distri) ; un résultat analogue est obtenu en tapant directement Distri. Nous affichons contenu de chaque sous-objet avec les commandes suivantes.

La commande Distri$breaks donne les extrémités des classes :

0 500 1000 1500 2000 2500 3000 3500 4000 4500

La commande Distri$counts donne les effectifs des classes :

272 58 9 6 5 2 1 1 2

La commande Distri$density donne les estimations de la densité au milieu de chaque classe :

1.528090e-03 3.258427e-04 5.056180e-05 3.370787e-05 2.808989e-05
1.123596e-05 5.617978e-06 5.617978e-06 1.123596e-05

La commande Distri$mids donne les centres des classes :

250 750 1250 1750 2250 2750 3250 3750 4250

La commande Distri$xnames donne les noms des colonnes du tableau qui contiennent les données brutes, ici "Donnees[, 7]".

La commande Distri$equidist donne comme réponse TRUE, c’est-à-dire que les classes ont même amplitude.

En résumé nous obtenons la distribution suivante :

Classes\(\lbrack 0,\ 500\rbrack\) \(\rbrack 500,\ 1000\rbrack\)\(\rbrack 1000,\ 1500\rbrack\) \(\rbrack 1500,\ 2000\rbrack\)\(\rbrack 2000,\ 2500\rbrack\)
Effectifs272589 65

Classes\(\rbrack 2500,\ 3000\rbrack\) \(\rbrack 3000,\ 3500\rbrack\)\(\rbrack 3500,\ 4000\rbrack\) \(\rbrack 4000,\ 4500\rbrack\)
Effectifs211 1

Nous donnons une interprétation de cette distribution avec le tracé de l’histogramme.

Définition 2. Le rapport \(\displaystyle\frac{n_i}{n}\) est appelé fréquence de la modalité ou de la classe d’ordre \(i\) d’une distribution donnée ; il est noté \(f_i\). Lorsque les modalités sont rangées dans l’ordre croissant, la fréquence cumulée d’ordre \(i\), notée \(f^{cum}_i\), est définie par le nombre :

\[ f_i^{cum}=f_1 + f_2 + \cdots + f_i = \sum_{j=1}^i f_j. \]

Interprétation. En réalité une fréquence ou fréquence cumulée n’est rien d’autre qu’un pourcentage ramené entre \(0\) et \(1\). Cela permet de détecter la position des observations les plus fréquentes ou les moins fréquentes. Nous pouvons également comparer plus facilement, avec les fréquences, deux ou plusieurs séries d’observations.

Exemple 3. Nous considérons le même Exemple 1 avec la v.a. discrète «nombre de personnes absentes par jour» dans une entreprise. Dans R nous affichons la distribution des effectifs cumulés :

cumsum( table(Donnees))

Réponse de R:

Nombre d’absents 0 1 2 3 4 5 6 7
Nombre de jours 23 80 146 196 223 239 247 250

Remarque. Le nombre \(f_i\), qui dépend de la taille \(n\) de l’échantillon, est une estimation de la fréquence \(p_i\) de la modalité ou de la classe dans toute la population de référence. Ce nombre \(p_i\), en général inconnu, est la fréquence théorique ou probabilité de la modalité ou de la classe. Sous certaines conditions nous avons \(\displaystyle \lim_{n\rightarrow \infty} f_i = p_i\). Cette propriété est connue sous le nom de loi des grands nombres.

En général la distribution est donnée sous forme d’un tableau indiquant soit les effectifs, soit les fréquences.

Haut de la page.