Définition 1. Nous appelons distribution statistique associée à un \(n\)−échantillon \(x_{\bullet}\) d’une v.a. \(X\) la donnée d’un regroupement issu de l’échantillon, noté
qui est construit de la manière suivante :
- Pour les trois premiers types de v.a., les valeurs distinctes sont déterminées ; elles sont appelées modalités et sont désignées par les \(c_j\) ; puis le nombre de fois où chacune d’elles est observée est compté ; ces nombres, désignés par \(n_j\), sont appelés effectifs.
- Pour les v.a. continues, une partition en \(r\) intervalles adjacents disjoints de l’ensemble des valeurs est construite ; ces intervalles sont appelés classes et sont désignés par
puis le nombre de valeurs observées dans chaque classe, appelé effectif et noté \(n_j\), est compté. Par abus de notation, les centres de classes seront également notés \(c_j\).
Remarque 1. Bien entendu, nous avons \( n_1 + n_2 + \cdots + n_r = n\). Il est à noter que le choix des classes est arbitraire. Plusieurs auteurs ont proposé des choix de \(r\). Par exemple Sturges suggère :
\[ 1+\frac{10\ln(n)}{3\ln(10)}, \]où \(\ln(a)\) désigne le logarithme népérien de \(a\). Lorsque la répartition des données semble symétrique (cf. le chapitre sur la description numérique), il convient de construire des classes de même amplitude. Si elle n’est pas symétrique ou si une classe a un effectif nul ou très faible, alors il convient de la regrouper avec la suivante (resp. précédente) si cette classe se trouve à droite (resp. gauche) de la classe la plus fréquente. Cette technique permet d’obtenir une répartition régulière.
Exemple 1. Nous considérons l’Exemple 1 du nombre de personnes absentes par jour dans une entreprise. Nous avons vu qu’il s’agit d’une v.a. discrète. Dans R nous affichons la distribution des effectifs:
table(Donnees)
Réponse de R:
Nombre d’absents | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | |||||||||
Nombre de jours | 23 | 57 | 66 | 50 | 27 | 16 | 8 | 3 |
Nous donnons une interprétation de cette distribution avec le tracé du diagramme des fréquences.
Exemple 2. Nous reprenons l’exemple des Sinistres. Nous construisons la distribution pour la v.a. continue MONT, coût en euros du sinistre (septième colonne du tableau des données), avec la commande suivante :
Distri=
hist
(Donnees[,7],
breaks
="Sturges",
plot
=FALSE,
right
=TRUE,
include.lowest
=TRUE)
Avec cette commande nous créons un objet dans R de nom Distri qui contient tous les éléments constitutifs d’un histogramme de la distribution. Pour voir la liste des sous-objets de cet objet il suffit d’exécuter la commande summary(Distri) ; un résultat analogue est obtenu en tapant directement Distri. Nous affichons contenu de chaque sous-objet avec les commandes suivantes.
La commande Distri$breaks donne les extrémités des classes :
0 | 500 | 1000 | 1500 | 2000 | 2500 | 3000 | 3500 | 4000 | 4500 |
La commande Distri$counts donne les effectifs des classes :
272 | 58 | 9 | 6 | 5 | 2 | 1 | 1 | 2 |
La commande Distri$mids donne les centres des classes :
250 | 750 | 1250 | 1750 | 2250 | 2750 | 3250 | 3750 | 4250 |
La commande Distri$xnames donne les noms des colonnes du tableau qui contiennent les données brutes, ici "Donnees[, 7]".
La commande Distri$equidist donne comme réponse TRUE, c’est-à-dire que les classes ont même amplitude ici par défaut.
En résumé nous obtenons la distribution suivante :
Classes | \(\lbrack 0,\ 500\rbrack\) | \(\rbrack 500,\ 1000\rbrack\) | \(\rbrack 1000,\ 1500\rbrack\) | \(\rbrack 1500,\ 2000\rbrack\) | \(\rbrack 2000,\ 2500\rbrack\) |
Effectifs | \(272\) | \(58\) | \(9\) | \(6\) | \(5\) |
Classes | \(\rbrack 2500,\ 3000\rbrack\) | \(\rbrack 3000,\ 3500\rbrack\) | \(\rbrack 3500,\ 4000\rbrack\) | \(\rbrack 4000,\ 4500\rbrack\) |
Effectifs | \(2\) | \(1\) | \(1\) | \(1\) |
Nous donnons une interprétation de cette distribution avec le tracé de l’histogramme.
Définition 2. Le rapport \(\displaystyle\frac{n_j}{n}\) est appelé fréquence de la modalité ou de la classe d’ordre \(j\) d’une distribution donnée ; il est noté \(f_j\). Lorsque les modalités sont rangées dans l’ordre croissant, la fréquence cumulée d’ordre \(j\), notée \(f^{cum}_j\), est définie par le nombre :
\[ f_j^{cum}=f_1 + f_2 + \cdots + f_j = \sum_{j^{\prime}=1}^j f_{j^{\prime}}. \]Interprétation. En réalité une fréquence ou fréquence cumulée n’est rien d’autre qu’un pourcentage ramené entre \(0\) et \(1\). Cela permet de détecter la position des observations les plus fréquentes ou les moins fréquentes. Nous pouvons également comparer plus facilement, avec les fréquences, deux ou plusieurs séries d’observations.
Exemple 3. Nous considérons le même Exemple 1 avec la v.a. discrète «nombre de personnes absentes par jour» dans une entreprise. Dans R nous affichons la distribution des effectifs cumulés :
Réponse de R:
Nombre d’absents | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | |||||||||
Nombre de jours | 23 | 80 | 146 | 196 | 223 | 239 | 247 | 250 |
Remarque 2. Le nombre \(f_j\), qui dépend de la taille \(n\) de l’échantillon, est une estimation de la fréquence \(p_j\) de la modalité ou de la classe dans toute la population de référence. Ce nombre \(p_j\), en général inconnu, est la fréquence théorique ou probabilité de la modalité ou de la classe. Sous certaines conditions nous avons \(\displaystyle \lim_{n\rightarrow \infty} f_j = p_j\). Cette propriété est connue sous le nom de loi Faible des Grands Nombres.
En général la distribution est donnée sous forme d’un tableau indiquant soit les effectifs, soit les fréquences.
Haut de la page.