Distributions statistiques.

1.3. Distributions statistiques.

Définition 1. Nous appelons distribution statistique associée à un $n$−échantillon $x_{\bullet}$ d’une v.a. $X$ la donnée d’un regroupement issu de l’échantillon, noté

$Dist(x_{\bullet})=\lbrace (c_1, n_1),\ (c_2, n_2),\cdots ,\ (c_r, n_r)\rbrace,$

qui est construit de la manière suivante :

- Pour les trois premiers types de v.a., les valeurs distinctes sont déterminées ; elles sont appelées modalités et sont désignées par les $c_j$ ; puis le nombre de fois où chacune d’elles est observée est compté ; ces nombres, désignés par $n_j$, sont appelés effectifs.

- Pour les v.a. continues, une partition en $r$ intervalles adjacents disjoints de l’ensemble des valeurs est construite ; ces intervalles sont appelés classes et sont désignés par

$c_1 = \rbrack a_0,\ a_1 \rbrack,\ c_2 = \rbrack a_1,\ a_2 \rbrack,\ \cdots,\ c_r = \rbrack a_{r-1},\ a_r \rbrack \ ;$

puis le nombre de valeurs observées dans chaque classe, appelé effectif et noté $n_j$, est compté. Par abus de notation, les centres de classes seront également notés $c_j$.

Remarque 1. Bien entendu, nous avons $ n_1 + n_2 + \cdots + n_r = n$. Il est à noter que le choix des classes est arbitraire. Plusieurs auteurs ont proposé des choix de $r$. Par exemple Sturges suggère :

\[ 1+\frac{10\ln(n)}{3\ln(10)}, \]

où $\ln(a)$ désigne le logarithme népérien de $a$. Lorsque la répartition des données semble symétrique (cf. le chapitre sur la description numérique), il convient de construire des classes de même amplitude. Si elle n’est pas symétrique ou si une classe a un effectif nul ou très faible, alors il convient de la regrouper avec la suivante (resp. précédente) si cette classe se trouve à droite (resp. gauche) de la classe la plus fréquente. Cette technique permet d’obtenir une répartition régulière.

Exemple 1. Nous considérons l’Exemple 1 du nombre de personnes absentes par jour dans une entreprise. Nous avons vu qu’il s’agit d’une v.a. discrète. Dans R nous affichons la distribution des effectifs:

table(Donnees)

Réponse de R:

	Nombre d’absents		0		1		2		3		4		5		6		7
	Nombre de jours		23		57		66		50		27		16		8		3

Nous donnons une interprétation de cette distribution avec le tracé du diagramme des fréquences.

Exemple 2. Nous reprenons l’exemple des Sinistres. Nous construisons la distribution pour la v.a. continue MONT, coût en euros du sinistre (septième colonne du tableau des données), avec la commande suivante :

Distri= hist (Donnees[,7], breaks ="Sturges", plot =FALSE, right =TRUE,
include.lowest =TRUE)

Avec cette commande nous créons un objet dans R de nom Distri qui contient tous les éléments constitutifs d’un histogramme de la distribution. Pour voir la liste des sous-objets de cet objet il suffit d’exécuter la commande summary(Distri) ; un résultat analogue est obtenu en tapant directement Distri. Nous affichons contenu de chaque sous-objet avec les commandes suivantes.

La commande Distri$breaks donne les extrémités des classes :

500

1000

1500

2000

2500

3000

3500

4000

4500

La commande Distri$counts donne les effectifs des classes :

272

La commande Distri$mids donne les centres des classes :

250

750

1250

1750

2250

2750

3250

3750

4250

La commande Distri$xnames donne les noms des colonnes du tableau qui contiennent les données brutes, ici "Donnees[, 7]".

La commande Distri$equidist donne comme réponse TRUE, c’est-à-dire que les classes ont même amplitude ici par défaut.

En résumé nous obtenons la distribution suivante :

Classes	$\lbrack 0,\ 500\rbrack$	$\rbrack 500,\ 1000\rbrack$	$\rbrack 1000,\ 1500\rbrack$	$\rbrack 1500,\ 2000\rbrack$	$\rbrack 2000,\ 2500\rbrack$
Effectifs	$272$	$58$	$9$	$6$	$5$

Classes	$\rbrack 2500,\ 3000\rbrack$	$\rbrack 3000,\ 3500\rbrack$	$\rbrack 3500,\ 4000\rbrack$	$\rbrack 4000,\ 4500\rbrack$
Effectifs	$2$	$1$	$1$	$1$

Nous donnons une interprétation de cette distribution avec le tracé de l’histogramme.

Définition 2. Le rapport $\displaystyle\frac{n_j}{n}$ est appelé fréquence de la modalité ou de la classe d’ordre $j$ d’une distribution donnée ; il est noté $f_j$. Lorsque les modalités sont rangées dans l’ordre croissant, la fréquence cumulée d’ordre $j$, notée $f^{cum}_j$, est définie par le nombre :

\[ f_j^{cum}=f_1 + f_2 + \cdots + f_j = \sum_{j^{\prime}=1}^j f_{j^{\prime}}. \]

Interprétation. En réalité une fréquence ou fréquence cumulée n’est rien d’autre qu’un pourcentage ramené entre $0$ et $1$. Cela permet de détecter la position des observations les plus fréquentes ou les moins fréquentes. Nous pouvons également comparer plus facilement, avec les fréquences, deux ou plusieurs séries d’observations.

Exemple 3. Nous considérons le même Exemple 1 avec la v.a. discrète «nombre de personnes absentes par jour» dans une entreprise. Dans R nous affichons la distribution des effectifs cumulés :

cumsum( table(Donnees))

Réponse de R:

	Nombre d’absents		0		1		2		3		4		5		6		7
	Nombre de jours		23		80		146		196		223		239		247		250

Remarque 2. Le nombre $f_j$, qui dépend de la taille $n$ de l’échantillon, est une estimation de la fréquence $p_j$ de la modalité ou de la classe dans toute la population de référence. Ce nombre $p_j$, en général inconnu, est la fréquence théorique ou probabilité de la modalité ou de la classe. Sous certaines conditions nous avons $\displaystyle \lim_{n\rightarrow \infty} f_j = p_j$. Cette propriété est connue sous le nom de loi Faible des Grands Nombres.

En général la distribution est donnée sous forme d’un tableau indiquant soit les effectifs, soit les fréquences.

Haut de la page.

Classes	\(\lbrack 0,\ 500\rbrack\)	\(\rbrack 500,\ 1000\rbrack\)	\(\rbrack 1000,\ 1500\rbrack\)	\(\rbrack 1500,\ 2000\rbrack\)	\(\rbrack 2000,\ 2500\rbrack\)
Effectifs	\(272\)	\(58\)	\(9\)	\(6\)	\(5\)

Classes	\(\rbrack 2500,\ 3000\rbrack\)	\(\rbrack 3000,\ 3500\rbrack\)	\(\rbrack 3500,\ 4000\rbrack\)	\(\rbrack 4000,\ 4500\rbrack\)
Effectifs	\(2\)	\(1\)	\(1\)	\(1\)

1. Les observations et le modèle aléatoire.

1. Les observations et le modèle aléatoire.

1.3. Distributions statistiques.