Dans cette page nous présentons quelques commandes de R permettant de calculer les paramètres de description numérique d’un tableau de données. Nous utilsons deux exemples. Le premier est l’Exemple 2 de la durée de vie d’un équipement auquel nous avons appliqué un nouveau procédé permettant de prolonger cette durée de vie. Il s’agit d’un 50-échantillon d'observations. Après avoir ouvert l'environnement Durees.RData, dans lequel les observations se trouvent dans l’objet Donnees, la moyenne se calcule par :
mean(Donnees[,1]) ; réponse : \(3.1488\).
La médiane se calcule par :
median(Donnees[,1]) ; réponse : \(2.94\).
La moyenne tronquée à \(0,05\), c’est-à-dire en omettant les 5% plus grandes observations et les 5% plus petites, se calcule par :
mean(Donnees[,1], trim=.05) ; réponse : \(3.056739\).
La variance et l’écart type corrigés se calculent par :
var(Donnees[,1]) ;
réponse : \(0.6169577\),
sd(Donnees[,1]) ;
réponse : \(0.7854666\).
Pour l’étendue, le logiciel affiche le minimum et le maximun de l’échantillon :
range(Donnees[,1]) ; réponse : \(2.51\quad 6.21\).
Le même résultat s’obtient par :
min(Donnees[,1]) ;
réponse : \(2.51\),
max(Donnees[,1]) ;
réponse : \(6.21\),
et l’étendue :
max(Donnees[,1]) - min(Donnees[,1]) ; réponse : \(3.7\).
Pour ce qui est des quantiles, le logiciel peut utiliser 9 façons différentes de procéder. La définition que nous avons donnée pour les variables continues correspond au type 6. Ainsi nous déduisons les quartiles :
quantile(Donnees[,1],
probs=.25,type=6) ; réponse : 25%\(\quad 2.695\),
quantile(Donnees[,1],
probs=.75,type=6) ; réponse : 75%\(\quad 3.2725\),
et l’interquartile :
quantile
(Donnees[,1],probs=.75,type=6) -
quantile
(Donnees[,1],probs=.25,type=6) ;
réponse : \(0.5775 \).
Par défaut le logiciel utilise les quantiles du type 7. C’est-à-dire qu’il considère dans la définition, la partie entière et décimale de \((n-1)\alpha\) augmentées de 1, au lieu de \((n+1)\alpha\) que nous avons donné. Les deux calculs sont identiques pour la médiane, quantile d’ordre 0,5. Pour les autres quantiles nous avons des résultats très proches. Ainsi l’interquatile par défaut du logiciel est :
IQR(Donnees[,1]) ; réponse : \(0.535\).
Il y a également la possibilité d’obtenir directement un ensemble de résultats avec la commande :
summary(Donnees) ; réponse :
Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | ||||||
\(2.510\) | \(2.703\) | \(2.940\) | \(3.149\) | \(3.238\) | \(6.210\) |
Pour les paramètres de forme il faut utiliser l’extension agricolae qui contient spécifiquement les procédures statistiques d’analyse de données agricoles. Le téléchargement s’obtient soit dans le menu packages de l’environnement soit directement sur le site de R. L’installation se fait soit avec une autre option du même menu, soit avec la commande library(agricolae). L’asymétrie et l’aplatissement sont donnés alors par :
skewness(Donnees[,1]) ;
réponse : \(2.513163\),
kurtosis(Donnees[,1]) ;
réponse : \(6.500592\).
Interprétation. Dans la répartition des durées il y a une forte asymétrie gauche. Ceci se voit avec le coefficient correspondant et avec la différence entre la moyenne et le médiane et entre l’écart type et l’interquatile. Pour représenter les données et éventuellement les comparer à celles d’équipements non modifiés, il vaudrait mieux utiliser la médiane et l’interquatile. Notons également que la répartition est leptokutique, c’est-à-dire qu’elle présente un pic très important au niveau de la classe modale (que nous n’avons pas calculée) et pas loin de la médiane.
Le deuxième exemple est celui des plantes qui concerne l’observation des quantités d’azote et de phospore contenues dans des plantes dont les prélèvements ont été réalisés sous certaines conditions. Après avoir ouvert l'environnement Plantes.RData, dans lequel les observations se trouvent dans l’objet Donnees, la moyenne du phosphore contenu selon l’espèce de plante se calcule par :
tapply(Donnees[,5],Donnees[,1], mean) ; réponse :
AIL | CIR | |||
\(0.3424691\) | \(0.2589873\) |
Nous pouvons avoir le même type de résultats en croisant deux ou plusieurs facteurs ; ainsi la moyenne du phosphore contenu selon l’espèce de plante et la période d’observation se calcule par :
tapply(Donnees[,5],Donnees[,1]:Donnees[,4], mean) ; réponse :
AIL:DEB | AIL:FEI | AIL:FLE | AIL:FRU | AIL:SEN | |||||
\(0.4660000\) | \(0.4258333\) | \(0.2587500\) | \(0.3457895\) | \(0.2600000\) | |||||
CIR:DEB | CIR:FEI | CIR:FLE | CIR:FRU | CIR:SEN | |||||
\(0.3014286\) | \(0.2690909\) | \(0.2380000\) | \(0.2346667\) | \(0.2484615\) |
Interprétation. Il apparaît clairement que l’espèce « AIL » contient plus de phosphore que l’espèce « CIR », que les deux espèces relarguent une partie de ce phosphore au cours de l’année, mais la première en perd relativement plus que la seconde. Mais ces remarques seront confirmées ou infirmées par une procédure adaptée : l’Analyse de la variance.
Haut de la page.