le logo du site

1. Les observations et le modèle aléatoire.

1.2.1. Application 1 : Sinistres.

Sujet. Cette application concerne certaines données de sinistres observés dans un portefeuille d'assurances automobiles. Les données sont dans une feuille du classeur LibreOffice Sinistres.ods. Chacune des 7 colonnes de cette feuille contient une variable et chacune des 356 lignes contient les observations de toutes les variables d’un même sinistre. Ce tableau représente la manière standardisée de gérer des données. Il se trouve également dans l’environnement de travail de R, Sinistres.RData sous le nom Donnees.

Dictionnaire des variables. Les définitions des variables sont :

NATU : nature du sinistre, avec les codes «PAR» pour parking, «BDG» pour bris de glaces, «VOL» pour vol et «MAT» pour dégats matériels. C’est une variable qualitative nominale à 4 modalités.

TIER : indicatrice de la présence de tiers, avec les codes «0» pour l’absence et «1» pour la présence de tiers impliqué dans le sinistre. Malgré ce codage, c’est une variable qualitative nominale à 2 modalités, donc une indicatrice.

COND : conducteur au moment du sinistre, avec les codes «TIT» pour le titulaire de la police, «CON» pour le conjoint et «AUT» pour autres. C’est une variable qualitative nominale à 3 modalités.

PERM : ancienneté, en années, du permis de conduire du conducteur au moment du sinistre. Cette variable, mesurant la durée de temps écoulé depuis l’obtention du permis de conduire, est une variable quantitative continue. Mais étant arrondie à l’année, elle présente l’aspect d’une variable discrète.

AGE : âge, en années, du conducteur au moment du sinistre. Nous faisons les mêmes remarques que pour la variable précédente.

RESP : taux de responsabilité du conducteur. Par convention, les sociétés d’assurances ont fixé 5 taux de responsabilité, à savoir 0, 25, 50, 75 et 100 en pourcentage. Nous pouvons ainsi traiter cette variable comme qualitatitive ordinale, par exemple.

MONT : Montant, en euros, du coût du sinistre. En réalité, comme nous avons une précision jusqu’au centime, c’est une variable quantitative discrète. Mais étant donné le nombre de valeurs possibles, nous pouvons la traiter comme variable continue.

Traitement. Nous procédons à la lecture des données dans le logiciel R. Nous assignons un répertoire courant de travail, dans lequel nous enregistrons une version type « csv » de notre fichier Sinistres.csv, c’est-à-dire le format texte avec le signe « ; » pour séparateur de champs , le « . » pour la séparation de la partie décimale et tous les textes entre « " ». Nous lisons dans l’environnement de travail de R le fichier avec la commande :

Donnees= read.delim ("Sinistres.csv", header =TRUE, sep =";").

Il est à remarquer l’affectation des données à un objet dont le nom est Donnees. Nous affichons les objets contenus dans l’environnement de travail de la session :

ls(); réponse : "Donnees".

Pour avoir le contenu d’un objet, il suffit d’exécuter le nom de cet objet :

Donnees ; réponse :

NATU TIER COND PERM AGE RESP MONT
1 BDG 0 TIT 17 57 0 161.02
2 PAR 0 TIT 23 42 0 345.13
3 VOL 0 TIT 25 44 0 33.98
... ... ... ... ... ... ... ...
354 MAT 1 TIT 9 29 0 0.00
355 MAT 1 TIT 34 56 0 34.36
356 BDG 0 TIT 22 43 0 110.51

Un numéro de ligne s’affiche automatiquement R ; les nombres sont justifiés à droite et les textes à gauche. Nous avons gardé, pour simplifier l’affichage, uniquement les trois premières et les trois dernières lignes. Nous pouvons également afficher les six premières lignes seulement avec la commande :

head (Donnees) ; réponse :

NATU TIER COND PERM AGE RESP MONT
1 BDG 0 TIT 17 57 0 161.02
2 PAR 0 TIT 23 42 0 345.13
3 VOL 0 TIT 25 44 0 33.98
4 BDG 0 TIT 18 39 0 127.37
5 MAT 1 TIT 14 34 0 282.78
6 MAT 1 TIT 16 35 0 428.57

A la fin de la session nous sauvegardons l’environnement de travail sous le nom «Sinistres» soit avec le menu déroulant, soit avec la commande :

save.image ("D:\CheminComplet\Sinistres.RData").

Haut de la page.