Exemple de Données - Sinistres automobiles.

1.2.1. Application 1 : Sinistres.

Sujet. Cette application concerne certaines données de sinistres observés dans un portefeuille d'assurances automobiles. Les données sont dans une feuille du classeur LibreOffice Sinistres.ods. Chacune des 7 colonnes de cette feuille contient une variable et chacune des 356 lignes contient les observations de toutes les variables d’un même sinistre. Ce tableau représente la manière standardisée de gérer des données. Il se trouve également dans l’environnement de travail de R, Sinistres.RData sous le nom Donnees.

Dictionnaire des variables. Les définitions des variables sont :

NATU : nature du sinistre, avec les codes «PAR» pour parking, «BDG» pour bris de glaces, «VOL» pour vol et «MAT» pour dégats matériels. C’est une variable qualitative nominale à 4 modalités.

TIER : indicatrice de la présence de tiers, avec les codes «0» pour l’absence et «1» pour la présence de tiers impliqué dans le sinistre. Malgré ce codage, c’est une variable qualitative nominale à 2 modalités, donc une indicatrice.

COND : conducteur au moment du sinistre, avec les codes «TIT» pour le titulaire de la police, «CON» pour le conjoint et «AUT» pour autres. C’est une variable qualitative nominale à 3 modalités.

PERM : ancienneté, en années, du permis de conduire du conducteur au moment du sinistre. Cette variable, mesurant la durée de temps écoulé depuis l’obtention du permis de conduire, est une variable quantitative continue. Mais étant arrondie à l’année, elle présente l’aspect d’une variable discrète.

AGE : âge, en années, du conducteur au moment du sinistre. Nous faisons les mêmes remarques que pour la variable précédente.

RESP : taux de responsabilité du conducteur. Par convention, les sociétés d’assurances ont fixé 5 taux de responsabilité, à savoir 0, 25, 50, 75 et 100 en pourcentage. Nous pouvons ainsi traiter cette variable comme qualitatitive ordinale, par exemple.

MONT : Montant, en euros, du coût du sinistre. En réalité, comme nous avons une précision jusqu’au centime, c’est une variable quantitative discrète. Mais étant donné le nombre de valeurs possibles, nous pouvons la traiter comme variable continue.

Traitement. Nous procédons à la lecture des données dans le logiciel R. Nous assignons un répertoire courant de travail, dans lequel nous enregistrons une version type « csv » de notre fichier Sinistres.csv, c’est-à-dire le format texte avec le signe « ; » pour séparateur de champs , le « . » pour la séparation de la partie décimale et tous les textes entre « " ». Nous lisons dans l’environnement de travail de R le fichier avec la commande :

Donnees= read.delim ("Sinistres.csv", header =TRUE, sep =";").

Il est à remarquer l’affectation des données à un objet dont le nom est Donnees. Nous affichons les objets contenus dans l’environnement de travail de la session :

ls(); réponse : "Donnees".

Pour avoir le contenu d’un objet, il suffit d’exécuter le nom de cet objet :

Donnees ; réponse :

	NATU	TIER	COND	PERM	AGE	RESP	MONT
1	BDG	0	TIT	17	57	0	161.02
2	PAR	0	TIT	23	42	0	345.13
3	VOL	0	TIT	25	44	0	33.98
...	...	...	...	...	...	...	...
354	MAT	1	TIT	9	29	0	0.00
355	MAT	1	TIT	34	56	0	34.36
356	BDG	0	TIT	22	43	0	110.51

Un numéro de ligne s’affiche automatiquement R ; les nombres sont justifiés à droite et les textes à gauche. Nous avons gardé, pour simplifier l’affichage, uniquement les trois premières et les trois dernières lignes. Nous pouvons également afficher les six premières lignes seulement avec la commande :

head (Donnees) ; réponse :

	NATU	TIER	COND	PERM	AGE	MONT
1	BDG	0	TIT	17	57	161.02
2	PAR	0	TIT	23	42	345.13
3	VOL	0	TIT	25	44	33.98
4	BDG	0	TIT	18	39	127.37
5	MAT	1	TIT	14	34	282.78
6	MAT	1	TIT	16	35	428.57

A la fin de la session nous sauvegardons l’environnement de travail sous le nom «Sinistres» soit avec le menu déroulant, soit avec la commande :

save.image ("D:\CheminComplet\Sinistres.RData").

Haut de la page.

1. Les observations et le modèle aléatoire.

1. Les observations et le modèle aléatoire.

1.2.1. Application 1 : Sinistres.