le logo du site

1. Les observations.

1.2.1. Application 1 : Sinistres.

Sujet. Cette application concerne certaines données de sinistres observés dans un portefeuille d'assurances automobiles. Les données sont dans une feuille du classeur LibreOffice Sinistres.ods. Chacune des \(7\) colonnes de cette feuille contient une variable et chacune des \(356\) lignes contient les observations de toutes les variables pour un même sinistre. Ce tableau représente la manière standardisée de gérer des données. Ce tableau se trouve également directement dans R, dans l’environnement de travail Sinistres.RData sous le nom Donnees.

Dictionnaire des variables. Les définitions des variables sont :

NATU : nature du sinistre, avec les codes «PAR» pour parking, «BDG» pour bris de glaces, «VOL» pour vol et «MAT» pour dégats matériels. C’est une variable qualitative nominale à \(4\) modalités.

TIER : indicatrice de la présence de tiers, avec les codes «\(0\)» pour l’absence et «\(1\)» pour la présence de tiers impliqué dans le sinistre. Malgré le codage numérique, c’est une variable qualitative nominale à \(2\) modalités.

COND : conducteur au moment du sinistre, avec les codes «TIT» pour le titulaire de la police, «CON» pour le conjoint et «AUT» pour autres. C’est une variable qualitative nominale à \(3\) modalités.

PERM : ancienneté en années du permis de conduire du conducteur au moment du sinistre. Cette variable, mesurant la durée de temps écoulé depuis l’obtention du permis de conduire, est une variable quantitative continue. Mais étant arrondie à l’année, elle présente l’aspect d’une variable discrète.

AGE : âge en années du conducteur au moment du sinistre. Nous faisons les mêmes remarques que pour la variable précédente.

RESP : taux de responsabilité du conducteur. Par convention, les sociétés d’assurances ont fixé \(5\) taux de responsabilité, à savoir \(0,\ 25,\ 50,\ 75,\ {\rm et}\ 100\) pour cent. Nous pouvons ainsi traiter cette variable comme qualitatitive ordinale, par exemple.

MONT : Montant en euros du coût du sinistre. En réalité, comme nous avons une précision jusqu’au centime, c’est une variable quantitative discrète. Mais étant donné le nombre de valeurs possibles, nous pouvons la traiter comme variable continue.

Traitement. Nous procédons à la lecture des données dans le logiciel R. Nous assignons un répertoire courant de travail, dans lequel nous enregistrons une version type « csv » de notre fichier Sinistres.csv, c’est-à-dire le format texte avec le signe « ; » pour séparateur de champs , le « . » pour la séparation de la partie décimale et tous les textes entre « " ». Nous lisons dans l’environnement de travail de R le fichier avec la commande :

Donnees= read.delim ("Sinistres.csv", header =TRUE, sep =";").

Il est à remarquer l’affectation des données à un objet dont le nom est Donnees. Nous affichons les objets contenus dans l’environnement de travail de la session :

ls(); réponse : "Donnees".

Pour avoir le contenu d’un objet, il suffit d’exécuter le nom de cet objet :

Donnees ; réponse :

NATU TIER COND PERM AGE RESP MONT
1 BDG 0 TIT 17 57 0 161.02
2 PAR 0 TIT 23 42 0 345.13
3 VOL 0 TIT 25 44 0 33.98
... ... ... ... ... ... ... ...
354 MAT 1 TIT 9 29 0 0.00
355 MAT 1 TIT 34 56 0 34.36
356 BDG 0 TIT 22 43 0 110.51

Il est à remarquer que R affiche automatiquement un numéro de ligne, que les nombres sont justifiés à droite et les textes à gauche. Nous avons gardé, pour simplifier l’affichage, uniquement les trois premières et les trois dernières lignes. Nous pouvons également afficher les six premières lignes seulement avec la commande :

head (Donnees) ; réponse :

NATU TIER COND PERM AGE RESP MONT
1 BDG 0 TIT 17 57 0 161.02
2 PAR 0 TIT 23 42 0 345.13
3 VOL 0 TIT 25 44 0 33.98
4 BDG 0 TIT 18 39 0 127.37
5 MAT 1 TIT 14 34 0 282.78
6 MAT 1 TIT 16 35 0 428.57

A la fin de la session nous sauvegardons l’environnement de travail sous le nom «Sinistres» soit avec le menu déroulant, soit avec la commande :

save.image ("D:\\CheminComplet\\Sinistres.RData").

Haut de la page.