Sinistres Assurance Auto

Kaggle

10 302 contrats d'assurance automobile avec variables sociodémographiques (âge, revenu, éducation, état civil) et historique de sinistres. Idéal pour la segmentation clientèle, la propension au sinistre et la détection de fraude.

IARD Pricing Fraude

Open in Kaggle Documentation Comparer Notebooks

Score qualité — 0/100

· Complétude des métadonnées
· Taux de valeurs nulles
· Présence d'un dictionnaire
· Avis et téléchargements
· Disponibilité des benchmarks

Informations sur les données

10 302

Lignes

Colonnes

1.21

Avis

Variable cible

outcome

Période couverte

2015 – ?

Licence

CC BY 4.0

Intégrité SHA256

f33708d6e65178b2b18576ba678b82976ff766dadb3b94077dc013f464298971

Ce que vous pouvez apprendre avec ce dataset

Compétences techniques

Modélisation GLM (Poisson, Gamma, Tweedie)
Calcul de la prime pure et technique
Classification binaire et gestion du déséquilibre
Feature engineering pour détection d'anomalies
Validation croisée et évaluation des modèles

Applications métier

Tarification automobile ou MRH
Analyse de sinistralité
Système de scoring anti-fraude
Priorisation des dossiers à contrôler

Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir

Statistiques & Profil des données

Distributions des variables

Matrice de corrélation (variables numériques)

−1 (corrélation négative) → +1 (corrélation positive)

Visualisations des données

Basées sur les données réelles du dataset

Chargement…

Parcours data complet — de A à Z

Suivez chaque étape du travail data science appliqué sur ce dataset.

Accès au dataset

import pandas as pd

# Chargement direct depuis StochastiQdata
url = "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/a97baf96-3796-4887-a696-1ce2149e0553/7a4b4b03-b41a-412c-a8ac-006b24d3c22b.csv"
df  = pd.read_csv(url)

# Aperçu
print(df.shape)   # (10 302 lignes, 19 colonnes)
print(df.head())

library(readr)

# Chargement direct depuis StochastiQdata
url <- "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/a97baf96-3796-4887-a696-1ce2149e0553/7a4b4b03-b41a-412c-a8ac-006b24d3c22b.csv"
df  <- read_csv(url)

# Aperçu
dim(df)
head(df)

curl -L -o "sinistres_assurance_auto.csv" \
  "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/a97baf96-3796-4887-a696-1ce2149e0553/7a4b4b03-b41a-412c-a8ac-006b24d3c22b.csv"

Benchmarks — Performance des modèles

Aucun benchmark disponible pour ce dataset.

Soyez le premier à soumettre vos résultats !

Modèles

Chargement des modèles…

Notebooks

Aucun notebook disponible pour ce dataset.

Partagez votre analyse et contribuez à la communauté !

Avis de la communauté

Aucun avis pour ce dataset.

Soyez le premier à donner votre avis !

Donner votre avis

Commentaires

Chargement…

Écrire un commentaire

Questions à explorer avec ce dataset

Quels facteurs influencent le plus la fréquence des sinistres ?

Comment segmenter le portefeuille par niveau de risque ?

La sévérité des sinistres suit-elle une loi log-normale ou Gamma ?

Existe-t-il des effets non-linéaires entre l'âge du véhicule et la sinistralité ?

Comment construire un modèle de tarification à deux parties (fréquence × coût moyen) ?

Quelles variables proxy peuvent remplacer des données manquantes ou réglementairement sensibles ?

Quels patterns comportementaux distinguent les déclarations frauduleuses ?

Comment optimiser le seuil de détection (précision vs rappel) selon le coût métier ?

Le déséquilibre de classes impacte-t-il significativement la performance du modèle ?

Quelles techniques de rééchantillonnage (SMOTE, undersampling) donnent les meilleurs résultats ?

Les fraudes sont-elles regroupées géographiquement ou temporellement ?

Comment interpréter les décisions du modèle pour les équipes d'investigation ?

Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation

Voir tous les parcours

Sinistres Assurance Auto

Informations sur les données

Ce que vous pouvez apprendre avec ce dataset

Compétences techniques

Applications métier

Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir

Statistiques & Profil des données

Distributions des variables

Matrice de corrélation (variables numériques)

Visualisations des données

Parcours data complet — de A à Z

Collecte & Import des données

Actions concrètes

Librairies & outils

Exemple de code

Nettoyage & Préparation

Actions concrètes

Librairies & outils

Exemple de code

Analyse Exploratoire (EDA)

Actions concrètes

Librairies & outils

Exemple de code

Modélisation GLM

Actions concrètes

Librairies & outils

Exemple de code

Tarification

Actions concrètes

Librairies & outils

Exemple de code

Validation & Monitoring

Actions concrètes

Librairies & outils

Exemple de code

Accès au dataset

Benchmarks — Performance des modèles

Modèles

Soumettre un modèle

Notebooks

Avis de la communauté

Donner votre avis

Commentaires

Écrire un commentaire

Questions à explorer avec ce dataset

Vous aimerez aussi

Citer ce dataset

Historique des versions 1 version