Résiliation Clients Assurance
KaggleDataset de résiliation (churn) d'assurance. Variables client et indicateur de résiliation. Modélisation de la fidélisation client et anticipation des résiliations en assurance.
Uploader le fichier (CSV, Parquet, Excel — max 50 MB)
Score qualité — 0/100
- · Complétude des métadonnées
- · Taux de valeurs nulles
- · Présence d'un dictionnaire
- · Avis et téléchargements
- · Disponibilité des benchmarks
Informations sur les données
10 000
Lignes
9
Colonnes
0
Avis
Variable cible
churn
Licence
CC0 1.0 (domaine public)
Ce que vous pouvez apprendre avec ce dataset
Compétences techniques
- Modélisation GLM (Poisson, Gamma, Tweedie)
- Calcul de la prime pure et technique
- Validation croisée et évaluation des modèles
Applications métier
- Tarification automobile ou MRH
- Analyse de sinistralité
Visualisations des données
Basées sur les données réelles du dataset
Parcours data complet — de A à Z
Suivez chaque étape du travail data science appliqué sur ce dataset.
Actions concrètes
- Importer le CSV/Parquet avec pandas
- Vérifier le nombre de lignes, colonnes et types
- Identifier la variable cible (ClaimNb, Exposure)
- Comprendre le dictionnaire des variables
Librairies & outils
Exemple de code
df = pd.read_csv("freMTPL2freq.csv")
print(df.dtypes)
print(df.shape) # ex: (678013, 12)
Actions concrètes
- Traiter les valeurs manquantes (NaN)
- Supprimer ou plafonner les outliers (ex: Exposure > 1)
- Créer la variable réponse : fréquence = ClaimNb / Exposure
- Encoder les variables catégorielles (VehBrand, Region)
- Découper train / test (80/20 par millésime)
Librairies & outils
Exemple de code
df["Frequency"] = df["ClaimNb"] / df["Exposure"]
df = df[df["Exposure"] <= 1] # Plafonner l'exposure
df["VehBrand"] = df["VehBrand"].astype("category")
Actions concrètes
- Calculer la fréquence moyenne par segment (âge, région, bonus)
- Tracer les distributions des sinistres et de l'exposition
- Identifier les corrélations entre features
- Visualiser les outliers avec boxplots
- Analyser le ratio sinistres/primes brut
Librairies & outils
Exemple de code
freq_by_age = df.groupby("DrivAge")["Frequency"].mean()
freq_by_age.plot(kind="bar", title="Fréquence par âge du conducteur")
Actions concrètes
- Modèle fréquence : GLM Poisson avec offset = log(Exposure)
- Modèle sévérité : GLM Gamma sur les sinistres non-nuls
- Calculer la prime pure = Fréquence × Sévérité
- Comparer avec XGBoost / GBM en benchmark
- Analyser les coefficients (relativités par variable)
Librairies & outils
Exemple de code
import statsmodels.api as sm glm_freq = sm.GLM( y, X, family=sm.families.Poisson(), offset=np.log(df["Exposure"]) ).fit() print(glm_freq.summary())
Actions concrètes
- Calculer la prime de référence (profil neutre)
- Extraire les coefficients multiplicatifs par variable
- Construire la grille tarifaire (tableau de relativités)
- Comparer les primes modélisées vs primes marché
- Tester différents scénarios de chargements
Librairies & outils
Exemple de code
# Relativités par classe d'âge
relativites = np.exp(glm_freq.params)
grille = pd.DataFrame({
"Variable": X.columns,
"Relativite": relativites
})
Actions concrètes
- Calculer Gini, AUC sur le test set
- Tracer la courbe de lift (classement des risques)
- Faire un backtesting sur données hors-période
- Analyser le ratio S/P modélisé vs observé par décile
- Documenter les limites et biais potentiels
Librairies & outils
Exemple de code
from sklearn.metrics import roc_auc_score
gini = 2 * roc_auc_score(y_test, y_pred) - 1
print(f"Gini coefficient: {gini:.4f}")
Benchmarks — Performance des modèles
Aucun benchmark disponible pour ce dataset.
Soyez le premier à soumettre vos résultats !
Modèles
Aucun modèle affilié pour le moment.
Soyez le premier à partager un modèle entraîné sur ce dataset.
Notebooks
Aucun notebook disponible pour ce dataset.
Partagez votre analyse et contribuez à la communauté !
Avis de la communauté
Aucun avis pour ce dataset.
Soyez le premier à donner votre avis !
Questions à explorer avec ce dataset
Quels facteurs influencent le plus la fréquence des sinistres ?
Comment segmenter le portefeuille par niveau de risque ?
La sévérité des sinistres suit-elle une loi log-normale ou Gamma ?
Existe-t-il des effets non-linéaires entre l'âge du véhicule et la sinistralité ?
Comment construire un modèle de tarification à deux parties (fréquence × coût moyen) ?
Quelles variables proxy peuvent remplacer des données manquantes ou réglementairement sensibles ?
Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation
Voir tous les parcours