Détection Fraude Paiements en Ligne
Kaggle6.3 millions de transactions de paiement en ligne avec indicateur de fraude. Incluant type de transaction, montant, soldes initiaux et finaux. Dataset synthétique haute fidélité pour la modélisation de fraude bancaire.
Uploader le fichier (CSV, Parquet, Excel — max 50 MB)
Score qualité — 0/100
- · Complétude des métadonnées
- · Taux de valeurs nulles
- · Présence d'un dictionnaire
- · Avis et téléchargements
- · Disponibilité des benchmarks
Informations sur les données
6 362 620
Lignes
10
Colonnes
37.16
MB
0
Avis
Variable cible
isFraud
Licence
CC0 1.0 (domaine public)
Intégrité SHA256
e10b97f233cb885be1fff3843da9a600
Ce que vous pouvez apprendre avec ce dataset
Compétences techniques
- Classification binaire et gestion du déséquilibre
- Feature engineering pour détection d'anomalies
- Validation croisée et évaluation des modèles
Applications métier
- Système de scoring anti-fraude
- Priorisation des dossiers à contrôler
Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir
Statistiques & Profil des données
Distributions des variables
Matrice de corrélation (variables numériques)
Visualisations des données
Basées sur les données réelles du dataset
Parcours data complet — de A à Z
Suivez chaque étape du travail data science appliqué sur ce dataset.
Actions concrètes
- Importer le dataset de sinistres
- Calculer le taux de fraude (souvent < 5%)
- Analyser les variables disponibles
- Identifier les features discriminantes potentielles
Librairies & outils
Exemple de code
taux_fraude = df["Fraud"].mean()
print(f"Taux de fraude: {taux_fraude:.2%}")
# Souvent 2-8% → problème de déséquilibre!
Actions concrètes
- Calculer le délai déclaration - sinistre
- Créer des features comportementales (historique client)
- Encoder les variables catégorielles (target encoding)
- Créer des interactions entre variables clés
- Normaliser les montants (log-transformation)
Librairies & outils
Exemple de code
df["delai_declaration"] = ( df["ClaimDate"] - df["AccidentDate"] ).dt.days df["log_montant"] = np.log1p(df["ClaimAmount"])
Actions concrètes
- Comparer les distributions fraude vs non-fraude par variable
- Identifier les segments à risque élevé
- Analyser les corrélations avec la cible
- Cartographier la fraude géographiquement
Librairies & outils
Exemple de code
import seaborn as sns sns.boxplot(x="Fraud", y="delai_declaration", data=df) # Les fraudes ont souvent un délai plus long!
Actions concrètes
- Appliquer SMOTE pour rééquilibrer les classes
- Entraîner : Logistic Regression (baseline), XGBoost, LightGBM
- Optimiser les hyperparamètres (Optuna/GridSearch)
- Utiliser class_weight='balanced' ou scale_pos_weight
- Construire un score de fraude [0, 1]
Librairies & outils
Exemple de code
from imblearn.over_sampling import SMOTE X_res, y_res = SMOTE().fit_resample(X_train, y_train) model = XGBClassifier(scale_pos_weight=10).fit(X_res, y_res)
Actions concrètes
- Tracer la courbe Precision/Recall
- Calculer le F-beta score (β selon priorité)
- Modéliser le coût : faux positif (rejet abusif) vs faux négatif (fraude acceptée)
- Fixer le seuil de déclenchement alerte
- Construire le barème de priorité (faible / moyen / fort risque)
Librairies & outils
Exemple de code
from sklearn.metrics import precision_recall_curve p, r, thresholds = precision_recall_curve(y_test, y_scores) # Choisir threshold qui maximise F2 (rappel prioritaire) f2 = (5*p*r) / (4*p + r)
Actions concrètes
- Exporter le modèle (joblib / ONNX)
- Créer un pipeline de scoring en temps réel
- Mettre en place le monitoring du modèle (drift détection)
- Définir les règles de ré-entraînement
- Mesurer l'impact business (fraudes détectées × montant moyen)
Librairies & outils
Exemple de code
import joblib joblib.dump(model, "fraud_scorer_v1.pkl") # Scoring en production score = model.predict_proba(new_claim)[:, 1]
Accès au dataset
import pandas as pd # Chargement direct depuis StochastiQdata url = "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/34be2e42-53d8-48b4-9c1c-b2e1937775b3/fbec7872-d4b2-4d72-a65d-4dbd76b82509.csv" df = pd.read_csv(url) # Aperçu print(df.shape) # (6 362 620 lignes, 10 colonnes) print(df.head())
Benchmarks — Performance des modèles
Aucun benchmark disponible pour ce dataset.
Soyez le premier à soumettre vos résultats !
Modèles
Aucun modèle affilié pour le moment.
Soyez le premier à partager un modèle entraîné sur ce dataset.
Notebooks
Aucun notebook disponible pour ce dataset.
Partagez votre analyse et contribuez à la communauté !
Avis de la communauté
Aucun avis pour ce dataset.
Soyez le premier à donner votre avis !
Questions à explorer avec ce dataset
Quels patterns comportementaux distinguent les déclarations frauduleuses ?
Comment optimiser le seuil de détection (précision vs rappel) selon le coût métier ?
Le déséquilibre de classes impacte-t-il significativement la performance du modèle ?
Quelles techniques de rééchantillonnage (SMOTE, undersampling) donnent les meilleurs résultats ?
Les fraudes sont-elles regroupées géographiquement ou temporellement ?
Comment interpréter les décisions du modèle pour les équipes d'investigation ?
Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation
Voir tous les parcours