LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Datachallenge

Compte rendu : Datachallenge. Recherche parmi 300 000+ dissertations

Par   •  27 Avril 2021  •  Compte rendu  •  1 777 Mots (8 Pages)  •  384 Vues

Page 1 sur 8

Introduction

Ce rapport a pour but d’analyser les données d’un dataset nommé ‘’CHURN TRAIN’’. Ces données correspondent aux transactions des clients d’une agence bancaire. Une ligne représente un client tandis qu’une colonne représente les attributs de ce même client. Ces données ont été fournies par l’agence Paris 13e du Crédit Agricole.

L’attrition client, ou churn rate en anglais, correspond au nombre de clients qui quittent l’agence bancaire. Elle permet de mesurer la fidélité des clients à l’égard du service. Le but de ce rapport ici est de trouver une méthode précise afin de prédire les clients de l’agence susceptibles de partir à la concurrence. Cette prédiction peut amener l’agence, in fine, à définir des mesures “anti-churn” pour éviter le départ de ces clients.

Pour réaliser ce rapport, nous nous appuyons sur BigML, une plateforme en ligne de Machine Learning.

Avant d’expliquer les différentes manipulations et prédictions effectuées sur BigML, expliquons, de manière générale, les étapes suivies. Plus tard, nous décrivons les différents essais menés en spécifiant les détails utiles et nécessaires à la compréhension de notre démarche.

Description des étapes

1. Analyse et nettoyage du fichier Excel “CHURN TRAIN”

Pour commencer, nous étudions le fichier Excel d’origine. Celui-ci est composé de 12 colonnes appelées feature : ID, ORDRE, BANQUE, CODE, GUICHET, GENRE, AGE, MODE_PAIEMENT, DERNIÈRE_TRANSACTION, SCORE, SCORE_Z et ATTRITION.

Image 1. Features du fichier “CHURN TRAIN”

Il s’agit ici de modifier certains features afin qu’ils soient uniformes d’un client à un autre. Donnons deux exemples concrets : transformer « Crédit Agricol » en « Crédit Agricole » ou que le feature genre soit dans la même langue pour tous les clients, i.e. il faut transformer « women » en « femme ».

2. Filtrage du feature ATTRITION

Toujours dans l’optique de nettoyer le jeu de données, il faut filtrer le Dataset (créé à partir de la source correspondant à l’Excel “CHURN TRAIN”). Pour cela, nous filtrons tout simplement ce Dataset selon le critère ATTRITION en s’assurant qu’il ne peut être égal qu’à “churn” (pour un client parti) ou “loyal” (pour un client fidèle).

Image 2. Filtrage du dataset selon le feature ATTRITION

3. Définition de l’objectif

Une fois notre jeu de données nettoyé et filtré, nous définissons le feature ATTRITION comme objectif. Cela signifie que l’attrition est la valeur à prévoir par notre méthode.

4. Séparation du jeu de données

Cette étape correspond à la division de notre jeu de données. Cette séparation en deux (aussi possible en trois) va permettre d’allouer une partie de notre jeu de données à l’entraînement de notre méthode, tandis que l’autre sera utilisée uniquement pour tester cette méthode entraînée.

De manière générale, la séparation se fait à hauteur de 80 % du jeu de données pour l’entraînement, et 20 % pour l’évaluation. Pour toutes les méthodes et pour les différents splits, nous avons défini le seed (graine en français) à 666. Cela nous permet de nous assurer que chaque division des données en entraînement et en test est effectuée de la même façon à chaque fois.

5. Entraînement et choix du modèle

Pour entraîner notre modèle, nous avons le choix entre plusieurs méthodes d’apprentissage supervisé. Voici les 4 utilisées et analysées dans le cadre de ce rapport :

- Model (arbre de décision) : il s’agit d’une des méthodes les plus populaires dans la classification de données. Elle permet de représenter un ensemble de choix sous forme d’arbre, avec des branches et des nœuds.

- Ensemble (forêt) : méthode d’ensemble qui regroupe des arbres de décision (le nombre d’arbres étant un paramètre contrôlable).

- Logistic Regression (régression logistique) : il s’agit d’une technique visant à prédire les valeurs d’une variable Y à partir d’une collection de variables prédictives X, continues ou binaires.

- Deepnet

6. Évaluation

Une fois la méthode entraînée sur une partie de notre jeu de données, nous la testons sur la deuxième partie. Cette évaluation s’apparente alors à une matrice de confusion. Cette matrice, qui mesure la qualité de notre modèle de classification, indique le nombre de cas où la prédiction est positive, ou négative, alors qu’elle devrait être négative, ou positive – c’est ce que l’on appelle les faux positifs, ou faux négatifs. Elle indique aussi le nombre de cas où la prédiction est vraie – ce sont alors les vrais positifs, ou négatifs.

Lors de l’évaluation, nous avons aussi accès à l’accuracy (précision en français) du modèle. Il s’agit d’un taux indiquant le pourcentage de bonnes prédictions de notre modèle.

7. Prédiction

Pour finir, et pour obtenir le taux de réussite de notre méthode nous effectuons une batch prediction (prédiction par lots en français). Ce système de prédiction permet de générer un grand nombre de prédictions en une seule fois pour tout un lot d’observations. C’est à l’issue de cette étape de prédiction que nous pouvons obtenir le taux de réussite de notre modèle car la prédiction se fait sur un dataset nouveau et sur lequel notre méthode ne s’est pas entraînée.

Description des méthodes utilisées

1. Méthode model

Pour commencer, nous utilisons simplement la méthode d’apprentissage par arbre de décision.

La précision de cette méthode est estimée à 73 % et la matrice de confusion prend la forme suivante :

Image 3. Matrice de confusion - Méthode Model (80/20)

Le taux de réussite de notre méthode de prédiction est de 73.91.

Nous décidons ensuite d’augmenter le pourcentage d’entraînement de notre modèle. Nous partons du postulat que plus

...

Télécharger au format  txt (12.2 Kb)   pdf (58.1 Kb)   docx (14 Kb)  
Voir 7 pages de plus »
Uniquement disponible sur LaDissertation.com