Imputation de valeurs arbitraires pour les variables catégorielles

C’est la méthode la plus utilisée pour l’imputation des données manquantes pour les variables catégorielles. Cette méthode consiste à traiter les données manquantes comme une étiquette ou une catégorie supplémentaire de la variable. Toutes les observations manquantes sont regroupées dans la nouvelle étiquette “manquante”.

Il s’agit essentiellement de l’équivalent du remplacement par une valeur arbitraire pour les variables numériques.

La beauté de cette technique réside dans le fait qu’elle ne suppose rien sur le fait que les données sont manquantes. Elle est très bien adaptée lorsque le nombre de données manquantes est élevé.

Avantages

  • Facile à mettre en œuvre
  • Moyen rapide d’obtenir des ensembles de données complets
  • Peut être intégré dans la production (lors du déploiement du modèle)
  • Saisit l’importance du “manque” s’il y en a un
  • Aucune supposition faite sur les données

Limitations

  • Si le nombre de NA est faible, la création d’une catégorie supplémentaire peut entraîner un surdimensionnement des arbres

Pour les variables catégorielles, c’est la méthode de choix, car elle traite les valeurs manquantes comme une catégorie distincte, sans faire d’hypothèse sur la variable ou les raisons pour lesquelles les données pourraient être manquantes. Elle est largement utilisée dans les concours et les organisations de science des données.

En remplaçant NA dans les variables catégorielles par une étiquette appelée “manquante”, nous n’apprenons rien de l’ensemble de formation, donc en principe nous pourrions faire cela dans l’ensemble de données original et ensuite séparer en train et test. Cependant, je ne recommande pas cette pratique. Vous verrez dans les prochains cahiers que la séparation en train et test dès le début aide à construire un pipeline d’apprentissage machine. Je vais donc continuer à appliquer cette pratique ici aussi.

M1

m1 remplace
m1 remplace 2

Nous voyons notre nouvelle étiquette manquante

m1 remplace 3

On voit que l’étiquette Manquante est globalement plus présente à l’arrivée de Da

Si vous voulez découvrir comment fonctionne la librairie pandas ou bien l’environnement Jupyter, n’hésitez pas à consulter les cours ci-dessous.

GCH anime

Je télécharge mon guide gratuit

.

Vous recevrez votre guide par email sans aucun engagement de votre part.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.