Caractéristiques des variables : Les données manquantes

Valeurs manquantes

Les données manquantes, ou valeurs manquantes, se produisent lorsqu’aucune donnée / aucune valeur n’est stockée pour certaines observations au sein d’une variable.

Les données incomplètes sont un problème inévitable dans la plupart des sources de données, et peuvent avoir un impact significatif sur les conclusions qui peuvent être tirées des données.

Pourquoi les données sont-elles manquantes ?

La source des données manquantes peut être très différente. Ce ne sont là que quelques exemples :

  • Une valeur est manquante parce qu’elle a été oubliée, perdue ou mal stockée
  • Pour une certaine observation, la valeur n’existe pas
  • La valeur ne peut pas être connue ou identifiée

Dans de nombreuses organisations, les informations sont recueillies dans un formulaire par une personne qui parle avec un client au téléphone, ou bien par des clients qui remplissent des formulaires en ligne. Souvent, la personne qui saisit les données ne remplit pas tous les champs du formulaire. De nombreux champs ne sont pas obligatoires, ce qui peut entraîner des valeurs manquantes.

Les raisons de l’omission d’informations peuvent varier : peut-être la personne ne veut-elle pas divulguer certaines informations, par exemple le revenu, ou ne connaît-elle pas la réponse, ou encore la réponse n’est pas applicable dans certaines circonstances, ou au contraire, la personne au sein de l’organisation veut faire gagner du temps au client, et omet donc de poser des questions qu’elle juge moins pertinentes.

Il existe d’autres cas où la valeur d’une certaine variable n’existe pas. Par exemple, dans la variable “dette totale en pourcentage du revenu total” (très courante dans les données financières), si la personne n’a pas de revenu, alors le pourcentage total de 0 n’existe pas, et il s’agira donc d’une valeur manquante.

Il est important de comprendre comment les données manquantes sont introduites dans l’ensemble de données, c’est-à-dire les mécanismes par lesquels les informations manquantes sont introduites dans un ensemble de données. Selon le mécanisme, nous pouvons choisir de traiter les valeurs manquantes différemment. En outre, en connaissant la source des données manquantes, nous pouvons choisir de prendre des mesures pour contrôler cette source et réduire la quantité d’informations manquantes à l’avenir pendant la collecte des données.

Mécanismes de données manquantes

Il existe trois mécanismes qui conduisent à des données manquantes, deux d’entre eux impliquent des données manquantes de manière aléatoire ou quasi aléatoire, et le troisième implique une perte systématique de données.

Données manquantes complètement au hasard, MCAR :

Une variable est complètement manquante au hasard (MCAR) si la probabilité d’être manquante est la même pour toutes les observations. Lorsque les données sont MCAR, il n’y a absolument aucune relation entre les données manquantes et toute autre valeur, observée ou manquante, dans l’ensemble de données. En d’autres termes, ces points de données manquants sont un sous-ensemble aléatoire des données. Il n’y a rien de systématique qui rend certaines données plus susceptibles d’être manquantes que d’autres. Si les valeurs des observations manquent complètement au hasard, le fait de ne pas tenir compte de ces cas ne fausserait pas les déductions faites.

Données manquantes au hasard, MAR :

MAR se produit lorsqu’il existe une relation entre la propension des valeurs manquantes et les données observées. En d’autres termes, la probabilité qu’une observation soit manquante dépend des informations disponibles (c’est-à-dire des autres variables de l’ensemble de données). Par exemple, si les hommes sont plus susceptibles de divulguer leur poids que les femmes, le poids est MAR. L’information sur le poids sera manquante au hasard pour les hommes et les femmes qui ne divulguent pas leur poids, mais comme les hommes sont plus enclins à le divulguer, il y aura plus de valeurs manquantes pour les femmes que pour les hommes.

Dans une situation comme celle décrite ci-dessus, si nous décidons de poursuivre avec la variable avec des valeurs manquantes (dans ce cas, le poids), nous pourrions avoir intérêt à inclure le sexe pour contrôler le biais de poids pour les observations manquantes.

Valeur manquante non aléatoire, MNAR :

Les données manquantes ne sont pas aléatoires (MNAR) lorsqu’il existe un mécanisme ou une raison pour laquelle des valeurs manquantes sont introduites dans l’ensemble de données. Par exemple, le MNAR se produirait si des personnes ne remplissaient pas une enquête sur la dépression en raison de leur niveau de dépression. Dans ce cas, les données manquantes sont liées au résultat, la dépression. De même, lorsqu’une société financière demande à ses clients des documents bancaires et d’identité afin de prévenir l’usurpation d’identité, les fraudeurs se faisant passer pour quelqu’un d’autre ne téléchargent généralement pas de documents, parce qu’ils ne les ont pas, parce qu’ils sont des fraudeurs. Il existe donc une relation systématique entre les documents manquants et la cible que nous voulons prévoir : la fraude.

Il est important de comprendre le mécanisme par lequel les données sont manquantes pour décider des méthodes à utiliser pour imputer les valeurs manquantes.

Il y a 90 valeurs manquantes pour M4 et 3514 pour la dernière cote

Il manque des données dans les variables M4 (0.4% manquants), et icote 17%.

 

Mécanismes des données manquantes

Données manquantes non aléatoires (MNAR) : Valeurs manquantes systématiques

Dans l’ensemble de données, les valeurs manquantes sont les variables M4 et iCote.

Pouvons-nous en déduire quelque chose en examinant les données ?

On observe que le pourcentage de valeurs manquantes est plus élevé pour chevaux à l’arrivée. Mais ce n’est pas flagrant.

Remarque : Ceci dit, pour vraiment déterminer si les données manquent ou non au hasard, nous devons nous familiariser avec la manière dont les données ont été collectées. L’analyse des ensembles de données ne peut que nous orienter dans la bonne direction ou nous aider à formuler des hypothèses.

Pour la cote de la dernière course, on voit que la répartition est presque similaire.

Il faudra qd même voir ce que l’on fait de ces données manquantes.

Si vous voulez découvrir comment fonctionne la librairie pandas ou bien l’environnement Jupyter, n’hésitez pas à consulter les cours ci-dessous.

GCH anime

Je télécharge mon guide gratuit

.

Vous recevrez votre guide par email sans aucun engagement de votre part.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.