Ajout d’une variable pour capturer les NA

Dans les cahiers précédents, nous avons appris à remplacer les valeurs manquantes par différentes techniques. Ces méthodes supposent que les données sont complètement manquantes au hasard (MCAR). Il existe d’autres méthodes qui peuvent être utilisées lorsque les valeurs ne sont pas manquantes au hasard, par exemple l’imputation de valeur arbitraire ou l’imputation de fin de … Lire plus

Imputation de valeurs arbitraires pour les variables catégorielles

C’est la méthode la plus utilisée pour l’imputation des données manquantes pour les variables catégorielles. Cette méthode consiste à traiter les données manquantes comme une étiquette ou une catégorie supplémentaire de la variable. Toutes les observations manquantes sont regroupées dans la nouvelle étiquette « manquante ». Il s’agit essentiellement de l’équivalent du remplacement par une valeur arbitraire … Lire plus

Imputation la plus fréquente par catégorie

Imputation la plus fréquente par catégorie | Imputation par mode L’imputation consiste à remplacer les données manquantes par des estimations statistiques des valeurs manquantes. L’objectif de toute technique d’imputation est de produire un ensemble complet de données qui peut être utilisé pour former des modèles d’apprentissage automatique. L’imputation par mode consiste à remplacer toutes les occurrences de … Lire plus

Imputation de valeur arbitraire

L’imputation consiste à remplacer les données manquantes par des estimations statistiques des valeurs manquantes. L’objectif de toute technique d’imputation est de produire un ensemble complet de données qui peut être utilisé pour former des modèles d’apprentissage automatique. L’imputation de valeurs arbitraires consiste à remplacer toutes les occurrences de valeurs manquantes (NA) dans une variable par une valeur … Lire plus

Imputation moyenne / médiane

L’imputation consiste à remplacer les données manquantes par des estimations statistiques des valeurs manquantes. L’objectif de toute technique d’imputation est de produire un ensemble complet de données qui peut être utilisé pour former des modèles d’apprentissage automatique. L’imputation moyenne / médiane consiste à remplacer toutes les occurrences de valeurs manquantes (NA) dans une variable par la moyenne … Lire plus

Analyse des données manquantes

Analyse complète du cas L’analyse complète des cas (ACC), également appelée « suppression des cas par liste », consiste à rejeter les observations lorsque des valeurs de l’une des variables sont manquantes. L’analyse complète des cas consiste à analyser littéralement uniquement les observations pour lesquelles il existe des informations dans toutes les variables de l’ensemble de données. … Lire plus

Caractéristiques des variables : l’amplitude

L’amplitude de la variable a-t-elle de l’importance ? Les modèles linéaires sont du type y = w x + b, où le coefficient de régression w représente la variation attendue en y pour une variation d’une unité en x (le prédicteur). Ainsi, l’amplitude de w est en partie déterminée par la magnitude des unités utilisées … Lire plus

Quelle est la classe d’un cheval ?

Il existe comme vous le savez de nombreuses possibilités pour calculer des performances pour un cheval. Dans cet article nous allons nous attacher à décrypter une technique en particulier : la classe d’un cheval. Cette étude nous fournira des résultats pour le jeu simple placé et gagnant. C’est une méthode très simple à comprendre et à … Lire plus

Caractéristiques des variables : Valeurs aberrantes

Une valeur aberrante est un point de données qui est significativement différent des autres données. « Une observation aberrante est une observation qui s’écarte tellement des autres observations qu’elle éveille des soupçons quant au fait qu’elle a été générée par un mécanisme différent ». Faut-il supprimer les observations aberrantes ? Selon le contexte, les observations aberrantes méritent … Lire plus