Caractéristiques des variables : l’amplitude

L’amplitude de la variable a-t-elle de l’importance ? Les modèles linéaires sont du type y = w x + b, où le coefficient de régression w représente la variation attendue en y pour une variation d’une unité en x (le prédicteur). Ainsi, l’amplitude de w est en partie déterminée par la magnitude des unités utilisées … Lire plus

Caractéristiques des variables : Valeurs aberrantes

Une valeur aberrante est un point de données qui est significativement différent des autres données. « Une observation aberrante est une observation qui s’écarte tellement des autres observations qu’elle éveille des soupçons quant au fait qu’elle a été générée par un mécanisme différent ». Faut-il supprimer les observations aberrantes ? Selon le contexte, les observations aberrantes méritent … Lire plus

Apprendre à utiliser Pandas Profiling

Un guide complet pour démarrer avec Pandas Profiling en utilisant Python. Introduction Avec l’explosion de la technologie et l’immense quantité de données et de contenus créés quotidiennement, les data scientist doivent continuellement apprendre de nouvelles façons d’analyser efficacement ces données. L’une des parties les plus cruciales de tout nouveau projet de données est la phase … Lire plus

Caractéristiques des variables : les étiquettes rares

Des étiquettes qui se produisent rarement Les variables catégorielles sont celles dont les valeurs sont sélectionnées dans un groupe de catégories, également appelées labels. Différents labels apparaissent dans l’ensemble de données avec des fréquences différentes. Certaines catégories apparaissent beaucoup dans l’ensemble de données, tandis que d’autres catégories n’apparaissent que dans un nombre limité d’observations. Par … Lire plus

Caractéristiques des variables : La cardinalité

Les valeurs d’une variable catégorielle sont sélectionnées à partir d’un groupe de catégories, également appelées labels. Par exemple, dans la variable sexe, les catégories ou labels sont masculins et féminins, alors que dans la variable Ville, les labels peuvent être Montpellier, Le Lude, Grenoble, etc. Les différentes variables catégorielles contiennent un nombre différent d’étiquettes ou … Lire plus

Caractéristiques des variables : Les données manquantes

Valeurs manquantes Les données manquantes, ou valeurs manquantes, se produisent lorsqu’aucune donnée / aucune valeur n’est stockée pour certaines observations au sein d’une variable. Les données incomplètes sont un problème inévitable dans la plupart des sources de données, et peuvent avoir un impact significatif sur les conclusions qui peuvent être tirées des données. Pourquoi les … Lire plus

Variables mixtes en machine learning

Les variables mixtes sont celles dont les valeurs contiennent à la fois des chiffres et des étiquettes. Les variables peuvent être mélangées pour diverses raisons. Dans notre fichiers les variables de Musique sont un exemple typique. On mélange la spécialité avec la position à l’arrivée. import pandas as pd import matplotlib.pyplot as plt data = … Lire plus

Les variables de type Date Heure

Un type spécial de variable catégorielle est celui qui, au lieu de prendre les étiquettes traditionnelles, comme la couleur (bleu, rouge) ou la ville (Paris, Montpellier), prend les dates et/ou l’heure comme valeurs. Par exemple, la date de naissance (« 29-08-1997 », « 12-01-2015 »), ou la date d’application (« 2010-Dec », « 2005-Mars »). Les variables de date et heure peuvent contenir … Lire plus

Les variables catégorielles

Dans cette présentation, nous utiliserons notre jeu de données sur les courses hippiques. #Import de nos librairies import pandas as pd import matplotlib.pyplot as plt # Chargement de notre jeu de données data = pd.read_csv(‘../exportfeature.csv’,parse_dates=[‘date’],infer_datetime_format=True,dayfirst=True,sep=";",encoding=’ANSI’) data.head() # regardons les valeurs de la variable Hippodrome data[‘Hippodrome’].unique() On a la liste de tous les hippodromes présents dans … Lire plus