Les variables numériques sont celles dont les valeurs sont
des nombres. Elles peuvent être classées en valeurs discrètes ou continues.
Par exemple, le nombre de chevaux dans une course est
discret.
Il peut y avoir 15 ou 18 partants mais jamais 16,5 partants.
Il s’agit toujours d’un nombre entier.
Nous allons explorer ci-dessous quelques exemples de types
de variables en relation avec les courses hippiques.
Dans cette présentation, nous utiliserons notre jeu de données sur les courses hippiques.
Si vous n’êtes pas familiarisé avec la syntaxe python, jupyter et pandas, je vous invite à consulter les cours en fin d’article.
import pandas as pd import numpy as np import matplotlib.pyplot as plt
infer_datetime_format : Si les options True et parse_dates sont activées, pandas tentera de déduire le format des chaînes de date et d’heure dans les colonnes, et si cela peut être déduit, il passera à une méthode d’analyse plus rapide. Dans certains cas, cela peut augmenter la vitesse d’analyse de 5 à 10 fois.
dayfirst : Dates au format JJ/MM, format international et européen.
data = pd.read_csv('../exportfeature.csv',parse_dates=['date'],infer_datetime_format=True,dayfirst=True,sep=";",encoding='ANSI') data.head()
Variables continues
Regardons les valeurs de la variable allocation. Cette variable est continue, elle peut prendre en principe toute valeur
data['allocation'].unique()
array([9.000000e+04, 7.000000e+04, 4.400000e+04, 4.000000e+04, 2.200000e+04, 5.000000e+03, 1.050000e+05, 5.000000e+04, 1.200000e+05, 2.000000e+04, 3.600000e+04, 2.100000e+04, 2.800000e+04, 1.800000e+04, 1.400000e+04, 3.700000e+04, 3.500000e+04, 1.700000e+04, 3.100000e+04, 3.800000e+04, 6.000000e+03, 8.000000e+04, 4.600000e+04, 2.500000e+04, 2.400000e+04, 3.200000e+04, 5.400000e+03, 4.800000e+04, 2.300000e+04, 1.600000e+04, 8.000000e+03, 6.500000e+03, 5.500000e+04, 3.900000e+04, 3.300000e+04, 6.600000e+04, 8.800000e+04, 6.500000e+04, 5.917500e+03, 3.400000e+04, 4.200000e+04, 5.200000e+04, 3.000000e+04, 2.600000e+04, 1.500000e+05, 9.900000e+03, 5.400000e+04, 7.000000e+03, 4.500000e+04, 7.800000e+04, 7.500000e+04, 5.040000e+03, 6.000000e+04, 6.600000e+03, 5.500000e+03, 9.500000e+04, 2.700000e+04, 1.100000e+05, 1.900000e+04, 1.000000e+06, 5.760000e+03, 7.200000e+03, 8.500000e+04, 1.000000e+05, 5.800000e+04, 6.400000e+04, 7.200000e+04, 5.600000e+04, 4.000000e+05, 2.000000e+05, 1.300000e+04, 7.600000e+04, 7.440000e+03, 8.200000e+04, 2.400000e+05, 1.600000e+05, 2.900000e+04, 9.300000e+03, 1.116000e+04, 1.000000e+04, 4.300000e+04, 1.150000e+05, 6.200000e+04, 4.500000e+03, 4.700000e+04, 8.370000e+03, 6.050000e+03, 6.510000e+03, 2.612500e+05, 7.125000e+04, 1.805000e+04, 8.930000e+04, 6.800000e+04, 5.462500e+04, 1.860000e+04, 6.960000e+03, 1.212200e+05, 2.850000e+05, 1.900000e+05, 4.100000e+04, 1.395000e+04, 1.140000e+05, 1.220000e+05, 1.500000e+04, 1.662500e+05, 1.800000e+05, 1.520000e+05, 3.000000e+03, 8.800000e+03, 3.800000e+05, 3.607910e+05, 2.047250e+05, 2.325000e+04, 1.428000e+04, 2.412000e+04, 1.200000e+04, 6.160000e+04, 1.300000e+05, 4.400000e+03, 1.250000e+04, 1.080000e+04, 5.250000e+03, 3.150000e+03, 6.300000e+03, 1.100000e+04, 3.705000e+03, 3.500000e+03, 5.300000e+04, 1.990250e+04, 9.215000e+04, 4.750000e+04, 2.726500e+05, 1.650000e+05, 1.650000e+04, 1.415500e+05, 7.700000e+03, 1.719500e+05, 1.440000e+04, 9.832500e+04, 3.712144e+05, 9.000000e+05, 4.000000e+03, 2.959250e+04, 2.484250e+04, 5.666750e+04, 5.100000e+04, 4.868750e+04, 1.710000e+05, 7.448000e+04, 4.607500e+03, 5.367500e+04, 1.700000e+05, 1.928500e+04, 1.463000e+05, 1.400000e+05, 9.600000e+03, 4.501000e+03, 3.947250e+04, 5.899500e+04, 8.930000e+03, 1.890500e+05, 1.073500e+04, 7.600000e+05, 4.200000e+03, 6.849500e+03, 1.596000e+05, 8.400000e+03, 6.300000e+04, 4.900000e+04, 2.500000e+03, 3.500000e+05, 2.641000e+05, 4.800000e+03, 1.485000e+04, 2.400000e+03, 7.400000e+04, 2.200000e+03, 3.600000e+03, 3.067550e+05, 6.700000e+04, 2.040000e+03, 5.900000e+04, 6.510000e+04, 1.800000e+03, 1.125000e+05, 8.880000e+03, 3.520000e+04, 7.191500e+03, 1.553250e+04, 2.764500e+03, 1.026000e+04, 6.175000e+03, 8.863500e+03, 8.151000e+03, 1.230250e+04, 3.971000e+03, 1.260650e+04, 8.037000e+03, 5.700000e+04, 4.289250e+04, 2.204000e+04, 2.185000e+04, 5.614500e+03, 5.225000e+03, 1.000000e+00, 2.071000e+03, 3.372500e+03, 2.660000e+03, 1.035500e+03, 1.553250e+03, 2.935500e+03, 3.657500e+03, 3.562500e+03, 3.420000e+03, 3.087500e+03, 9.000000e+03, 1.500000e+03, 2.000000e+03, 1.450000e+05, 3.515000e+03, 4.892500e+03, 5.580000e+03, 3.300000e+03, 2.250000e+04, 3.720000e+04, 5.100000e+03])
Faisons un histogramme pour nous familiariser avec la distribution de la variable Allocation.
Les valeurs de la variable varient sur toute la plage. C’est une caractéristique des variables continues.
Faisons le même exercice pour la variable nDistance,
Cette variable est également continue, elle peut prendre en principe toute valeur comprise dans la fourchette.
Faisons un histogramme pour nous familiariser avec la distribution de la variable Distance.
Nous voyons que les valeurs de la variable Distance varient continuellement.
Maintenant, examinons la cote sur la dernière course, cette variable est également continue.
La majorité des cotes sont concentrées vers des valeurs comprises entre 0 et 100, seuls quelques chevaux ayant des cotes plus élevés. Les valeurs de la variable varient continuellement dans la fourchette, car il s’agit d’une variable continue.
Variables discrètes
Examinons la variable “nbPartants” .
Par définition, il s’agit d’une variable discrète, car une course peut avoir 17 partants, mais pas 17,5 partants.
Faisons un histogramme pour nous familiariser avec la distribution de cette variable.
Les histogrammes de variables discrètes ont cette forme brisée typique, car toutes les valeurs comprises dans l’intervalle de la variable ne sont pas présentes dans la variable. Comme je l’ai dit, la course peut avoir 15 partants, mais pas 15,5 partants. On peut déjà remarquer que les courses de 15 partants sont beaucoup plus nombreuses.
Une variation des variables discrètes : la variable binaire
Les variables binaires, sont des variables discrètes, qui ne peuvent prendre que 2 valeurs, donc binaires.
Dans notre fichier de données, la variable place est de ce type. En effet, la valeur est de 1 si les cheval est placé et de 0 dans les autres cas.
Comme nous pouvons le voir, la variable ne montre que 2 valeurs, 0 et 1, et la majorité des places sont 1. Notre cheval est plus souvent gagnant que perdant. Heureusement car c’est le favori de la course…
Je télécharge mon guide gratuit
Thank you!
You have successfully joined our subscriber list.
Vous recevrez votre guide par email sans aucun engagement de votre part.