Les variables numériques

Les variables numériques sont celles dont les valeurs sont des nombres. Elles peuvent être classées en valeurs discrètes ou  continues.

Par exemple, le nombre de chevaux dans une course est discret.

Il peut y avoir 15 ou 18 partants mais jamais 16,5 partants. Il s’agit toujours d’un nombre entier.

 Par contre, l’allocation d’une course, ou la cote d’un cheval peut contenir une valeur quelconque dans une certaine fourchette. C’est une variable “continue”.

Nous allons explorer ci-dessous quelques exemples de types de variables en relation avec les courses hippiques.

Dans cette présentation, nous utiliserons notre jeu de données sur les courses hippiques.

Si vous n’êtes pas familiarisé avec la syntaxe python, jupyter et pandas, je vous invite à consulter les cours en fin d’article.

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt

infer_datetime_format : Si les options True et parse_dates sont activées, pandas tentera de déduire le format des chaînes de date et d’heure dans les colonnes, et si cela peut être déduit, il passera à une méthode d’analyse plus rapide. Dans certains cas, cela peut augmenter la vitesse d’analyse de 5 à 10 fois.

dayfirst : Dates au format JJ/MM, format international et européen.

data = pd.read_csv('../exportfeature.csv',parse_dates=['date'],infer_datetime_format=True,dayfirst=True,sep=";",encoding='ANSI') 
data.head()

Variables continues

Regardons les valeurs de la variable allocation. Cette variable est continue, elle peut prendre en principe toute valeur

data['allocation'].unique()

array([9.000000e+04, 7.000000e+04, 4.400000e+04, 4.000000e+04,
       2.200000e+04, 5.000000e+03, 1.050000e+05, 5.000000e+04,
       1.200000e+05, 2.000000e+04, 3.600000e+04, 2.100000e+04,
       2.800000e+04, 1.800000e+04, 1.400000e+04, 3.700000e+04,
       3.500000e+04, 1.700000e+04, 3.100000e+04, 3.800000e+04,
       6.000000e+03, 8.000000e+04, 4.600000e+04, 2.500000e+04,
       2.400000e+04, 3.200000e+04, 5.400000e+03, 4.800000e+04,
       2.300000e+04, 1.600000e+04, 8.000000e+03, 6.500000e+03,
       5.500000e+04, 3.900000e+04, 3.300000e+04, 6.600000e+04,
       8.800000e+04, 6.500000e+04, 5.917500e+03, 3.400000e+04,
       4.200000e+04, 5.200000e+04, 3.000000e+04, 2.600000e+04,
       1.500000e+05, 9.900000e+03, 5.400000e+04, 7.000000e+03,
       4.500000e+04, 7.800000e+04, 7.500000e+04, 5.040000e+03,
       6.000000e+04, 6.600000e+03, 5.500000e+03, 9.500000e+04,
       2.700000e+04, 1.100000e+05, 1.900000e+04, 1.000000e+06,
       5.760000e+03, 7.200000e+03, 8.500000e+04, 1.000000e+05,
       5.800000e+04, 6.400000e+04, 7.200000e+04, 5.600000e+04,
       4.000000e+05, 2.000000e+05, 1.300000e+04, 7.600000e+04,
       7.440000e+03, 8.200000e+04, 2.400000e+05, 1.600000e+05,
       2.900000e+04, 9.300000e+03, 1.116000e+04, 1.000000e+04,
       4.300000e+04, 1.150000e+05, 6.200000e+04, 4.500000e+03,
       4.700000e+04, 8.370000e+03, 6.050000e+03, 6.510000e+03,
       2.612500e+05, 7.125000e+04, 1.805000e+04, 8.930000e+04,
       6.800000e+04, 5.462500e+04, 1.860000e+04, 6.960000e+03,
       1.212200e+05, 2.850000e+05, 1.900000e+05, 4.100000e+04,
       1.395000e+04, 1.140000e+05, 1.220000e+05, 1.500000e+04,
       1.662500e+05, 1.800000e+05, 1.520000e+05, 3.000000e+03,
       8.800000e+03, 3.800000e+05, 3.607910e+05, 2.047250e+05,
       2.325000e+04, 1.428000e+04, 2.412000e+04, 1.200000e+04,
       6.160000e+04, 1.300000e+05, 4.400000e+03, 1.250000e+04,
       1.080000e+04, 5.250000e+03, 3.150000e+03, 6.300000e+03,
       1.100000e+04, 3.705000e+03, 3.500000e+03, 5.300000e+04,
       1.990250e+04, 9.215000e+04, 4.750000e+04, 2.726500e+05,
       1.650000e+05, 1.650000e+04, 1.415500e+05, 7.700000e+03,
       1.719500e+05, 1.440000e+04, 9.832500e+04, 3.712144e+05,
       9.000000e+05, 4.000000e+03, 2.959250e+04, 2.484250e+04,
       5.666750e+04, 5.100000e+04, 4.868750e+04, 1.710000e+05,
       7.448000e+04, 4.607500e+03, 5.367500e+04, 1.700000e+05,
       1.928500e+04, 1.463000e+05, 1.400000e+05, 9.600000e+03,
       4.501000e+03, 3.947250e+04, 5.899500e+04, 8.930000e+03,
       1.890500e+05, 1.073500e+04, 7.600000e+05, 4.200000e+03,
       6.849500e+03, 1.596000e+05, 8.400000e+03, 6.300000e+04,
       4.900000e+04, 2.500000e+03, 3.500000e+05, 2.641000e+05,
       4.800000e+03, 1.485000e+04, 2.400000e+03, 7.400000e+04,
       2.200000e+03, 3.600000e+03, 3.067550e+05, 6.700000e+04,
       2.040000e+03, 5.900000e+04, 6.510000e+04, 1.800000e+03,
       1.125000e+05, 8.880000e+03, 3.520000e+04, 7.191500e+03,
       1.553250e+04, 2.764500e+03, 1.026000e+04, 6.175000e+03,
       8.863500e+03, 8.151000e+03, 1.230250e+04, 3.971000e+03,
       1.260650e+04, 8.037000e+03, 5.700000e+04, 4.289250e+04,
       2.204000e+04, 2.185000e+04, 5.614500e+03, 5.225000e+03,
       1.000000e+00, 2.071000e+03, 3.372500e+03, 2.660000e+03,
       1.035500e+03, 1.553250e+03, 2.935500e+03, 3.657500e+03,
       3.562500e+03, 3.420000e+03, 3.087500e+03, 9.000000e+03,
       1.500000e+03, 2.000000e+03, 1.450000e+05, 3.515000e+03,
       4.892500e+03, 5.580000e+03, 3.300000e+03, 2.250000e+04,
       3.720000e+04, 5.100000e+03])

Faisons un histogramme pour nous familiariser avec la distribution de la variable Allocation.

wFfcCgSbqmjZwAAAABJRU5ErkJggg==

Les valeurs de la variable varient sur toute la plage. C’est une caractéristique des variables continues.

Faisons le même exercice pour la variable nDistance,

Cette variable est également continue, elle peut prendre en principe  toute valeur comprise dans la fourchette.

Faisons un histogramme pour nous familiariser avec la distribution de la variable Distance.

Faisons un histogramme pour nous familiariser avec la distribution de cette variable.

Si vous voulez découvrir comment fonctionne la librairie pandas ou bien l’environnement Jupyter, n’hésitez pas à consulter les cours ci-dessous.

GCH anime

Je télécharge mon guide gratuit

.

Vous recevrez votre guide par email sans aucun engagement de votre part.

Laisser un commentaire