Caractéristiques des variables : La cardinalité

Les valeurs d’une variable catégorielle sont sélectionnées à partir d’un groupe de catégories, également appelées labels. Par exemple, dans la variable sexe, les catégories ou labels sont masculins et féminins, alors que dans la variable Ville, les labels peuvent être Montpellier, Le Lude, Grenoble, etc. Les différentes variables catégorielles contiennent un nombre différent d’étiquettes ou … Lire plus

Caractéristiques des variables : Les données manquantes

Valeurs manquantes Les données manquantes, ou valeurs manquantes, se produisent lorsqu’aucune donnée / aucune valeur n’est stockée pour certaines observations au sein d’une variable. Les données incomplètes sont un problème inévitable dans la plupart des sources de données, et peuvent avoir un impact significatif sur les conclusions qui peuvent être tirées des données. Pourquoi les … Lire plus

Variables mixtes en machine learning

Les variables mixtes sont celles dont les valeurs contiennent à la fois des chiffres et des étiquettes. Les variables peuvent être mélangées pour diverses raisons. Dans notre fichiers les variables de Musique sont un exemple typique. On mélange la spécialité avec la position à l’arrivée. import pandas as pd import matplotlib.pyplot as plt data = … Lire plus

Les variables de type Date Heure

Un type spécial de variable catégorielle est celui qui, au lieu de prendre les étiquettes traditionnelles, comme la couleur (bleu, rouge) ou la ville (Paris, Montpellier), prend les dates et/ou l’heure comme valeurs. Par exemple, la date de naissance (“29-08-1997”, “12-01-2015”), ou la date d’application (“2010-Dec”, “2005-Mars”). Les variables de date et heure peuvent contenir … Lire plus

Les variables catégorielles

Dans cette présentation, nous utiliserons notre jeu de données sur les courses hippiques. #Import de nos librairies import pandas as pd import matplotlib.pyplot as plt # Chargement de notre jeu de données data = pd.read_csv(‘../exportfeature.csv’,parse_dates=[‘date’],infer_datetime_format=True,dayfirst=True,sep=";",encoding=’ANSI’) data.head() # regardons les valeurs de la variable Hippodrome data[‘Hippodrome’].unique() On a la liste de tous les hippodromes présents dans … Lire plus

Les variables numériques

Les variables numériques sont celles dont les valeurs sont des nombres. Elles peuvent être classées en valeurs discrètes ou  continues. Par exemple, le nombre de chevaux dans une course est discret. Il peut y avoir 15 ou 18 partants mais jamais 16,5 partants. Il s’agit toujours d’un nombre entier.  Par contre, l’allocation d’une course, ou … Lire plus

Analyse des variables

Bienvenue dans la section sur les variables et les types de variables. Cette section s’adresse à ceux d’entre vous qui sont moins familiers avec les différents types de variables de cette section. Je vais vous donner un aperçu des variables avec lesquelles nous allons travailler tout au long des prochaines séances. Tout au long de … Lire plus

Présentation du jeux de données courses hippiques

Durant notre étude, nous allons utiliser le même jeu de données. Ce jeu de données provient de ma base perso sur les courses hippiques. Le but final de cette étude sera de déterminer si on peut améliorer notre réussite et nos gains aux courses hippiques. Nous nous bornerons dans un premier temps au jeu simple … Lire plus

JANVIER : Résultats statistiques courses hippiques

Vous trouverez ci dessous, les différents chevaux classés par jour issu de notre rapport mensuel du mois dernier. Un même cheval peut-être présent plusieurs fois par jour dans la mesure où il peut correspondre à plusieurs critères de sélection de notre rapport mensuel. vendredi 1 janvierprigana Placé 1.1fetiche atout Placé 1.7favori de la basle Placé … Lire plus