Les variables catégorielles

Dans cette présentation, nous utiliserons notre jeu de données sur les courses hippiques.

machine learning course hippique
machine learning hippodrome

Ce n’est pas très parlant comme graphique car il y a beaucoup trop d’hippodromes.

On va  créer un nouveau graphique avec les 10 premiers hippodromes.

machine learning hippodrome frequents

De suite, c’est beaucoup mieux. On voit  que l’hippodrome de Vincenne est sur représenté par rapport aux autres hippodromes. Si à la fin de notre analyse on utilise la variable hippodrome, il faudra garder cela à l’esprit en encodant correctement cette variable.

On peut se demander quelles sont les valeurs les plus représentées.  On va afficher un graphiques avec les 10 valeurs les plus communes de cette variable M1

machine learning musiques frequents

Enfin, regardons une variable qui est numérique. La variable id.
Mais ses chiffres n’ont pas de réelle signification. Leurs valeurs sont plus des “étiquettes” que des chiffres réels. Chaque identifiant représente un cheval. Ce numéro est attribué pour identifier le cheval si nécessaire, tout en préservant la confidentialité et en assurant la protection des données. Quoique je ne sais pas si les chevaux rentre dans le cadre de la RGPD ;=)

Si vous voulez découvrir comment fonctionne la librairie pandas ou bien l’environnement Jupyter, n’hésitez pas à consulter les cours ci-dessous.

GCH anime

Je télécharge mon guide gratuit

.

Vous recevrez votre guide par email sans aucun engagement de votre part.

Laisser un commentaire