Les variables catégorielles

Dans cette présentation, nous utiliserons notre jeu de données sur les courses hippiques.

Ce n’est pas très parlant comme graphique car il y a beaucoup trop d’hippodromes.

On va créer un nouveau graphique avec les 10 premiers hippodromes.

De suite, c’est beaucoup mieux. On voit que l’hippodrome de Vincenne est sur représenté par rapport aux autres hippodromes. Si à la fin de notre analyse on utilise la variable hippodrome, il faudra garder cela à l’esprit en encodant correctement cette variable.

On peut se demander quelles sont les valeurs les plus représentées. On va afficher un graphiques avec les 10 valeurs les plus communes de cette variable M1

Enfin, regardons une variable qui est numérique. La variable id.
Mais ses chiffres n’ont pas de réelle signification. Leurs valeurs sont plus des “étiquettes” que des chiffres réels. Chaque identifiant représente un cheval. Ce numéro est attribué pour identifier le cheval si nécessaire, tout en préservant la confidentialité et en assurant la protection des données. Quoique je ne sais pas si les chevaux rentre dans le cadre de la RGPD ;=)

Si vous voulez découvrir comment fonctionne la librairie pandas ou bien l’environnement Jupyter, n’hésitez pas à consulter les cours ci-dessous.

Je télécharge mon guide gratuit

Vous recevrez votre guide par email sans aucun engagement de votre part.

Je télécharge mon guide gratuit

Thank you!

Related Posts

Laisser un commentaire Annuler la réponse