Dans cette présentation, nous utiliserons notre jeu de données sur les courses hippiques.
Ce n’est pas très parlant comme graphique car il y a beaucoup trop d’hippodromes.
On va créer un nouveau graphique avec les 10 premiers hippodromes.
De suite, c’est beaucoup mieux. On voit que l’hippodrome de Vincenne est sur représenté par rapport aux autres hippodromes. Si à la fin de notre analyse on utilise la variable hippodrome, il faudra garder cela à l’esprit en encodant correctement cette variable.
On peut se demander quelles sont les valeurs les plus représentées. On va afficher un graphiques avec les 10 valeurs les plus communes de cette variable M1
Enfin, regardons une variable qui est numérique. La variable id.
Mais ses chiffres n’ont pas de réelle signification. Leurs valeurs sont plus des “étiquettes” que des chiffres réels. Chaque identifiant représente un cheval. Ce numéro est attribué pour identifier le cheval si nécessaire, tout en préservant la confidentialité et en assurant la protection des données. Quoique je ne sais pas si les chevaux rentre dans le cadre de la RGPD ;=)
Je télécharge mon guide gratuit
Thank you!
You have successfully joined our subscriber list.
Vous recevrez votre guide par email sans aucun engagement de votre part.