Machine learning et courses hippiques - Statistiques hippiques et machine learning

Discrétisation plus encodage

7 août 2021 par TurfMachineLearning

Que faisons-nous de la variable après discrétisation ? Devons-nous les utiliser lcomme variable numérique ? ou devons-nous utiliser les intervalles comme variable catégorielle ? La réponse est : vous pouvez faire l’un ou l’autre. Si vous construisez des algorithmes basés sur des arbres de décision et que les résultats de la discrétisation sont des entiers … Lire plus

Discrétisation

31 juillet 2021 par TurfMachineLearning

La discrétisation est le processus qui consiste à transformer des variables continues en variables discrètes en créant un ensemble d’intervalles contigus qui couvrent la gamme des valeurs de la variable. La discrétisation est également appelée binning, où bin est un nom alternatif pour l’intervalle. La discrétisation permet de traiter les valeurs aberrantes et peut améliorer la … Lire plus

Codages guidés par la cible

24 juillet 2021 par TurfMachineLearning

Dans les cahier précédents, nous avons appris comment convertir une étiquette en un nombre, en utilisant un codage à chaud, en remplaçant par un chiffre ou en remplaçant par la fréquence ou le nombre d’observations. Ces méthodes sont simples, ne font (presque) pas d’hypothèses et fonctionnent généralement bien dans différents scénarios. Il existe cependant des … Lire plus

Comptage ou codage de la fréquence

17 juillet 2021 par TurfMachineLearning

Dans le codage du comptage, nous remplaçons les catégories par le comptage des observations qui montrent cette catégorie dans l’ensemble de données. De même, nous pouvons remplacer la catégorie par la fréquence – ou le pourcentage – des observations dans l’ensemble de données. C’est-à-dire que si 10 de nos 100 observations montrent la couleur bleue, … Lire plus

Encodage des nombres entiers

10 juillet 2021 par TurfMachineLearning

Encodage des nombres entiers Le codage des nombres entiers consiste à remplacer les catégories par des chiffres de 1 à n (ou de 0 à n-1, selon la mise en œuvre), où n est le nombre de catégories distinctes de la variable. Les numéros sont attribués de manière arbitraire. Cette méthode d’encodage permet de comparer … Lire plus

Un encodage à chaud des catégories fréquentes

17 octobre 20213 juillet 2021 par TurfMachineLearning

Nous avons appris dans les sections précédentes que la haute cardinalité et les étiquettes rares peuvent faire que certaines catégories n’apparaissent que dans le jeu d’entrainement, entraînant ainsi un sur-ajustement, ou seulement dans le jeu de test, et que nos modèles ne sauraient alors pas comment noter ces observations. Nous avons également appris précedemment, que … Lire plus

Encodage à chaud (One Hot Encoding)

17 octobre 202126 juin 2021 par TurfMachineLearning

Un encodage à chaud, consiste à coder chaque variable catégorielle avec différentes variables booléennes (aussi appelées variables factices) qui prennent les valeurs 0 ou 1, indiquant si une catégorie est présente dans une observation. Par exemple, pour la variable catégorielle “Sexe”, avec les étiquettes “femme” et “mâle”, nous pouvons générer la variable booléenne “femme”, qui … Lire plus

Sélection automatique de la meilleure technique d’imputation avec Sklearn

19 juin 2021 par TurfMachineLearning

Dans ce carnet, nous allons effectuer une recherche par grille sur les méthodes d’imputation disponibles dans Scikit-learn afin de déterminer quelle technique d’imputation fonctionne le mieux pour cet ensemble de données et le modèle d’apprentissage machine de choix. Nous formerons également un modèle d’apprentissage machine très simple dans le cadre d’un petit pipeline. import pandas … Lire plus

Ajout d’une variable pour capturer les NA

10 juin 2021 par TurfMachineLearning

Dans les cahiers précédents, nous avons appris à remplacer les valeurs manquantes par différentes techniques. Ces méthodes supposent que les données sont complètement manquantes au hasard (MCAR). Il existe d’autres méthodes qui peuvent être utilisées lorsque les valeurs ne sont pas manquantes au hasard, par exemple l’imputation de valeur arbitraire ou l’imputation de fin de … Lire plus

Imputation de valeurs arbitraires pour les variables catégorielles

10 juin 20217 juin 2021 par TurfMachineLearning

C’est la méthode la plus utilisée pour l’imputation des données manquantes pour les variables catégorielles. Cette méthode consiste à traiter les données manquantes comme une étiquette ou une catégorie supplémentaire de la variable. Toutes les observations manquantes sont regroupées dans la nouvelle étiquette “manquante”. Il s’agit essentiellement de l’équivalent du remplacement par une valeur arbitraire … Lire plus