TurfMachineLearning - Statistiques hippiques et machine learning

Trot : 96% de réussite, 105 % de rendement. Trop beau pour être vrai ?

27 avril 202316 décembre 2021 par TurfMachineLearning

Dans ce nouvel article nous allons analyser le déferrage dans les courses de trot. Ces stats sont basées sur les courses de Trot depuis le 1° janvier 2017 jusqu’à ce jour. Lorsque l’on visite Vincennes, il est fréquent d’entendre parler de déferrage. Un sujet qui suscite de vifs débats chez les amateurs de trot. Est-il … Lire plus

Toute la vérité sur le port des œillères

14 décembre 2021 par TurfMachineLearning

Nous allons continuer d’explorer les courses de galop. Beaucoup de mythe entourent les résultats sur les chevaux portants des œillères. Pour certains turfistes c’est un critère qui garantie à coup sûr les gains. Est ce vrai ? Nous avons exploité pour extraire depuis 2019 les chevaux portant des œillères Nous vous livrons ci dessous nos … Lire plus

86 % de réussite au galop

7 décembre 2021 par TurfMachineLearning

Nous avons cherché à optimiser nos paris sur les courses de galop afin d’augmenter notre réussite et également de trouver des sélections rentables à masse égale. Dans un premier temps nous avons analysé les arrivées en fonction des cotes de Epmu. Nous avons retenu toutes les cotes en dessous de 2,6. Dans ce tableau … Lire plus

AutoEncodeur sur un événement rare

18 novembre 2021 par TurfMachineLearning

Qu’est-ce qu’un événement rare, extrêmement rare ? Dans un problème d’événement rare, nous avons un ensemble de données déséquilibré. Cela signifie que nous avons moins d’échantillons étiquetés positivement que d’échantillons étiquetés négativement. Dans un problème typique d’événement rare, les données étiquetées positivement représentent environ 5 à 10 % du total. Dans un problème d’événement rare … Lire plus

Discrétisation plus encodage

7 août 2021 par TurfMachineLearning

Que faisons-nous de la variable après discrétisation ? Devons-nous les utiliser lcomme variable numérique ? ou devons-nous utiliser les intervalles comme variable catégorielle ? La réponse est : vous pouvez faire l’un ou l’autre. Si vous construisez des algorithmes basés sur des arbres de décision et que les résultats de la discrétisation sont des entiers … Lire plus

Discrétisation

31 juillet 2021 par TurfMachineLearning

La discrétisation est le processus qui consiste à transformer des variables continues en variables discrètes en créant un ensemble d’intervalles contigus qui couvrent la gamme des valeurs de la variable. La discrétisation est également appelée binning, où bin est un nom alternatif pour l’intervalle. La discrétisation permet de traiter les valeurs aberrantes et peut améliorer la … Lire plus

Codages guidés par la cible

24 juillet 2021 par TurfMachineLearning

Dans les cahier précédents, nous avons appris comment convertir une étiquette en un nombre, en utilisant un codage à chaud, en remplaçant par un chiffre ou en remplaçant par la fréquence ou le nombre d’observations. Ces méthodes sont simples, ne font (presque) pas d’hypothèses et fonctionnent généralement bien dans différents scénarios. Il existe cependant des … Lire plus

Comptage ou codage de la fréquence

17 juillet 2021 par TurfMachineLearning

Dans le codage du comptage, nous remplaçons les catégories par le comptage des observations qui montrent cette catégorie dans l’ensemble de données. De même, nous pouvons remplacer la catégorie par la fréquence – ou le pourcentage – des observations dans l’ensemble de données. C’est-à-dire que si 10 de nos 100 observations montrent la couleur bleue, … Lire plus

Encodage des nombres entiers

10 juillet 2021 par TurfMachineLearning

Encodage des nombres entiers Le codage des nombres entiers consiste à remplacer les catégories par des chiffres de 1 à n (ou de 0 à n-1, selon la mise en œuvre), où n est le nombre de catégories distinctes de la variable. Les numéros sont attribués de manière arbitraire. Cette méthode d’encodage permet de comparer … Lire plus

Un encodage à chaud des catégories fréquentes

17 octobre 20213 juillet 2021 par TurfMachineLearning

Nous avons appris dans les sections précédentes que la haute cardinalité et les étiquettes rares peuvent faire que certaines catégories n’apparaissent que dans le jeu d’entrainement, entraînant ainsi un sur-ajustement, ou seulement dans le jeu de test, et que nos modèles ne sauraient alors pas comment noter ces observations. Nous avons également appris précedemment, que … Lire plus