Machine learning et courses hippiques - Statistiques hippiques et machine learning

Imputation la plus fréquente par catégorie

5 juin 2021 par TurfMachineLearning

Imputation la plus fréquente par catégorie | Imputation par mode L’imputation consiste à remplacer les données manquantes par des estimations statistiques des valeurs manquantes. L’objectif de toute technique d’imputation est de produire un ensemble complet de données qui peut être utilisé pour former des modèles d’apprentissage automatique. L’imputation par mode consiste à remplacer toutes les occurrences de … Lire plus

Imputation de valeur arbitraire

4 juin 2021 par TurfMachineLearning

L’imputation consiste à remplacer les données manquantes par des estimations statistiques des valeurs manquantes. L’objectif de toute technique d’imputation est de produire un ensemble complet de données qui peut être utilisé pour former des modèles d’apprentissage automatique. L’imputation de valeurs arbitraires consiste à remplacer toutes les occurrences de valeurs manquantes (NA) dans une variable par une valeur … Lire plus

Imputation moyenne / médiane

29 mai 2021 par TurfMachineLearning

L’imputation consiste à remplacer les données manquantes par des estimations statistiques des valeurs manquantes. L’objectif de toute technique d’imputation est de produire un ensemble complet de données qui peut être utilisé pour former des modèles d’apprentissage automatique. L’imputation moyenne / médiane consiste à remplacer toutes les occurrences de valeurs manquantes (NA) dans une variable par la moyenne … Lire plus

Analyse des données manquantes

16 mai 2021 par TurfMachineLearning

Analyse complète du cas L’analyse complète des cas (ACC), également appelée “suppression des cas par liste”, consiste à rejeter les observations lorsque des valeurs de l’une des variables sont manquantes. L’analyse complète des cas consiste à analyser littéralement uniquement les observations pour lesquelles il existe des informations dans toutes les variables de l’ensemble de données. … Lire plus

Aperçu des algorithmes d’apprentissage automatique

12 mai 2021 par TurfMachineLearning

Tableau illustrant les avantages et les inconvénients des différents algorithmes d’apprentissage automatique, ainsi que leurs exigences en termes d’ingénierie des fonctionnalités et d’applications courantes.

Caractéristiques des variables : l’amplitude

12 mai 202127 avril 2021 par TurfMachineLearning

L’amplitude de la variable a-t-elle de l’importance ? Les modèles linéaires sont du type y = w x + b, où le coefficient de régression w représente la variation attendue en y pour une variation d’une unité en x (le prédicteur). Ainsi, l’amplitude de w est en partie déterminée par la magnitude des unités utilisées … Lire plus

Caractéristiques des variables : Valeurs aberrantes

12 mai 202122 avril 2021 par TurfMachineLearning

Une valeur aberrante est un point de données qui est significativement différent des autres données. “Une observation aberrante est une observation qui s’écarte tellement des autres observations qu’elle éveille des soupçons quant au fait qu’elle a été générée par un mécanisme différent”. Faut-il supprimer les observations aberrantes ? Selon le contexte, les observations aberrantes méritent … Lire plus

Apprendre à utiliser Pandas Profiling

14 avril 2021 par TurfMachineLearning

Un guide complet pour démarrer avec Pandas Profiling en utilisant Python. Introduction Avec l’explosion de la technologie et l’immense quantité de données et de contenus créés quotidiennement, les data scientist doivent continuellement apprendre de nouvelles façons d’analyser efficacement ces données. L’une des parties les plus cruciales de tout nouveau projet de données est la phase … Lire plus

Caractéristiques des variables : les étiquettes rares

6 avril 20216 avril 2021 par TurfMachineLearning

Des étiquettes qui se produisent rarement Les variables catégorielles sont celles dont les valeurs sont sélectionnées dans un groupe de catégories, également appelées labels. Différents labels apparaissent dans l’ensemble de données avec des fréquences différentes. Certaines catégories apparaissent beaucoup dans l’ensemble de données, tandis que d’autres catégories n’apparaissent que dans un nombre limité d’observations. Par … Lire plus

Caractéristiques des variables : La cardinalité

28 mars 202128 mars 2021 par TurfMachineLearning

Les valeurs d’une variable catégorielle sont sélectionnées à partir d’un groupe de catégories, également appelées labels. Par exemple, dans la variable sexe, les catégories ou labels sont masculins et féminins, alors que dans la variable Ville, les labels peuvent être Montpellier, Le Lude, Grenoble, etc. Les différentes variables catégorielles contiennent un nombre différent d’étiquettes ou … Lire plus