Les variables de type Date Heure

Un type spécial de variable catégorielle est celui qui, au lieu de prendre les étiquettes traditionnelles, comme la couleur (bleu, rouge) ou la ville (Paris, Montpellier), prend les dates et/ou l’heure comme valeurs. Par exemple, la date de naissance (“29-08-1997”, “12-01-2015”), ou la date d’application (“2010-Dec”, “2005-Mars”).

Les variables de date et heure peuvent contenir des dates uniquement, l’heure uniquement, ou la date et l’heure.

Nous ne travaillons généralement pas avec une variable date-heure dans son format brut car :

  • Les variables de date contiennent un grand nombre de catégories différentes
  • Nous pouvons extraire beaucoup plus d’informations des variables date-heure en les prétraitant correctement

En outre, les variables de date contiennent souvent des dates qui n’étaient pas présentes dans l’ensemble de données utilisé pour former le modèle d’apprentissage machine. En fait, les variables de date contiendront généralement des dates placées dans le futur, par rapport aux dates de l’ensemble de données de formation. Par conséquent, le modèle d’apprentissage machine ne saura pas quoi en faire, car il ne les a jamais vues pendant la formation.

La date est exprimée sous forme d’objets. Par conséquent, les traitements pandas les traiteront comme des chaînes de caractères ou des variables catégorielles.

Pour que pandas puisse les traiter comme des dates, nous devons les reformuler au format date-heure. Voir ci-dessous.

montant gagne cumule par mois
montant gagne cumule par mois 2

Il semble que les mois de juillet et août soient plus profitables que les autres mois.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.