Les variables de type Date Heure

Un type spécial de variable catégorielle est celui qui, au lieu de prendre les étiquettes traditionnelles, comme la couleur (bleu, rouge) ou la ville (Paris, Montpellier), prend les dates et/ou l’heure comme valeurs. Par exemple, la date de naissance (“29-08-1997”, “12-01-2015”), ou la date d’application (“2010-Dec”, “2005-Mars”).

Les variables de date et heure peuvent contenir des dates uniquement, l’heure uniquement, ou la date et l’heure.

Nous ne travaillons généralement pas avec une variable date-heure dans son format brut car :

Les variables de date contiennent un grand nombre de catégories différentes
Nous pouvons extraire beaucoup plus d’informations des variables date-heure en les prétraitant correctement

En outre, les variables de date contiennent souvent des dates qui n’étaient pas présentes dans l’ensemble de données utilisé pour former le modèle d’apprentissage machine. En fait, les variables de date contiendront généralement des dates placées dans le futur, par rapport aux dates de l’ensemble de données de formation. Par conséquent, le modèle d’apprentissage machine ne saura pas quoi en faire, car il ne les a jamais vues pendant la formation.

La date est exprimée sous forme d’objets. Par conséquent, les traitements pandas les traiteront comme des chaînes de caractères ou des variables catégorielles.

Pour que pandas puisse les traiter comme des dates, nous devons les reformuler au format date-heure. Voir ci-dessous.

Il semble que les mois de juillet et août soient plus profitables que les autres mois.

Related Posts

Laisser un commentaire Annuler la réponse