Sélection automatique de la meilleure technique d’imputation avec Sklearn

Dans ce carnet, nous allons effectuer une recherche par grille sur les méthodes d’imputation disponibles dans Scikit-learn afin de déterminer quelle technique d’imputation fonctionne le mieux pour cet ensemble de données et le modèle d’apprentissage machine de choix.

Nous formerons également un modèle d’apprentissage machine très simple dans le cadre d’un petit pipeline.

Lors de la définition des paramètres de la grille, c’est ainsi que nous indiquons les paramètres :

préprocesseur__numérique__imputer__stratégie’ : [“moyenne”, “médiane”],

la ligne de code ci-dessus indique que je souhaite tester la moyenne et la médiane dans l’étape d’imputation du processeur numérique.

préprocesseur__catégorie__imputer__stratégie’ : [most_frequent’, ‘constant’]

la ligne de code ci-dessus indique que je souhaite tester la valeur la plus fréquente ou une valeur constante dans l’étape d’imputation du processeur catégorique

classificateur__alpha’ : [0.1, 1.0, 0.5]

la ligne de code ci-dessus indique que je veux tester ces 3 valeurs pour le paramètre alpha du Lasso. Notez que le Lasso est l’étape ‘classificateur’ de notre dernier pipeline

C’est très loin d’être top comme résultat mais bon… On verra un peu plus loin les différentes mesures pour juger de la qualité d’un modèle

Meilleur modele: 0.582

 

Ce qui est intéressant ici c’est de voir qu’il y a peu de différence entre la phase d’apprentissage et celle de test.

Si vous voulez découvrir comment fonctionne la librairie pandas ou bien l’environnement Jupyter, n’hésitez pas à consulter les cours ci-dessous.

GCH anime

Je télécharge mon guide gratuit

.

Vous recevrez votre guide par email sans aucun engagement de votre part.

Laisser un commentaire