Dans ce carnet, nous allons effectuer une recherche par grille sur les méthodes d’imputation disponibles dans Scikit-learn afin de déterminer quelle technique d’imputation fonctionne le mieux pour cet ensemble de données et le modèle d’apprentissage machine de choix.
Nous formerons également un modèle d’apprentissage machine très simple dans le cadre d’un petit pipeline.
Lors de la définition des paramètres de la grille, c’est ainsi que nous indiquons les paramètres :
préprocesseur__numérique__imputer__stratégie’ : [“moyenne”, “médiane”],
la ligne de code ci-dessus indique que je souhaite tester la moyenne et la médiane dans l’étape d’imputation du processeur numérique.
préprocesseur__catégorie__imputer__stratégie’ : [most_frequent’, ‘constant’]
la ligne de code ci-dessus indique que je souhaite tester la valeur la plus fréquente ou une valeur constante dans l’étape d’imputation du processeur catégorique
classificateur__alpha’ : [0.1, 1.0, 0.5]
la ligne de code ci-dessus indique que je veux tester ces 3 valeurs pour le paramètre alpha du Lasso. Notez que le Lasso est l’étape ‘classificateur’ de notre dernier pipeline
C’est très loin d’être top comme résultat mais bon… On verra un peu plus loin les différentes mesures pour juger de la qualité d’un modèle
Meilleur modele: 0.582
Ce qui est intéressant ici c’est de voir qu’il y a peu de différence entre la phase d’apprentissage et celle de test.
Je télécharge mon guide gratuit
Thank you!
You have successfully joined our subscriber list.
Vous recevrez votre guide par email sans aucun engagement de votre part.