Merci beaucoup pour tes explications, je suis en parcours en data, tu réussis à simplifier et à faire du pas à pas ce qui permet une meilleure compréhension 🙏
Mes salutations Natacha. Un grand merci pour vos vidéos, qui de surcroit sont très pertinentes 🙏🙏. Pour les valeurs manquantes MCAR, à un moment donné vous dites que lorsqu'on a une proportion de valeur manquante inférieure à 5% on peut supprimer la variable. Vouliez vous dire plutôt "supérieure" ?
Encore une fois, merci pour ce guide complet!!!!!! Je suis en train de faire l'imputation. les données que je traite sont des dates. j'ai du mal à savoir qu'elle est la méthode d'imputation adaptée pour le type datetime et comment les transformer en valeurs numériques. J'ai essayé un model de régression et le KNN, mais je ne suis pas trop sur. Merci!
Merci pour ce partage. Recemment j'ai eu une difficulté en ce qui concerne l'imputation de données manquantes sur des séries temporelles univariées; as tu une astuce ?
Bonsoir Natacha, merci pour tes explications, c'est excellent. Comment faut-il procéder pour le remplacement des NaN quand il y'a en même temps les variables qualitatives et quantitatives dans le même dataframe?
Merci Madame Natacha très clair comme d'habitude j'ai une question Quand on a les données financières par exemple les données des marchés boursiers tu sais dans leur base de données il répéte les derniers cours durant les jours non ouvrables par exemple il répéte les cours de vendredi les jour samedi et dimanche. En tant que économetre comment régler ces données répétitives ?
Bonjour, Concernant l'IterativeImputer et selon votre cours, on utilise les "autres variables" pour prédire la variable manquante. Ma première question est : quelles sont ces fameuses "autres variables" utilisées pour le calcul ? Les autres variables possédant des valeurs manquantes et passées en paramètres comme dans votre exemple : df_imputed = pd.DataFrame(imputer.fit_transform(df[['total_protein', 'rectal_temp', 'pulse']]), columns=['total_protein_imputed', 'rectal_temp_imputed', 'pulse_imputed']) ? Ou bien toutes les autres variables du dataframe exceptées celles passées en paramètres ? Deuxième question : je travaille sur un projet où j'ai une bonne centaine de variables contenant des données manquantes (au seuil < 30%) et éligibles à l'IterativeImputer, dois je travailler sur l'imputation de mes variables dans leur ensemble cad que je les mes toutes dans un tableau pd.DataFrame(imputer.fit_transform(df[toutes_mes_colonnes_a_imputer]), columns=toutes_mes_colonnes_imputees) ? ou bien je peux imputer par lot pd.DataFrame(imputer.fit_transform(df[mes_10_premieres_colonnes_a_imputer]), columns=mes_10_premieres_colonnes_imputees) ... jusqu'à pd.DataFrame(imputer.fit_transform(df[mes_10_dernieres_colonnes_a_imputer]), columns=mes_10_dernieres_colonnes_imputees) ? Merci par avance de vos réponses.
Hello il faut réaliser l'imputation avec les variables qui expliquent le phénomène. Après en matière d'imputation il ne faut pas toujours raisonner de façon systématique. La première question est pourquoi plus de 100 variables ont des valeurs manquantes? En fonction de cela la stratégie peut être différente.
Excellente question ! Le choix du nombre de voisins 'k' pour l'algorithme des k se fait souvent par validation croisée. En gros on va tester plusieurs valeurs de k et choisir la valeur qui donne les meilleures performances suivant le critère qu'on aura choisi.
Bonjour Natacha c'est très clair comme d'hab. S'il te plait pourrais-tu remettre ici une invitation pour rejoindre le groupe Discord ? J'ai essayé l'ancien lien et il m'a mis que l'invitation a expiré. J'ai décidément pas de chance avec discord. J'ai déjà crée 2 comptes qu'il a désactivé trouvant les comptes "douteux". Je ne sais plus quoi faire, je rate des choses. Aurais-tu une autre solution à me proposer afin que je puisse rejoindre ce groupe ? Merci d'avance.
Hello Blaise, voici le lien vers le Discord: discord.com/invite/RpyvkR7SfQ. Test celui normalement il marche. Tu as également le lien en description des vidéos
Lien vers le notebook: github.com/LeCoinStat/100JoursDeML/blob/main/03_Preprocessing/Missing_Data_Treatment.ipynb
Magnifique comme d'habitude! Ceux qui suivent ne vont pas regretter. Merci Natacha!🙏
Oh merci beaucoup Florian!😇
Merci beaucoup pour tes explications, je suis en parcours en data, tu réussis à simplifier et à faire du pas à pas ce qui permet une meilleure compréhension 🙏
Merci pour ce beau retour😇
Le cours est juste parfait. Tu as un abonné en plus!!!!!!!
Oh merci beaucoup ça fait plaisir ❤️
Simple éfficace bien expliqué et toujours avec une bonne énergie ! Merci Natacha
Oh merci beaucoup !
Merci Natacha 👍. C’est une question que je me pose en tant que grand débutant…. C’est plus clair maintenant 🙏
Ravie d'avoir pu vous aider 😊
C'est tout simplement excellent !!!
Merci Amadou
Merci madame pour ces éclaircissements 🙏
Avec plaisir
💪 Avec tes explications claires, je relève le défi des 100 jours de ML🙂
Bon courage
Bon courage pour le challenge 🚀🚀
Mes salutations Natacha. Un grand merci pour vos vidéos, qui de surcroit sont très pertinentes 🙏🙏.
Pour les valeurs manquantes MCAR, à un moment donné vous dites que lorsqu'on a une proportion de valeur manquante inférieure à 5% on peut supprimer la variable. Vouliez vous dire plutôt "supérieure" ?
Thank very myuch my teacher.
You are welcome
Encore une fois, merci pour ce guide complet!!!!!!
Je suis en train de faire l'imputation. les données que je traite sont des dates. j'ai du mal à savoir qu'elle est la méthode d'imputation adaptée pour le type datetime et comment les transformer en valeurs numériques. J'ai essayé un model de régression et le KNN, mais je ne suis pas trop sur. Merci!
Merci pour ce partage. Recemment j'ai eu une difficulté en ce qui concerne l'imputation de données manquantes sur des séries temporelles univariées; as tu une astuce ?
Bonsoir Natacha, merci pour tes explications, c'est excellent. Comment faut-il procéder pour le remplacement des NaN quand il y'a en même temps les variables qualitatives et quantitatives dans le même dataframe?
Merci beaucoup
De rien
237 ISSEA representin' keep it up!❤❤❤
Thanks😇
Comment savoir dans la pratique en python si une variable donnée est MCAR, MAR ou MNAR ?
Comment s'y prendre aussi dans la théorie ?
Merci Madame Natacha très clair comme d'habitude j'ai une question
Quand on a les données financières par exemple les données des marchés boursiers tu sais dans leur base de données il répéte les derniers cours durant les jours non ouvrables
par exemple il répéte les cours de vendredi les jour samedi et dimanche.
En tant que économetre comment régler ces données répétitives ?
Tout va dépendre de l'objectif de l'étude. Quel est l'objectif de ton projet?
Bonjour,
Concernant l'IterativeImputer et selon votre cours, on utilise les "autres variables" pour prédire la variable manquante.
Ma première question est : quelles sont ces fameuses "autres variables" utilisées pour le calcul ? Les autres variables possédant des valeurs manquantes et passées en paramètres comme dans votre exemple : df_imputed = pd.DataFrame(imputer.fit_transform(df[['total_protein', 'rectal_temp', 'pulse']]), columns=['total_protein_imputed', 'rectal_temp_imputed', 'pulse_imputed']) ?
Ou bien toutes les autres variables du dataframe exceptées celles passées en paramètres ?
Deuxième question : je travaille sur un projet où j'ai une bonne centaine de variables contenant des données manquantes (au seuil < 30%) et éligibles à l'IterativeImputer, dois je travailler sur l'imputation de mes variables dans leur ensemble cad que je les mes toutes dans un tableau pd.DataFrame(imputer.fit_transform(df[toutes_mes_colonnes_a_imputer]), columns=toutes_mes_colonnes_imputees) ?
ou bien je peux imputer par lot pd.DataFrame(imputer.fit_transform(df[mes_10_premieres_colonnes_a_imputer]), columns=mes_10_premieres_colonnes_imputees) ... jusqu'à
pd.DataFrame(imputer.fit_transform(df[mes_10_dernieres_colonnes_a_imputer]), columns=mes_10_dernieres_colonnes_imputees) ?
Merci par avance de vos réponses.
Hello il faut réaliser l'imputation avec les variables qui expliquent le phénomène. Après en matière d'imputation il ne faut pas toujours raisonner de façon systématique. La première question est pourquoi plus de 100 variables ont des valeurs manquantes? En fonction de cela la stratégie peut être différente.
Comment on fixe le nombre de k voisin stp ? Dans votre exemple vous avez choisi 3.
Excellente question ! Le choix du nombre de voisins 'k' pour l'algorithme des k se fait souvent par validation croisée. En gros on va tester plusieurs valeurs de k et choisir la valeur qui donne les meilleures performances suivant le critère qu'on aura choisi.
@@LeCoinStat merci Natacha
Hi Natasha, le jeu de données Horse est manquant ;)
Thanks c'est disponible ici: github.com/LeCoinStat/100JoursDeML/blob/main/03_Preprocessing/horse.csv
Bonjour Natacha c'est très clair comme d'hab. S'il te plait pourrais-tu remettre ici une invitation pour rejoindre le groupe Discord ? J'ai essayé l'ancien lien et il m'a mis que l'invitation a expiré.
J'ai décidément pas de chance avec discord. J'ai déjà crée 2 comptes qu'il a désactivé trouvant les comptes "douteux". Je ne sais plus quoi faire, je rate des choses. Aurais-tu une autre solution à me proposer afin que je puisse rejoindre ce groupe ? Merci d'avance.
Hello Blaise, voici le lien vers le Discord: discord.com/invite/RpyvkR7SfQ. Test celui normalement il marche. Tu as également le lien en description des vidéos