Guide Complet de Traitement des Données Manquantes en Python - Machine Learning

Поділитися
Вставка
  • Опубліковано 1 гру 2024

КОМЕНТАРІ • 40

  • @LeCoinStat
    @LeCoinStat  Рік тому +3

    Lien vers le notebook: github.com/LeCoinStat/100JoursDeML/blob/main/03_Preprocessing/Missing_Data_Treatment.ipynb

  • @floriand.siakenyabou7446
    @floriand.siakenyabou7446 Рік тому +1

    Magnifique comme d'habitude! Ceux qui suivent ne vont pas regretter. Merci Natacha!🙏

    • @LeCoinStat
      @LeCoinStat  Рік тому

      Oh merci beaucoup Florian!😇

  • @quentinvansteenwinkel5250
    @quentinvansteenwinkel5250 Рік тому

    Merci beaucoup pour tes explications, je suis en parcours en data, tu réussis à simplifier et à faire du pas à pas ce qui permet une meilleure compréhension 🙏

    • @LeCoinStat
      @LeCoinStat  Рік тому +1

      Merci pour ce beau retour😇

  • @marcienbalouboula2945
    @marcienbalouboula2945 8 місяців тому

    Le cours est juste parfait. Tu as un abonné en plus!!!!!!!

    • @LeCoinStat
      @LeCoinStat  8 місяців тому

      Oh merci beaucoup ça fait plaisir ❤️

  • @Balm11
    @Balm11 8 місяців тому

    Simple éfficace bien expliqué et toujours avec une bonne énergie ! Merci Natacha

  • @beullele2783
    @beullele2783 8 місяців тому

    Merci Natacha 👍. C’est une question que je me pose en tant que grand débutant…. C’est plus clair maintenant 🙏

    • @LeCoinStat
      @LeCoinStat  8 місяців тому

      Ravie d'avoir pu vous aider 😊

  • @Boun_Hassan
    @Boun_Hassan Рік тому

    C'est tout simplement excellent !!!

  • @crespinlucquenum7372
    @crespinlucquenum7372 Рік тому

    Merci madame pour ces éclaircissements 🙏

  • @saadiabouloudene6844
    @saadiabouloudene6844 10 місяців тому

    💪 Avec tes explications claires, je relève le défi des 100 jours de ML🙂

    • @LeCoinStat
      @LeCoinStat  9 місяців тому

      Bon courage

    • @LeCoinStat
      @LeCoinStat  9 місяців тому

      Bon courage pour le challenge 🚀🚀

  • @LarrySandjo
    @LarrySandjo 2 дні тому

    Mes salutations Natacha. Un grand merci pour vos vidéos, qui de surcroit sont très pertinentes 🙏🙏.
    Pour les valeurs manquantes MCAR, à un moment donné vous dites que lorsqu'on a une proportion de valeur manquante inférieure à 5% on peut supprimer la variable. Vouliez vous dire plutôt "supérieure" ?

  • @tandian7
    @tandian7 Рік тому

    Thank very myuch my teacher.

  • @marcienbalouboula2945
    @marcienbalouboula2945 8 місяців тому

    Encore une fois, merci pour ce guide complet!!!!!!
    Je suis en train de faire l'imputation. les données que je traite sont des dates. j'ai du mal à savoir qu'elle est la méthode d'imputation adaptée pour le type datetime et comment les transformer en valeurs numériques. J'ai essayé un model de régression et le KNN, mais je ne suis pas trop sur. Merci!

  • @kevinkenang8992
    @kevinkenang8992 5 місяців тому

    Merci pour ce partage. Recemment j'ai eu une difficulté en ce qui concerne l'imputation de données manquantes sur des séries temporelles univariées; as tu une astuce ?

  • @ludokiokolo5618
    @ludokiokolo5618 10 місяців тому

    Bonsoir Natacha, merci pour tes explications, c'est excellent. Comment faut-il procéder pour le remplacement des NaN quand il y'a en même temps les variables qualitatives et quantitatives dans le même dataframe?

  • @Muslimgharib625
    @Muslimgharib625 11 місяців тому

    Merci beaucoup

  • @AshukaMadeIt
    @AshukaMadeIt Рік тому

    237 ISSEA representin' keep it up!❤❤❤

  • @prosperepaulgloirengokouba353

    Comment savoir dans la pratique en python si une variable donnée est MCAR, MAR ou MNAR ?
    Comment s'y prendre aussi dans la théorie ?

  • @mariamsy2987
    @mariamsy2987 Рік тому

    Merci Madame Natacha très clair comme d'habitude j'ai une question
    Quand on a les données financières par exemple les données des marchés boursiers tu sais dans leur base de données il répéte les derniers cours durant les jours non ouvrables
    par exemple il répéte les cours de vendredi les jour samedi et dimanche.
    En tant que économetre comment régler ces données répétitives ?

    • @LeCoinStat
      @LeCoinStat  Рік тому

      Tout va dépendre de l'objectif de l'étude. Quel est l'objectif de ton projet?

  • @GaëlGaël-k7z
    @GaëlGaël-k7z Рік тому

    Bonjour,
    Concernant l'IterativeImputer et selon votre cours, on utilise les "autres variables" pour prédire la variable manquante.
    Ma première question est : quelles sont ces fameuses "autres variables" utilisées pour le calcul ? Les autres variables possédant des valeurs manquantes et passées en paramètres comme dans votre exemple : df_imputed = pd.DataFrame(imputer.fit_transform(df[['total_protein', 'rectal_temp', 'pulse']]), columns=['total_protein_imputed', 'rectal_temp_imputed', 'pulse_imputed']) ?
    Ou bien toutes les autres variables du dataframe exceptées celles passées en paramètres ?
    Deuxième question : je travaille sur un projet où j'ai une bonne centaine de variables contenant des données manquantes (au seuil < 30%) et éligibles à l'IterativeImputer, dois je travailler sur l'imputation de mes variables dans leur ensemble cad que je les mes toutes dans un tableau pd.DataFrame(imputer.fit_transform(df[toutes_mes_colonnes_a_imputer]), columns=toutes_mes_colonnes_imputees) ?
    ou bien je peux imputer par lot pd.DataFrame(imputer.fit_transform(df[mes_10_premieres_colonnes_a_imputer]), columns=mes_10_premieres_colonnes_imputees) ... jusqu'à
    pd.DataFrame(imputer.fit_transform(df[mes_10_dernieres_colonnes_a_imputer]), columns=mes_10_dernieres_colonnes_imputees) ?
    Merci par avance de vos réponses.

    • @LeCoinStat
      @LeCoinStat  Рік тому

      Hello il faut réaliser l'imputation avec les variables qui expliquent le phénomène. Après en matière d'imputation il ne faut pas toujours raisonner de façon systématique. La première question est pourquoi plus de 100 variables ont des valeurs manquantes? En fonction de cela la stratégie peut être différente.

  • @warysmadia9074
    @warysmadia9074 Рік тому

    Comment on fixe le nombre de k voisin stp ? Dans votre exemple vous avez choisi 3.

    • @LeCoinStat
      @LeCoinStat  Рік тому

      Excellente question ! Le choix du nombre de voisins 'k' pour l'algorithme des k se fait souvent par validation croisée. En gros on va tester plusieurs valeurs de k et choisir la valeur qui donne les meilleures performances suivant le critère qu'on aura choisi.

    • @warysmadia9074
      @warysmadia9074 Рік тому

      @@LeCoinStat merci Natacha

  • @merlinengnietcha495
    @merlinengnietcha495 Рік тому

    Hi Natasha, le jeu de données Horse est manquant ;)

    • @LeCoinStat
      @LeCoinStat  Рік тому

      Thanks c'est disponible ici: github.com/LeCoinStat/100JoursDeML/blob/main/03_Preprocessing/horse.csv

  • @blaisekibonzi5019
    @blaisekibonzi5019 Рік тому

    Bonjour Natacha c'est très clair comme d'hab. S'il te plait pourrais-tu remettre ici une invitation pour rejoindre le groupe Discord ? J'ai essayé l'ancien lien et il m'a mis que l'invitation a expiré.
    J'ai décidément pas de chance avec discord. J'ai déjà crée 2 comptes qu'il a désactivé trouvant les comptes "douteux". Je ne sais plus quoi faire, je rate des choses. Aurais-tu une autre solution à me proposer afin que je puisse rejoindre ce groupe ? Merci d'avance.

    • @LeCoinStat
      @LeCoinStat  Рік тому +1

      Hello Blaise, voici le lien vers le Discord: discord.com/invite/RpyvkR7SfQ. Test celui normalement il marche. Tu as également le lien en description des vidéos