Machine Learning : Comment reconnaître un bon dataset ?

Поділитися
Вставка
  • Опубліковано 19 жов 2024
  • 📝 AMELIOREZ VOS COMPETENCES EN DATA SCIENCE : damienchambon....
    Machine Learning : Comment reconnaître un bon dataset ?
    Qu’est-ce qui fait qu’un dataset est de bonne qualité en Machine Learning ? Dans cette vidéo en français, je vous détaille les conséquences d’un mauvais jeu de données sur un projet de Machine Learning. Je vous donne ensuite 5 aspects d’un bon dataset.
    00:38 Les conséquences de données de mauvaise qualité en Machine Learning
    04:27 Avoir assez d'observations complètes
    06:18 Comprendre les données qu'on utilise
    07:23 S'assurer que les données soient exactes
    08:53 Vérifier que les données soient représentatives
    10:35 Avoir des variables utiles variées
    Pour la plupart des gens, des mauvais résultats en Machine Learning s’expliquent par des mauvais modèles mais pourtant, les données jouent un rôle primordial dans la performance des algorithmes. De mauvaises données peuvent avoir des conséquences négatives sur vos modèles. Elles peuvent empêcher vos modèles d’apprendre tout simplement car il n’y a pas assez de matière (pas assez d’observations, pas de variables utiles). Les données peuvent aussi être peu représentatives de la population étudiée, ce qui peut tromper vos algorithmes de Machine Learning. Enfin, si vous n’avez pas assez de colonnes sur des aspects variés, les modèles pourraient être incapables de déceler des pattern dans vos données.
    On reconnait un bon dataset selon plusieurs caractéristiques. Il faut avoir assez d’observations complètes. Il n’existe pas de seuil à dépasser pour être capable de dire qu’on a « assez » de données. En revanche, on peut facilement voir si les données qu’on a sont complètes. Si une variable a plus de 1% de valeurs qui sont manquantes, on peut la supprimer car elle ne sera pas assez précise et peut fausser nos résultats.
    Un bon jeu de données est aussi un jeu de données où il est facile de comprendre les données. Parfois, certains noms de colonnes ne sont pas assez précis et donc il est difficile de savoir ce qu’elles représentent. Il faut ne pas procéder à l’aveugle et il faut préférer supprimer des colonnes dont on est pas sûr, plutôt que de les utiliser sans les comprendre réellement.
    Pour déterminer si un jeu de données est de qualité, il faut s’assurer que les données qu’ils renferment sont exactes. Lorsqu’on récupère les données via un API ou en faisant du scraping ou en communiquant avec des serveurs via SQL, il est facile de contrôler la qualité des données et vérifier si les données qu’on a sont correctes.
    Les données qu’on utilise doivent être également représentatives de la population. C’est particulièrement important lorsqu’on analyse des données de sondage, où les réponses peuvent provenir majoritairement d’une infime partie de la population. Un autre exemple peut être celui des fraudes, où les datasets qui servent à entrainer des algorithmes de classification sont souvent déséquilibrés et contiennent peu de fraudes. Un algorithme de Machine Learning aura des difficultés à apprendre des données si elles ne couvrent pas tous les cas de figure.
    La dernière caractéristique importante est celle lié aux nombre de variables utiles variées. Les variables doivent d’abord provenir de sources variées (exemple : goûts musicaux, appareils utilisés, lieu, moment de la journée, etc.). En plus de cela, les données doivent être utiles, c’est-à-dire faire partie des types de données int, float et category, qui sont les 3 types utilisés par les modèles de Machine Learning. Les colonnes d’autres types ne seront pas utilisées donc rien ne sert à ce qu’elles soient en grand nombre. Par contre, on peut extraire de variables de type string des variables de type int, float ou category et donc augmenter le nombre de variables utiles.
    👋🏼 Qui suis-je ?
    Je m'appelle Damien et je suis Data Scientist. Au cours de mes expériences professionnelles, j'ai découvert comment la Data Science et le Machine Learning peuvent résoudre des problématiques business et sociétales.
    J'ai formé des dizaines d'étudiants à la Data Science et au Machine Learning en français pour leur permettre de découvrir ces domaines fascinants et les appliquer dans leur vie professionnelle.
    💻 Mon site : damienchambon....
    Crédits musique : Ambulo - In Orbit

КОМЕНТАРІ • 10

  • @latelierdata
    @latelierdata  3 роки тому

    📝 Améliorez vos compétences en Machine Learning : damienchambon.podia.com

  • @captaincat999
    @captaincat999 11 місяців тому +1

    Merci beaucoup pour ton effort pédagogique! Très clair. Je te souhaite bcp de succès dans ta carrière!

    • @latelierdata
      @latelierdata  10 місяців тому

      Merci à toi pour ce commentaire, ça fait plaisir 😊

  • @mamoudoukoume4593
    @mamoudoukoume4593 3 роки тому +1

    Merci beaucoup Damien pour vos brillantes vidéos !

    • @latelierdata
      @latelierdata  3 роки тому

      Merci à toi pour ton super commentaire :D

  • @dioufdiouf8626
    @dioufdiouf8626 2 роки тому +1

    merci pour les vidéos intéressantes

    • @latelierdata
      @latelierdata  2 роки тому

      Avec plaisir ! Si tu veux recevoir les e-mails, il faut cliquer sur le 1er lien en description ;)

    • @latelierdata
      @latelierdata  2 роки тому

      Avec plaisir ! Si tu veux recevoir les e-mails, il faut cliquer sur le 1er lien en description ;)

  • @konandaniellozo7421
    @konandaniellozo7421 3 роки тому +1

    Bonjour quel parcours pour le machine learning ? Je suis en pleine reconversion dans le domaine de RSI( réseau et sécurité informatique ) en L2

    • @latelierdata
      @latelierdata  3 роки тому

      Salut ! Pour faire du Machine Learning, je recommande un parcours en licence orienté maths et/ou informatique. Le domaine de la RSI me semble plutôt bien adapté. Ensuite, pour le Master, je te recommanderai de faire un Master en Machine Learning ou un Master en Data Science. Ça te permettra d’avoir une certification qui te permettra plus facilement d’être data scientist par exemple ;)