Le piège de l'overfitting en Machine Learning

Поділитися
Вставка
  • Опубліковано 8 вер 2024
  • 📝 AMELIOREZ VOS COMPETENCES EN DATA SCIENCE : damienchambon....
    L’overfitting en Machine Learning est un problème qui affecte de nombreux projets. Dans cette vidéo en français, je vous parle de l’overfitting en français et comment il peut affecter vos modèles.
    L’overfitting peut se manifester même dans les projets où on a respecté toutes les étapes : nettoyage des données, feature engineering, standardisation des données grâce aux pipelines, utilisation d’algorithmes couramment utilisés. Pourtant, lors du test de notre modèle, la performance est faible, voire décevante. Cela peut être dû en partie à l’overfitting, et tout ceci arrive lors de la phase d’entrainement des algorithmes.
    Lors de l’entrainement du modèle, les valeurs optimales pour les paramètres vont être déterminées. Les paramètres pour la régression linéaire sont par exemple les coefficients qui vont multiplier chaque variable pour obtenir la prédiction. Les valeurs dites optimales sont celles qui vont minimiser la loss function. La loss function est une fonction qui évalue la performance d’un modèle sur les données de l’entrainement. L’objectif de l’entrainement du modèle est de minimiser la loss fonction.
    Au départ de l’entrainement, le modèle va sélectionner aléatoirement des valeurs pour ses paramètres. Il va calculer un score pour la loss function. Ensuite, l’algorithme va modifier légèrement ces valeurs et ré-évaluer la loss function. Si elle diminue, l’algorithme va continuer à modifier les valeurs des paramètres dans cette direction. En revanche, si la loss function augmente, le modèle va faire varier les valeurs des paramètres dans une autre direction car son objectif est de minimiser la loss function.
    Une fois la loss function minimisée, l’algorithme est dit entrainé et le modèle peut commencer les prédictions. Parfois, le modèle est parfaitement optimisé pour les données d’entrainement mais il performe mal sur les données de test. Il a trop appris des données car son objectif était de minimiser la loss function. Ainsi, le modèle est peu généralisable et est trop collé aux données d’entrainement. Différentes techniques sont utilisées pour rendre le modèle plus souple et plus généralisable.
    👋🏼 Qui suis-je ?
    Je m'appelle Damien et je suis Data Scientist. Au cours de mes expériences professionnelles, j'ai découvert comment la Data Science et le Machine Learning peuvent résoudre des problématiques business et sociétales.
    J'ai formé des dizaines d'étudiants à la Data Science et au Machine Learning en français pour leur permettre de découvrir ces domaines fascinants et les appliquer dans leur vie professionnelle.
    💻 Mon site : damienchambon....
    Crédits musique : Yasper x Glimlip - Infused

КОМЕНТАРІ • 7

  • @latelierdata
    @latelierdata  3 роки тому

    📝 Améliorez vos compétences en Machine Learning : damienchambon.podia.com

  • @jamalelmazouni2738
    @jamalelmazouni2738 25 днів тому

    Bravo. C'était clair

  • @pythagoretouck4361
    @pythagoretouck4361 2 роки тому +1

    Merci Damien la notion overfitting a été bien comprise

    • @latelierdata
      @latelierdata  2 роки тому

      Tant mieux alors si l’overfitting est plus clair pour toi :D

    • @latelierdata
      @latelierdata  2 роки тому

      Tant mieux alors si l’overfitting est plus clair pour toi :D

  • @nickyves9714
    @nickyves9714 2 роки тому +1

    Merci