PRÉ-TRAITEMENT DE DONNÉES avec Python (28/30)

Поділитися
Вставка
  • Опубліковано 27 січ 2025

КОМЕНТАРІ • 263

  • @brahimakone1860
    @brahimakone1860 4 роки тому +10

    Salut @MachineLearnia je ne sais pas si tu as idée du bien que tu fais pour nous , mais t'es un ange. Quand je vois qu'en moins de 2 semaines, tu es entrain de me transformer en data scientist, je peux pas y croire. Ces vidéos dont tu nous fais bénéficier gratuitement coûtent beaucoup de dollars sur udemy et les cours ne sont même pas souvent bien expliqués. Merci, merci et merci et que Dieu te garde.

    • @MachineLearnia
      @MachineLearnia  4 роки тому +6

      Merci beaucoup pour ton message qui me touche beaucoup ! C'est une grande joie pour moi de savoir que mon contenu est aussi bon, voire meilleur que sur ces sites, qui parfois font de fausses promotions ! Je ferai tout pour vous emmener le plus loin possible, soyez sur !
      :)

    • @danielwise8402
      @danielwise8402 4 роки тому

      @@MachineLearnia C'est tellement vrai ce que le frere Brahima Kone a dit ! Peux etre vous vous rendez pas compte , mais ce sont des valeurs que vous creez chaque jour .

  • @stephd6196
    @stephd6196 Рік тому +3

    Toutes vos videos sont géniales - très claires, très didactiques, expliquées avec pédagogie! C'est assez rare pour le signaler...Vraiment que du bonheur à écouter chaque vidéo....Dommage que votre ebook ne soit plus disponible, ce doti être un très bon support pour comprendre toutes ces notions

  • @saramehenni1735
    @saramehenni1735 4 роки тому +7

    De loin les meilleur vidéos dans le domaine , c'est toujours plus simple avec vous qu'ailleurs, je souhaiterais bien que vous fassiez un jour des vidéos sur les algorithmes de boosting comme Gradient boost et comprendre comment ils fonctionnent

    • @MachineLearnia
      @MachineLearnia  4 роки тому +6

      Merci beaucoup :)
      J'ai prévu de faire des vidéos sur GradientBoost, XGboost, comment ils fonctionnent, et comment les utiliser pour avoir de meilleurs performances.

  • @jordanmolet3856
    @jordanmolet3856 4 роки тому +7

    Pour ceux qui refont l'exercice de leur côté et se retrouvent avec des DataFrame plus petits, attention à ce qui se passe à 5:00
    La ligne inscrite dans cette vidéo est :
    viral_columns = df.columns[(missing_rate < 0.80) & (missing_rate > 0.75)]
    tandis que dans la vidéo 27 il s'agissait de :
    viral_columns = df.columns[(missing_rate < 0.88) & (missing_rate > 0.75)]
    Il ne suffisait finalement pas de copier/coller le code de la dernière fois ;)

    • @MachineLearnia
      @MachineLearnia  4 роки тому +3

      Ooups ! Mince en effet j'avais oublié de préciser ca dans la vidéo (que j'avais directement éliminer les colonnes Rapid_test). Navré ! :)

    • @smartdatastudio2281
      @smartdatastudio2281 3 роки тому +1

      Ah je suis tombé dans e panneau

    • @rimbahroun5842
      @rimbahroun5842 2 роки тому

      Me too. Merci pour la précision.

  • @danielwise8402
    @danielwise8402 4 роки тому +7

    Pas besoin de suivre votre video avant de la liker , c'est risquer de perdre un detail parceque dès que ça commence , la concentration nait et difficile de voir le temps s'egrainer. Pour eviter cela , mieux liker avant de commencer car toujours best vos videos. Felicitation grand champion !

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Merci beaucoup :) Je suis content de savoir que mes vidéos ont un tel impact positif ! :)

  • @cainweo
    @cainweo 4 роки тому +1

    Je découvre ta chaîne depuis peu .. et franchement c'est d'une qualité extraordinaire ! Étant en fin d'études en iot avec du machine learning ta chaîne est d'une aide très appréciée! Merci d'expliquer si bien

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      Merci beaucoup a toi et bon courage dans tes projets ! :)

  • @mamb5323
    @mamb5323 Рік тому

    Bonjour Guillaume, je vous remercie beaucoup pour cette fantastique playlist instructives dont j'ai acquis pas mal de concepts que ce soit théoriques ou pratiques. Un grand chapeau à vous. Mes salutations les plus respectueuses

  • @mhamedbokhari9354
    @mhamedbokhari9354 4 роки тому +2

    Merci beaucoup pour cette présentation vraiment instructive. En effet, simplifier des concepts complexes mérite un chapeau bas. Cependant, je pense humblement qu'il ne fallait pas supprimer la colonne qui IDENTIFIE les patients, puisque le but final est l'identification des cas positifs et non pas seulement dire qu'il y a tant qui sont atteint du covid-19. Merci encore.

  • @bambaspoid10
    @bambaspoid10 4 роки тому +1

    Avant de vous découvrir, je passait mes journées sur des livres de datascience et de datamining, et après chaque lecture je commencé à compilé les codes pour avoir la main, mais maintenant c'est vous qui êtes mon mentor, je m'exerce plus avec vos compliles de formations sur le Machine Learning, Python pour datascience,etc. Un petit merci ne saurait montré ma gratitude envers vous, mais continue de nous régaler avec votre formidable pédagogie pour ne pas dire amusant😀.
    Je demande si c'est possible d'avoir une vidéos pour nous expliquer comment faire du machine learning sur SQL Server avec Pycaret.
    Merciii Encore une fois Doc.

    • @MachineLearnia
      @MachineLearnia  4 роки тому +2

      Merci beaucoup pour votre message, ca me fait super plaisir ! :D
      Je vais montrer comment faire du machine learning avec SQL, mais un peu plus tard a l'avenir !
      Bonne continuation a vous et merci de me soutenir ! :)

    • @bambaspoid10
      @bambaspoid10 4 роки тому

      Mercii, c'est une bonne nouvelle, je serais là à attendre:)

  • @FrédéricA-o6m
    @FrédéricA-o6m Рік тому

    Salut je commence juste ma formation en IA et tes vidéos m'apportent un plus grand éclaircissement sur de nombreuses étapes vu en cours.
    Merci pour ta simplification.

  • @imammalickndiaye9035
    @imammalickndiaye9035 4 роки тому +18

    J'ose dire partout que je suis Data Scientist grâce à vous Guillaume Saint-Cirgue

    • @MachineLearnia
      @MachineLearnia  4 роки тому +5

      Cela me comble de joie ! Je ferai tout pour vous emmener le plus loin possible !

    • @malickndiaye8108
      @malickndiaye8108 4 роки тому

      Merci encore une fois de plus.
      Nous constituerons toujours un soutien pour vous et avec tous les moyens que nous disposerons.

    • @noel9335
      @noel9335 4 роки тому +1

      Bonjour,
      Vous avez passé un diplôme, une certification ?
      Vous avez un poste de Data Scientist ?
      Je serais intéressé par votre réponse car je cherche à valider mes connaissances en Machine Learning, ainsi que Q-Learning et Deep-Learning.
      A+ ;)

    • @noel9335
      @noel9335 4 роки тому +1

      @@imammalickndiaye9035 Merci pour ta réponse.
      C'est bien d'avoir un retour d'expérience.
      En tout cas, le Sénégal, cela fait un peu loin pour passer un diplôme. ;)

    • @imammalickndiaye9035
      @imammalickndiaye9035 4 роки тому +1

      @@noel9335 vous êtes d'où?

  • @sahriyounes2147
    @sahriyounes2147 Рік тому

    Bravo, bonne continuation, vous maîtrisez bien le domaine et votre méthode est EXTRA... MERCI

  • @jmbdeblois
    @jmbdeblois 4 роки тому +2

    Super démo qu'un bon preprocessing c'est utile !! Merci encore pour cette vidéo Guillaume.

  • @AzzedineAbdessalam
    @AzzedineAbdessalam 4 роки тому

    Merci beaucoup pour ton travail. Tu fais preuve de pédagogie et expliques les concepts très clairement.

  • @yvespanfulegoue5991
    @yvespanfulegoue5991 4 роки тому

    lorsque je vous rencontrais j'avais un niveau zéro en python a peine sur la 18ieme vidéo de la série de vidéos je constate que mon niveau est ci vite monté. waho vous êtes un génie et vous m'avez donné le gout du métier de data scientiste. bientôt je lierai cette 28ieme vidéo, j'avance sereinement avec vous. DIEU vous bénisse.

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      Je suis très heureux de lire votre témoignage ! :)

  • @miloudchadli589
    @miloudchadli589 3 роки тому

    Merci pour cette superbe démonstration, c'est clare, bien détaillée.
    Merci encore

  • @thibaultl4413
    @thibaultl4413 4 роки тому

    Merci ! Encore au top. Clair et efficace : tout ce qu'on demande ! Hâte que la 29/30 arrive :)

  • @manouantiadominique2576
    @manouantiadominique2576 4 роки тому

    Merci beaucoup pour cette video. C'est vraiment une etape importante dans la realisation d'un projet de machine learning . tombe a pic car je dois participer a un concours cette semaine.

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      Bon courage pour votre concours ! Je suis a fond avec vous !

  • @budoshugyosha
    @budoshugyosha 4 роки тому

    Merci beaucoup Guillaume, il y a à la fois des explications détaillées et la stratégie sous-jacente...c'est d'une qualité supérieure à tout ce que j'ai pu trouver auparavant...et en plus c'est en francais

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Merci beaucoup, je suis heureux que le contenu vous plaise :)

  • @kehouavalioappolinaire1967
    @kehouavalioappolinaire1967 4 роки тому

    Merci Guillaume pour tous ces efforts consentis. Tu es le meilleur. Que Dieu te garde.

  • @Mohamed-Maghrebi
    @Mohamed-Maghrebi 4 роки тому +3

    Je peux pas encore voire la video, je suis dans la video 23, je suis sûr qu'il est bon, je peux pas passer sans vous remercier, bon contuniation, je serais le terminator du Machine LEarning xD grace à vous et à l'aide de communauté

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Bravo ! Ahah oui tu seras un Terminator ! :D

  • @mondherelmufti6930
    @mondherelmufti6930 3 роки тому

    Merci, comme c'est prévu vos vidéos sont toujours excellentes.

  • @aimeritedonald6689
    @aimeritedonald6689 4 роки тому

    toujours au top !! merci pour cela, sa donne une grande excitation !!

  • @danielwise8402
    @danielwise8402 4 роки тому +1

    Super ! je dois m'en prendre un autre book pour les notes !
    Franchement merci chef ! mes respects ...

    • @MachineLearnia
      @MachineLearnia  4 роки тому +2

      Prise de notes ! C'est bien ! Le livre que je prépare résume lui aussi la série, je pense que tu vas l'aimer :)

    • @danielwise8402
      @danielwise8402 4 роки тому

      @@MachineLearnia haha , jai déja aimé meme sans l'avoir deja.

  • @DimuelTripotin
    @DimuelTripotin Рік тому +1

    Je comprends pourquoi utiliser le missing indicator, mais pourquoi remplacer les NaN par des valeurs extrêmes ? Est-ce qu'il y a un avantage à faire ça par rapport à remplacer les NaN par une moyenne, ou une autre valeur quelconque ?

  • @arilesstir7973
    @arilesstir7973 4 роки тому

    Vraiment super !! les vidéos sont excellentes j'adore un grand MERCI

  • @jeanbernardpaya3635
    @jeanbernardpaya3635 3 роки тому

    Superbe pédagogie, merci pour ces vidéos. Suis bloqué sur une étape, je vous ai soumis les détails par email, merci d'y jeter un oeil....Cordialement

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      Bonjour, j'ai pas mal de retard sur la lecture de mes mails, je ne promets pas de pouvoir y répondre tout de suite, mais sur notre discord je n'aurais pas de mal a vous aider !

    • @jeanbernardpaya3635
      @jeanbernardpaya3635 3 роки тому

      @@MachineLearnia En fait je développe un programme de prédiction de futures en utilisant votre technique. A l'étape Model (evaluation)j'ai le message suivant: Value error: continuous not supported. Si vous avez une solution, c'est most welcome. D'avance merci

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      @@jeanbernardpaya3635 En effet il faut plus d'info pour vuos venir en aide. Je vous invite a venir en parler sur le discord de la communauté

    • @jeanbernardpaya3635
      @jeanbernardpaya3635 3 роки тому

      @@MachineLearnia comment puis je avoir accés au discord? Merci

    • @jeanbernardpaya3635
      @jeanbernardpaya3635 3 роки тому

      Merci de m'envoyer une invitation pour discord.

  • @noel9335
    @noel9335 4 роки тому +2

    Bonjour Guillaume,
    Lorsque l'on utilise une pipeline comme celle-ci :
    model = make_pipeline(SelectKBest(f_classif, k=5), RandomForestClassifier(random_state=0))
    ...on ne peut plus utiliser la commande model.feature_importances_
    Cela semble normal puisse les objets sont encapsulés pour être utiliser des uns après les autres. D'où ma question, comment donc peut-on accéder à ces informations maintenant ?
    Merci.
    Noël, ;)

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Bonjour Noel,
      Pour acceder a une étape d'une pipeline, il suffit d'indiquer entre crochets [ ] l'index de l'étape (ou bien son "nom", les 2 fonctionnent)
      Enssuite, tu peux utiliser les attributs associés a l'étape concernée.
      dans ton cas, tu peux écrire :
      model[1].feature_importances_

    • @noel9335
      @noel9335 4 роки тому +1

      @@MachineLearnia Merci pour cette information précieuse car très utile.
      A+ ;)

  • @أنسابسطيف
    @أنسابسطيف 4 роки тому

    Mille mercis Guillaume
    Pourriez vous nous faire des vidéos sur le traitement des données textuelles

  • @cyrineabid308
    @cyrineabid308 3 роки тому

    Bonjour,
    Merci de m'expliquer comment nous pouvons faire la selection des colonnes selon un seuil pour faire de nouveau l'arbre de décision après la détermination des variables les plus importantes pour sa construction

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      Bonjour, apres avoir utiliser feature_importance, il faut utiliser pandas et numpy pour extraire les variables les plus importante (avec un sort()) et ensuite c'est bon, on peut le relancer dans un arbre de décision.

    • @cyrineabid308
      @cyrineabid308 3 роки тому

      @@MachineLearnia merci pour votre réponse. Cad, comme vous avez fait avec NaN sur dataset du coronavirus du projet?

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      @@cyrineabid308 Désolé a vrai dire je ne me souviens pas par coeur de tout ce que j'ai pu écrire comme code dans toutes mes vidéos et tous mes projets perso et professionnels. Mais en effet dans cette vidéo on observe les meilleurs variables a un moment de la vidéo, il suffit de les trier et les extraires.

    • @cyrineabid308
      @cyrineabid308 3 роки тому

      @@MachineLearnia bien reçu. Merci pour votre temps

  • @mackas33
    @mackas33 4 роки тому

    Toujours des vidéos super intéressant Merci :)

  • @khaoulabouziane1681
    @khaoulabouziane1681 4 роки тому

    grâce à vos vidéo, j'ai osé dire oui à un projet financier, dont j'avais peur au début d'accepté, je vous remercier énormément, et j'espère le finaliser dans les meilleurs délais

  • @peterpancakeA
    @peterpancakeA 4 роки тому +1

    Pourquoi quand j'ecris "model.feature_importances_" ca me met ce message d'erreur : 'Pipeline' object has no attribute 'feature_importances_' ?

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Parce qu'une pipeline n'a en effet pas cet attribut. Ce qu'il faut faire, c'est acceder aux modele présent dans la pipeline ! pour ca il faut utiliser l'attribut step de pipeline, pour selectionner le modele, puis ensuite utiliser feature_importances_

  • @TheMajestic76
    @TheMajestic76 4 роки тому

    Bonsoir Mr Guillaume, vraiment votre travail est génial, j'ai beaucoup appris grace à votre pedagogie de formation. si vous pouvez m'orienter vers des modèles de machine learning dans le domaine du controle de gestion , et de l'audit , aussi existe t'il des datasets pour ces deux domaines, je veux me perfectionner dans ces deux metiers dont j'ai eu un master.Merci infinement

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      merci beaucoup a vous :) N'importe quel modele de sklearn doit etre tenté sur votre domaine (modele bayesien, Regression logistique, etc.) Pour les datasets, vous devriez essayez Kaggle.com

    • @TheMajestic76
      @TheMajestic76 4 роки тому

      @@MachineLearnia merci encore pour tout ce vous faites

  • @SebastienDecaste
    @SebastienDecaste 2 роки тому

    Salut les gars il y a une chose que je comprends pas. Lors du nettoyage quand il dit que toutes les variables qualitatives sont remplacées ça veut dire quoi exactement concrètement dans le tableau je ne comprends pas ce que je vois dans la vidéo dans le tableau normalement je dois voir 1 ou 0 partout dans les colonnes et pas des NAN !! Je ne comprends pas la manœuvre je comprends le processus mais je ne vois pas ce que ça entraîne concrètement dans le tableau dans cet exemple de la vidéo qui peut m'aider s'il vous plaît avec un grand merci merci beaucoup

    • @torcedo34
      @torcedo34 2 роки тому

      Les variables qualitatives ont bien été remplacer par des 0 ou 1. Les NaN ne sont pas des variables qualitatives elles vont rester. La manœuvre est de remplacer les textes positive, negative, detected, not_detected en int pour que le modèle puisse s'entrainer dessus

  • @ndrikouakouinnocnt7328
    @ndrikouakouinnocnt7328 11 місяців тому

    Il ya t'il une différence entre pre- prétraitement des données et Analyse exploratoire des données

  • @prestigiuseppe2659
    @prestigiuseppe2659 4 роки тому

    Je m’attelle à tous cela. Je sens que je vais modifier certaines choses pour mon mémoire ! :D Tu es un génie :)

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Merci beaucoup ! Si je suis un génie, alors toi aussi ^^

  • @ismaeldedia7675
    @ismaeldedia7675 4 роки тому

    Bonjour.
    Une fois de plus grand merci je prend de plus en plus goût.

  • @budoshugyosha
    @budoshugyosha 4 роки тому

    Une petite question: au début lorsque j'écris: df [blood_columns+viral_columns+key_columns]
    J'obtiens une erreur: operands could not be broadcast together with shapes (14,) (19,)
    Pourtant j'ai l'impression d'avoir tout fait à l'identique...une suggestion?

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Attention car j'ai enlevé 2 colonnes en plus depuis la derniere vidéo, a savoir les colonnes "rapid_test". Si le probleme persiste, je vous conseille de vérifier les dimensions de chaque sous-groupe. Le code est disponible sur github (en lien dans la description) si jamais vous avez besoin de faire un "fork"

    • @budoshugyosha
      @budoshugyosha 4 роки тому

      @@MachineLearnia Merci de prendre le temps de me répondre...je vais regarder cela de près

  • @s0bek888
    @s0bek888 12 днів тому

    Bonjour @Machine learnia, en espérant que tu vois ce message. Tout d'abord merci beaucoup pour ce cours. J'ai apprends et continue d'apprendre beaucoup. J'ai néanmoins un problème lors de l'évaluation du modèle : python me renvoit une erreur alors que j'ai copié exactement les mêmes lignes que toi. (j'en suis à la minute 17 et quelques, ligne : evaluation(model) ).
    Voila l'erreur que python me renvoit : 'Unknown label type: unknown. Maybe you are trying to fit a classifier, which expects discrete classes on a regression target with continuous values'.
    Pourtant quand on a écrit le y.value_counts() un peu plus au-dessus, cela nous a indiqué que le type était int, mais ce n'est plus le cas après, je suis un peu perdu là.
    Peut-être est-ce du a des MAJ des différents modules etc ?
    Merci de votre aide !

    • @s0bek888
      @s0bek888 11 днів тому

      La nuit a du porter conseil a mon notebook, sans rien changé, le code a marché cette fois ^^

  • @mustaphakamelbensmaia6579
    @mustaphakamelbensmaia6579 4 роки тому

    Bonjour, au top comme d'habitude. Un schéma général de pre-processing très utile . Merci!
    Y a juste un point ou c'est encore flou pour moi, quand on utilise la fonction "evaluation" pour évaluer le model et ensuite essayer de l'optimiser, on peut voir dans la fonction "evaluation" l'utilisation de X_test et y_test. Je pensais qu'on devait le garder pour la toute fin et ne pas y toucher. Je m'attendais à ce que le trainset soit encore découpé pour entraîner et valider le modèle comme on a pu le voir dans la vidéo cross_validation, ensuite à la toute fin, on donne le test_set au modèle pour voir comment il réagit à des données nouvelles. Ma question: faire passer le testset dans la fonction évaluation ne fait pas que le modèle ait déjà vu ces données au moment de le tester à la fin?

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      Merci. Tout ce que tu dis est correct : Nous n'entrainons pas le modele sur les données de test, et ne l'optimisons pas non plus dessus. Dans la vidéo suivante, tu peux voir que nous utiliserons gridshearchCV sur le trainset avec la cross-validation, pour optimiser le modèle. Dans cette vidéo, j'indique juste le score sur le test_set a titre d'information (dans la fonction d'évaluation)

  • @rafaaotmani
    @rafaaotmani Рік тому

    Je m’attelle à tous cela. Je sens que je vais modifier certaines choses pour mon mémoire ,sincèrement Bravo

  • @mountassirkh2759
    @mountassirkh2759 3 роки тому

    Excellent. Merci infiniment !

  • @iqbalhamada
    @iqbalhamada 4 роки тому

    Bonjour, je te félicite pour la qualité de tes cours et tes vidéos, j'aimerais bien avoir des cours de statistiques très avancés, par exemple biais et variance, qui sont utilisés parfois pour calculer l'erreur, bonne continuation

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      C'est noté, je vais produire de tels cours ! :)

    • @iqbalhamada
      @iqbalhamada 4 роки тому

      @@MachineLearnia Merci !

  • @primadedosseu5886
    @primadedosseu5886 Рік тому

    Excellent merci. Mais les code sont pas bien visible

  • @martindossou7692
    @martindossou7692 4 роки тому

    Je vous remercie énormément car grâce à vous on dirait je suis un data scientist

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Vous allez devenir un data scientist pour de vrai, je vais tout faire pour !!!! :)

  • @mohammed_yazidcherifi9816
    @mohammed_yazidcherifi9816 4 роки тому +1

    Superbe vidéo comme d'habitude, merci pour ce contenue de qualité, en fait je remarque qu'on n'a pas eu besoin d'utiliser les imputer et les encoders et les scaler de scikit learn, je voulais savoir est ce que on peut les utiliser au départ ainsi que les pipline, les make_column_selector, et make_column_transformer ou bien on doit créer nous même nos fonctions de transformer comme vous venez de le faire ici ?
    Et aussi je croyais que le meilleur encodage est le onehot car il donne de meilleurs performance, et ici on a utiliser un genre LabelEncoder, est ce que c'est dans la phase Modelisation qu'on teste ceci ?
    Merci encore et bon courage.

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Beaucoup de très bonnes questions ! Il y a plusieurs démarches possibles dans la pratique, et j'utilise moi-meme plusieurs démarches selon la situation. Si on veut faire une simple analyse de dataset, alors il est possible de tout faire manuellement avec Pandas et un peu de sklearn comme je présente ici. En revanche, si l'objectif est de déployer un modele en production, alors il est préférable de créer des pipelines (et sklearn est tres utile pour cela). Dans la pratique, on crée souvent ses propres classes de Transformer avec la classe BaseEstimator, pour ensuite les intégrer dans une pipeline. Mais cela est plus avancé et je vois rarement les amateurs faire cela. Je vous le montrerai a l'avenir sur la chaine.
      Pour la deuxieme question : Dans ce dataset nous n'avons que 2 catégories pour chaque variables, donc il n'y a pas de différence entre ordinal encoder et One-hot Encoder (il n'y a que des 0 et des 1)

    • @mohammed_yazidcherifi9816
      @mohammed_yazidcherifi9816 4 роки тому +1

      ​@@MachineLearnia Merci pour votre réponse mais si vous permettez je me demandais quel que chose, pourquoi on ne ferait pas une méthodes de preporcessing générale globale qui contient absolument tous, genre scaling, encodage, feature selection, imputation, polynomiale feature, pca, etc... et l'appliquer directement à notre dataset selon le bon ordre bien sure, au lieu de à chaque fois essayer et revenir ?
      Merci mille fois et désolé du dérangement .

    • @stephaneperriot7845
      @stephaneperriot7845 4 роки тому +2

      @@mohammed_yazidcherifi9816 Bonjour, la réponse est à la fin de la vidéo. Cette démarche itérative permet de tester indépendamment les hypothèses une à une pour savoir lesquelles retenir. Dans le cas d'un preprocessing général on ne pourrait pas distinguer les hypothèses qui améliore le résultat de celles qui le détériore. La finalité de la démarche itérative est bien d'avoir une preprocessing global (dont chaque hypothèse aura été validée)

  • @LatelliHmida
    @LatelliHmida Рік тому

    Peut-on encoder le jeu de données avant de le diviser en X_train, X_test, etc. ?

  • @lkhmaj
    @lkhmaj 4 роки тому

    Merci beaucoup pour tes vidéos, on apprend énormément! A quand une série sur le deep learning? :)

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      La série sur le Deep Learning va commencer aussitot que celle ci se termine ! :)

    • @lkhmaj
      @lkhmaj 4 роки тому

      Machine Learnia supeeer!

  • @allalzaid1872
    @allalzaid1872 3 роки тому

    bonjour,peut on utiliser la meme procedure d'evaluation si on a une multiclass classification ,autrement dit si notre target contient par exemple : apple banana orange strawberry camcoat ?

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      Bonjour, on peut faire ca avec n'importe quel modele de sklearn (il supporte la multi-class). Il suffit de bien encoder votre variable y

  • @sidalibourenane5377
    @sidalibourenane5377 3 роки тому

    premièrement Merci infiniment , pour quoi vous avez utilisé des fonction (imputation,preprocessing,,encodage...) au lieu générer directement des transfomer comme auparavant ???

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      Bonjour, c'est une autre facon de faire qui est aussi tres pratique, car un peu plus flexible que les transformers.

  • @onesimemb102
    @onesimemb102 4 роки тому

    Salut Guillaume, merci pour cette vidéo. Pourrai vous nous faire une vidéo qui explique d’une manière claire les techniques de feature extraction seulement. Merci 🙏🏼

  • @Magmatic91
    @Magmatic91 4 роки тому

    Merci pour ce cours très clair. J'ai une deux petites questions : Pourquoi vous n'avez pas remplacé les valuers manquantes par le mode ou moyenne ou bien la valeur d'avant? Aussi, est-ce que ça peut arriver de ne pas pouvoir optimiser un model, que pouvons-nous faire dans ce cas?

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Bonjour et merci. Je n'ai pas remplacer les NaN parce qu'elles sont en trop grandes proportions, et parce que je préfere toujours commencer par travailler avec les données que je connais (je n'aime pas "inventer des données). Ensuite, si j'observe que la performance est mauvaise (et que j'ai besoin de plus de données) alors (et seulement alors) j'essaie de rajouter des données en comblant les trous.
      Je ne vois pas de situation dans laquelle on ne peut pas optimiser un modele, si vous avez un exemple ca m'aiderait :)

    • @Magmatic91
      @Magmatic91 4 роки тому

      @@MachineLearnia Concernant l'optimisation du modèle peut être j'ai pas bien posé ma question. Je voulais dire si ont peut tomber sur un Data set où l'optimisation devient difficile ou bien impossible.

  • @nidhalmerhben1813
    @nidhalmerhben1813 3 роки тому

    Bonsoir j'ai pas pu lire la base de donnée sur jupyter l'erreur "Install xlrd >= 1.0.0 for Excel support " malgré que je l'ai installé avec pip install xlrd == 1.0.0. et s'est installé mais toujours
    le meme erreur ? qu'est ce que je dois faire???? merci d'avance

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      Aucune idée, venez en parler sur notre serveur discord. Faites bien vos recherches google au préalable

    • @nidhalmerhben1813
      @nidhalmerhben1813 3 роки тому

      @@MachineLearnia merci bcp j'ai résolu le probleme

  • @thiernondiaye7615
    @thiernondiaye7615 3 роки тому

    Bonjour en fait j'ai du mal à comprendre la création de blood_columns et virale_columns. Pourquoi leurs créations.

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      Bonjour, c'est pour regrouper dans un meme sac toutes les colonnes qui partagent le meme theme, ca facilite pas mal les analyses

  • @aurcelkoubemba9838
    @aurcelkoubemba9838 4 роки тому

    Bonjour svp j'ai un petit projet à faire je voudrais savoir si vous avez des tutoriel pour sa. La reconnaissance faciale si vous avez des tuto comment faire la reconnaissance faciale ??????????????????????????

  • @donellessame9194
    @donellessame9194 3 роки тому

    Salut, je pense que ça serait pertinent de faire une vidéo dans laquelle on explorerait un peu plus en profondeur différents modèle tels que, support vector machine, Random Forest, nearest neighbors, etc.

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      Tout a fait d'accord, j'ai prévu de faire toute une série a ce sujet !

  • @bilel_s8250
    @bilel_s8250 4 роки тому

    comme d' habitude excellant #MachineLearnia , mais pourquoi vous n'avez pas utiliser l'encodage par OneHotEncoder ou OrdinalEncoder que vous avez utiliser dans ancien vidéo ??

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Merci beaucoup. J'ai utilisé un encodage manuel car cela me donne plus de controle sur ce que j'encode, d'autant plus que le dataset est petit ici (il y a peu de catégories)

  • @lllcdert826
    @lllcdert826 3 роки тому

    SVP je vous pris de répondre a ma question est ce que vous pouvez nous montrer en général les hyperparametres intéressant a choisir dans l'algorithme de logistique régression parmi ces hyperparamètre ( LogisticRegression(C=1.0, class_weight=None, dual=False,
    fit_intercept=True, intercept_scaling=1,
    l1_ratio=None, max_iter=100,
    multi_class='auto', n_jobs=None,
    penalty='l2', random_state=0,
    solver='lbfgs', tol=0.0001, verbose=0,
    warm_start=False))],)
    (comme vous avez fait avec le svm dans cette video ou le knn que vous avez déjà aborder dans une des vidéo précédente )

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      ce qui est important, c'est l'hyperparametre C et max_iter. Apres la penalty, le solver, et la tol sont aussi intéressant.

    • @lllcdert826
      @lllcdert826 3 роки тому

      @@MachineLearnia d'accord je vous remercie

  • @yassineakrout8593
    @yassineakrout8593 2 роки тому

    salut est ce que cette vidéo contient l 'apprentissage supervisé

  • @captainmustard1
    @captainmustard1 2 роки тому

    salut Guillaume, une petite question me turlupine... Pour m'entrainer, j'ai appliqué ton script à une bade de donnée du cancer du colon avec comme target [normal, tumoral]. Au niveau de la lerningCurve, quand j'utilise le "scoring=f1" comme toi, j'ai des messages d'erreurs du type : "ValueError: pos_label=1 is not a valid label. It should be one of ['normal', 'tumoral']".
    J'ai corrigé le problème en supprimant le scoring. J'ai donc compris que ça fonctionnait bien avec le scoring par défaut de la classification qui est le "Accuracy". Mais je ne comprends pas pourquoi ça ne fonctionne pas avec les autres métriques , qui sont bien des métriques de classification.

    • @MachineLearnia
      @MachineLearnia  2 роки тому +1

      Salut ! Tu as encodé la target ?!

    • @captainmustard1
      @captainmustard1 2 роки тому

      @@MachineLearnia oui, j'avais essayé mais ça n'avait pas fonctionné

  • @amineraboun
    @amineraboun 2 роки тому

    Bonjour Guillaume,
    Merci beaucoup pour cette série de vidéos, j'ai appris énormément avec toi alors que je pensais avoir déjà un bon niveau en data-science.
    Petite question concernant l'utilisation du testset dans ce projet. Je vois que la matrice de confusion et le rapport de classification sont à chaque fois calculés sur le testset, alors que vous êtes toujours sur une phase de modélisation et de calibration. Le test set est utilisé dans ce cas pour trouver le preprocessing adéquat et l'ensemble des hyper paramètre pour tuner le modèle. On ne peut donc plus dire que les données du testset sont nouvelles à la machine. Ne serait-il pas plus judicieux de diviser notre jeu de données en train, validation, et test sets avant de se lancer dans le preprocessing ?
    Merci par avance pour votre retour

    • @MachineLearnia
      @MachineLearnia  2 роки тому +1

      Tout a fait, j'aurais du faire ca ici, c'éait juste pour illustration.

  • @karimmajdi7012
    @karimmajdi7012 4 роки тому

    Bravo merci beaucoup pour vos vidéos. peut tu nous faire des video sur le cloud et spark?

  • @moussabamba6216
    @moussabamba6216 4 роки тому

    Bonjour j'aimerais savoir est que l'on peux utiliser f1 comme score pour un modèle de régression linéaire.merci d'avance.

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      Non, le score f1 est conçu pour les problèmes de classifications

  • @pickthelock
    @pickthelock 2 роки тому

    Super vidéo, est ce que le réseau de neurone que je vais ensuite construire va réagir de la même manière aux preprocessing qu'un Classifier ou RandomForest ?

  • @patrickcantona5156
    @patrickcantona5156 4 роки тому

    'NoneType' object has no attribute 'drop' j'ai toujours cet erreur la quand j’exécute la fonction preprocessing des trainset et testset (time code 13:03 ) . Je comprends pas pourtant quand je fais un drop en dehors de la fonction preprocessing ça marche
    Merci pour la vidéo

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      vérifie que le type de tes trainset et testset sont bien "DataFrame", et sinon regarde le code sur github en référence

  • @eugenebengibabuya4938
    @eugenebengibabuya4938 4 роки тому +6

    Je like avant de regarder ;))

  • @mouhamadoumoustaphaba4502
    @mouhamadoumoustaphaba4502 3 роки тому

    Bonsoir
    En ce moment je travaille sur un projet sur la prédiction du prix de l'immobilier au USA .Dans le Dataset j'ai des variables année de construction du maison et l'année de vente.Est ce que je peux laisser ces variables pour faire la regréssion?

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      Oui vous pouvez, regardez la suite des vidéos ou je parle de preprocessing.

  • @allalzaid1872
    @allalzaid1872 3 роки тому

    Bonsoir
    j'ai un problème pour savoir est ce que je doit utiliser la classification ou la régression
    j'ai un dataset contenant les factures température -pression-quantité de gaz produite-formule chimique du gaz-
    ce que je veux c'est entrainer mon modelé pour avoir comme Target la quantité de gaz produite et de classifier les formule de gaz en se basant sur la quantité produite ,je pense que mon problème et classification et régression en même temp ,or je sais pas comment l'implementer, j'ai fait le nettoyage , preprocessing, j'ai entrainer un Random Forest pour l'obtention de la quantité de gaz mais je me trouve un peux dans le vide.
    pourriez vous m'aider?
    merci

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      Personnellement je pense que c'est un problème de régression, dans lequel vous cherchez a prédire une quantité de gaz. Une fois que vous connaissez cette quantité, après vous pouvez faire votre classification a partir de celle-ci, sans passer par le machine learning.

  • @imaneagnaou-nice3094
    @imaneagnaou-nice3094 4 роки тому

    Bonjour ;) merci pr cette magnifique vidéo stp j'ai une question après avoir utiliser
    model= make_pipeline(PolynomialFeatures(2), SelectKBest(f_classif, k=10),
    RandomForestClassifier(random_state=0))
    je ne peux plus utiliser la commande model.feature_importances_ que dois je faire et un grand merci :)

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Oui c'est parce qu'il faut acceder a l'étape de RandomForest de la pipeline ! Pour cela tu peux faire model[0].feature_importances_
      Désolé pour la réponse tardive !

  • @solalcohen5631
    @solalcohen5631 2 роки тому

    Petite question : Tu fais ton preprocessing et meme un peu de feature engineering sur un model puis dans la video suivante tu vas essayer plusieurs autres models. Mais le preprocessing et le feature engineering ne dependent pas un peu du model utilise? Dans le sens ou une standardisation ne va pas avoir dinteret pour un model type arbre. A quel moment donc il faut choisir son model ?

    • @MachineLearnia
      @MachineLearnia  2 роки тому

      Oui tu as raison, Je montre ici un processus un peu simplifié. Il faut tourner en boucle les étapes de pre-processing et de modélisation, en modifiant son preprocessing pour accomoder le modele

  • @abdoulayesow6627
    @abdoulayesow6627 4 роки тому

    Merci Guillaume pour cette etude complete.
    Mais j'ai un soucis de mon sur un data un peu semblable a celui la. Mais ma variable target n'a que moins de 2% de valeurs. Est ce que on peut faire grande chose avec? d'autant plus qu'on nous dit sur le sujet que nous nous pouvons remplacer les valeurs manques par une moyenne, mediane ou mode de la variable concerner. Qu'est ce que vous me conseillez?

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      2% de données c'est vraiment tres peu ! Je vous conseille de tester tout, avec une cross_validation et de garder la meilleure technique

    • @abdoulayesow6627
      @abdoulayesow6627 4 роки тому

      @@MachineLearnia d'accord.
      Mais j'ai un probleme pour calculez les corrlations entres les variables qualitatives et entre qualitatives/quantitatives. Y a t il pas une methode sur python de faire ca comme avec corr() pour des variables quantitatives?

  • @developpeurmax3295
    @developpeurmax3295 3 роки тому

    Bonjour Guillaume, c'est une superbe vidéo, mais j'avais une préoccupation concernant la fonction encodage, quand j'utilise Map pour faire l'encodage sa me retourner une erreur ! Comment puis je procéder autrement

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      Quelle est l'erreur en question ?

    • @developpeurmax3295
      @developpeurmax3295 3 роки тому

      Je veux vous l'envoyer, c soir merci bcp

    • @developpeurmax3295
      @developpeurmax3295 3 роки тому

      Voici l'erreur qui s'affiche : AttributeError: ' DataFrame' object has no attribut 'map'

  • @elrick2087
    @elrick2087 4 роки тому

    bonsoir
    def clean(filtre):

    return filtre.dropna(axis=0)
    cette fonction supprime toutes les lignes chez moi.

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Il est possible que vous aillez au moins un NaN sur chaque ligne, attention !

    • @elrick2087
      @elrick2087 4 роки тому

      Merci.

  • @obiangobiang9294
    @obiangobiang9294 10 місяців тому

    Bonsoir monsieur, j'espère que vous allez bien ? J'ai un sujet en rapport avec l'apprentissage automatique. Pouvez vous m'aider svp?

  • @christopherthomias7278
    @christopherthomias7278 3 роки тому

    Bonjour Guillaume, petit question, est-ce que pour la partie preprocessing quand tu définis tes fonctions, tu aurais pu utiliser directement les fonction de Sklearn (SimpleImputer, OneHotEncorder ...) Ou tu penses que justement à ce stade c'est mieux d'avancer comme tu l'as fait ?.
    Parce que je me dis que si on avait eu plus de cas différents de categorical features ça aurait été compliqué d'écrire les fonction à la main ?
    J'ai effectué un petit test justement mais comme il y a des NaN et autres apparemment c'était un peu compliqué de faire l'encodage puis l'Imputation

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      En effet, c'est plus facile de procéder soi-même a la main dans ce cas. Et meme dans les projets plus complexes, il m'arrive souvent (ainsi qu'aux autres data scientists) de faire l'encodage et l'imputation en passant par pandas.

    • @christopherthomias7278
      @christopherthomias7278 3 роки тому

      @@MachineLearnia ok ça marche merci pour le retour 🤗

  • @aliounebadarapierreniang793
    @aliounebadarapierreniang793 4 роки тому

    Bonsoir et Merci pour cette vidéo incroyable. J'ai juste une question. Pourquoi est ce qu'on remplace les valeurs manquantes par une valeur extrême comme c'est le cas ici à la 23:43. (Vous l'avez remplacer par -999).
    Je sais que c'est pour éviter de supprimer trop de données mais je vois pas la logique derrière les -999. Merci
    Hâte pour les prochaines vidéos =)

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Bonjour, tout d'abord, cette technique fonctionne bien avec les arbres de décisions, mais pas avec tous les types de modeles (par exemple ca ne fonctionnerait pas bien sur des modeles linéaires) Selon le modele qu'on utilise, il faudra mettre une valeur plus ou moins extreme. Par exemple pour des KNN, il faudra vraiment une valeur éloignée du reste des données (comme ici) alors que pour des arbres de décision, un simple -1 aurait fait l'affaire. J'ai juste mis un -999 par habitude, parfois on met encore moins, parfois juste -1, a vous de voir :)

    • @aliounebadarapierreniang793
      @aliounebadarapierreniang793 4 роки тому

      @@MachineLearnia Merci beaucoup. Mais, à quand la prochaine vidéo ... :=)

  • @barandiaye5299
    @barandiaye5299 4 роки тому

    Svp pouvez vous faire des tutos en python avec les netcdf files qui sont des fichiers à 3 ou 4 dimensions

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      Bonjour, je vais le rajouter a ma liste de choses a faire, oui !

  • @moussabamba6216
    @moussabamba6216 4 роки тому

    merci pour tes vidéo mais est ce que souvent tu pourrais nous montrer comment tu utilises la documentation .merci d'avance

  • @Magmatic91
    @Magmatic91 3 роки тому

    Une petite question svp : doit-on faire le feature engineering à la fois pour le train set et le test set comme dans la vidéo car je travail actuellement sur un projet sur Kaggle et certains me disent qu'il faut le faire seulement sur le train test. Je trouve votre méthode plus logique mais en tant que débutant j'arrive pas à me décider. Pouvez-vous m'éclairer sur le sujet. Merci.

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      Sur Kaggle, on peut parfois tenter des choses un peu farfelues pour obtenir de meilleurs résultats ^^
      Mais dans la pratique, il faut vraiment mettre de coté les données de Test des le début du projet (ne pas y toucher) et faire tout son pre-processing uniquement sur le trainset.
      Ensuite, quand les fonctions de pre-processing ont été apprises sur le trainset, alors on peut les appliquer au testset (seulement apres)

  • @vazoumanasylla775
    @vazoumanasylla775 4 роки тому

    Bonsoir Guillaume et Merci pour cette vidéo. J'essaie de m'exercer et j'ai un souci. Lorsque je j'écris df = df[key_columns + blood_columns + viral_columns] ; Python me retourne le message d'erreur suivant : ValueError: operands could not be broadcast together with shapes (2,) (14,)
    Je vous remercie de votre aide

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Le message indique un probleme de dimension entre les tableaux key_columns, blood_columns et viral_columns. Je vous invite a voir mon code sur github pour le comparer avec le votre et trouver la différence qui a mené a obtenir des dimensions différentes

    • @vazoumanasylla775
      @vazoumanasylla775 4 роки тому

      Merci Guillaume !

  • @essaidelhaji6844
    @essaidelhaji6844 4 роки тому

    Merci pour cette superbe vidéo. J'ai une petite question: pourquoi avez-vous procédé à l'encodage en créant votre propre fonction, alors qu'il était possible d'utiliser les transformers de SKlearn tel que OneHotEncoder? quel en est l'avantage? ou juste à titre pédagogique? merci.

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Bonne question ! En pratique, Les transformers tels que OneHotEncoder sont utiles quand il y a un grand nombre de catégories a convertir. Mais quand nous avons un petit nombres de catégories a convertir (comme ici 2-4) alors il est plus pratique d'écrire sa propre fonction pour avoir un controle total sur ce que l'on fait.

    • @essaidelhaji6844
      @essaidelhaji6844 4 роки тому

      @@MachineLearnia Merci Beaucoup.

  • @achrafzeroual1131
    @achrafzeroual1131 4 роки тому

    Bonjour Mon cher Professeur, j'espère que vous etes bien en bonne santé. Comme d'habitude, vous etes toujours à la hauteur et tout est bien expliqué merci infiniment mon cher professeur. J'ai une petite question : j'ai utilisé une pipeline comme vous avez fait dans ce cours en travaillant bien sur avec SelectKBest et RandomForestClassifier à l'intérieur du pipeline, mais quand je veux visualiser l'importance des features en utilisant ces deux lignes de code :
    model_feature_importances= model.steps[1][1].feature_importances_
    pd.DataFrame(model_feature_importances, index=X_train.columns).plot.bar(figsize=(12, 8))
    j'aurais l'erreur suivante "Shape of passed values is (10, 1), indices imply (33, 1)" , ça veut dire, peut etre , le nombre de variables dans X_train.columns dépasse le nombre de variables qu'on cherche leur importance , sincèrement je n'arrive pas à interprèter cette erreur , je souhaite que vous comprenez mon problème rencontré mon professeur et dans l'attente de votre réponse

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Oui en effet, je vous invite a voir le code que j'ai mis sur Github pour comparer avec le votre, vous aurez alors un code qui fonctionne. Bonne chance !

  • @ambre6550
    @ambre6550 3 роки тому

    Bonjour,
    Je sais que ça doit être vieux pour la plupart d'entre vous mais je me lance: quand j'applique la fonction imputation (10:39), je me retrouve avec aucune donnée car il y avait des NaN quasiment partout... Est ce que vous savez d'où ça peut venir?
    Merci :) et merci pour ces super vidéos Guillaume!

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      Bonjour !
      Oui c'est normal on se retrouve avec tres peu de données dans ce projet, mais comme je l'explique, je prefere toujours commencer avec peu de données, mais des données completes. Si ensuite je vois qu'il nous manque des données, alors je travaille la dessus pour en rajouter.

    • @ambre6550
      @ambre6550 3 роки тому

      @@MachineLearnia merci pour votre réponse, mais je me retrouve vraiment avec 0 données, alors que vous en avez environ 500 je crois...

    • @MachineLearnia
      @MachineLearnia  3 роки тому +1

      @@ambre6550 Hm oui étrange en effet. Je t'invite a voir le code que j'ai mis sur github.

    • @ambre6550
      @ambre6550 3 роки тому

      @@MachineLearnia merci! 😊

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      @@ambre6550 De rien :D

  • @hananeouach976
    @hananeouach976 4 роки тому

    Bonjour, je vous remercie pour cette video et d'ailleurs j'ai le meme probleme dans mon stage de fin d'étude du coup ça m'a donnée beaucoup d'idées sinon est ce qu' à votre avis on ne doit pas penser aussi à des méthodes d'équilibrage de base de données ?
    Merci.

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Oui, vous pouvez utiliser SMOTE disponible dans la librairie imblearn. J'ai fait un tutoriel sur Tipeee, mais si vous ne me suivez pas sur tipeee, pas de panique, il n'est pas compliqué a prendre en main.

    • @hananeouach976
      @hananeouach976 4 роки тому

      @@MachineLearnia ah okay merciii beaucoup

  • @boudehoucherahma8083
    @boudehoucherahma8083 4 роки тому

    Bonjour Guillaume ,
    J'ai essayé d'exécuter la fonction d'évaluation comme vous l'avez définit mais malheureusement un message d'erreur de : found input variables with inconsistent numbers of samples !
    Encore une fois bravo pour le formidable travaille que vous faites

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Oula je ne vois pas d'ou vient le probleme, je t'invite a regarder mon code sur Discord, et venir nous parler sur Discord pour regler le pb.

    • @boudehoucherahma8083
      @boudehoucherahma8083 4 роки тому

      Merci de m'avoir répondue Guillaume , j'ai finalement règle le problème , je ne me suis pas rendue compte que j'avais sélectionné Y_train avec Ypredict.
      Chose qui est toute a fait normale d'avoir une erreur de taille .
      Merci énormément pour tous le travaille que tu fais , j'ai changé de route d'ingénierie au machine learning sur Paris saclay , et je peux vous dire que vos vidéos m'ont permit de voir au plus clair le rôle d'un data scientist.
      Je ne vous remercierais jamais assez pour le beau travaille que vous faites .
      J'ai hâte de recevoir les notifications des vidéos du deep learning.

    • @boudehoucherahma8083
      @boudehoucherahma8083 4 роки тому

      Désolé , je me suis permise de vous totoye *

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Pas de problème, j'ai moi aussi tutoyé par inattention. Personnellement ca ne me dérange pas les gens peuvent me tutoyer ^^
      A bientôt :)

    • @boudehoucherahma8083
      @boudehoucherahma8083 4 роки тому

      @@MachineLearnia Merciii

  • @melodie6948
    @melodie6948 4 роки тому

    Bonjour Guillaume, merci encore pour toutes ces vidéos!!!
    J'ai une question (rien à voir avec la vidéo dsl) est ce que tu sais quand tu vas sortir les vidéos sur les réseaux de neurone? Et tu vas travailler avec quelle(s) bibliothèque(s) de python? Merci bcp!

    • @MachineLearnia
      @MachineLearnia  4 роки тому +2

      Je vais faire des vidéos sur les réseaux de neurones juste apres la fin de cette série ! Et je vais commencer par utiliser Keras (pour les débutants) puis au fur et a mesure que le contenu deviendra plus technique, j'utiliserai Tensorflow, et Pytorch

    • @melodie6948
      @melodie6948 4 роки тому

      @@MachineLearnia okk super merci bcp !!!!
      Hâte de voir tt ça !!!😃

  • @axelrasse937
    @axelrasse937 4 роки тому

    Salut Guillaume, petite question:
    Pourquoi tu n'utilises pas des transformateurs de sklearn pour l'encodage et l’imputation ?
    Merci encore pour le super contenu, la méthode pour appréhender le problème est top !

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Tres bonne question ! Je voulais montrer comment le faire avec pandas, tout simplement, car c'est parfois plus efficace que sklearn (en tout cas pour l'encodage!)

    • @axelrasse937
      @axelrasse937 4 роки тому

      @@MachineLearnia merci pour la réponse ! Une autre petite question, après j’arrête promis 😅
      A l'aide de ta procédure d’évaluation tu utilises un arbre de décisions pour évaluer si tes idées ont un impact positif sur ton modèle. Ainsi à la fin, tu en déduit un sous groupe de paramètres qui optimise tes prédictions. Ma question est la suivante : Est ce que la forme finale de ton jeu de paramètres sera aussi "efficace" sur des modèles différents ?

  • @mohamedseddik965
    @mohamedseddik965 4 роки тому

    Salut Guillaume, je constate que le meilleur modèle est KNN mais il nous manque plus des données

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Je suis d'accord qu'il manque des données. Maintenant en ce qui concerne KNN, je ne dirais pas que c'est le meilleur modele, mais cela dépend bien sur de ce que tu as mis dans ta pipeline. Chaque modélisation se vaut.

  • @elmoukriel
    @elmoukriel Рік тому

    c'est le même problème! c'est toujours compliqué et je me dis qu'on devrait pas avoir besoin normalement de tout ça

  • @tezkrattroza5008
    @tezkrattroza5008 3 роки тому

    Un grand merci ne suffit pas . Je vous assure . Mais permettez moi de vous poser une question . Si mes variables ne suivent pas un loi normale . Comment procéder . ?

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      On peut les normaliser avec diverses méthodes : cox box, log, etc. Mais ca n'est pas toujours nécessaire !

  • @brahimakone1860
    @brahimakone1860 4 роки тому

    Bonjour @Machinelearnia, encore une fois merci. Je voudrais savoir si vous mettrez les vidéos 23, 24, 25 et 26 sur github car elle n'y sont pas.

  • @YePapoteGlobal
    @YePapoteGlobal 4 роки тому

    Hé bé très intéressant. Merci

  • @haimensoussi3193
    @haimensoussi3193 4 роки тому

    BRAVO ET MERCIIII

  • @anjarahasina_
    @anjarahasina_ 2 роки тому

    Salut! Tu es l'un des meilleurs profs que je connais. J'ai tellement progressé en un temps record. Etant autodidacte, que me recommanderais-tu pour compléter mon apprentissage et viser une carrière dans le domaine? J'ai envie de me reconvertir. Merci!

    • @aitaya
      @aitaya Рік тому

      Il existe une interview dans podcast où il a répondu à cette même question. Pas d'un aspect technique mais plutôt d'un point de vue motivation. Je la recommande vivement parce-que sa réponse était la meilleur et elle m'a aidé à bien penser avant de 'reconvertir'

    • @anjarahasina_
      @anjarahasina_ Рік тому

      @@aitaya avez-vous encore le lien svp?

  • @shootsoccer948
    @shootsoccer948 3 роки тому

    Bonjour Guillaume, moi j'ai un résultat sur le premier traintest = 54 cas negatifs avec 0,83% de précision, 100% de recall
    et 11 cas positifs avec 100% de précision et 1 cas de recall 0.08%
    Pense tu que j'ai fait une erreur car je n'ai pas le même score que sur la vidéo et j'ai constaté aussi que ton score est différents aussi du code sur GitHub. Merci de votre reponse!

    • @MachineLearnia
      @MachineLearnia  3 роки тому

      Non tu n'as pas fait d'erreur, c'est lié a la facon dont les données sont mélangées dans le train-set, mais aussi la facon dont les modeles que l'on utilise sont Initialisé (au hasard). Il y a toujours un niveau de variation. Le meilleur moyen pour "stabiliser" cette variation est d'utiliser une cross-validation pour effectuer des entrainement/evaluation sur plusieurs découpe du dataset, comme on l'a vu plus tot dans la formation :)

  • @TheRemiRODRIGUES
    @TheRemiRODRIGUES 4 роки тому

    Merci !

  • @aliounendiaye265
    @aliounendiaye265 4 роки тому

    envie de devenir expert en ML et j'espère y arrivé avec vos vidéos

    • @MachineLearnia
      @MachineLearnia  4 роки тому +1

      Vous y arriverez, je ferai tout pour vous aider !

    • @aliounendiaye265
      @aliounendiaye265 4 роки тому

      @@MachineLearnia c'est vraiment gentil ...vous etes le meilleur

  • @ineschtioui3776
    @ineschtioui3776 4 роки тому

    bonjour guillaume svp pouver vous m expliquer ce code :
    iteration=range(20)
    precision=[]
    for i in range(20):
    precision.append(97)
    from math import *
    test2=[]
    train2=[]
    test1=[]
    train1=[]
    for i in range(20):
    test1.append(ceil(score_test2[i]*100))
    train1.append(ceil(score_train2[i]*100))
    test2.append(ceil(score_test[i]*100))
    train2.append(ceil(score_train[i]*100))

    • @MachineLearnia
      @MachineLearnia  4 роки тому

      Il me faudrait savoir ce que fait la fonction score_train2 et score_test2 etc. pour pouvoir répondre a votre question. J'ai vu que vous avez posez la question sur le Discord, je propose donc qu'on continue a en parler la-bas, ca sera plus facile !

  • @youssoufcamara5648
    @youssoufcamara5648 2 роки тому

    En general on prend des exemples jouets sinon c'est trop pretentieux comme dataset