Classificação e regressão com XGBoost

Поділитися
Вставка
  • Опубліковано 9 лют 2025
  • Já dizia o ditado: diga-me o que usas e saberei que cientista de dados és! XGBoost é o mais utilizado pelos melhores cientistas de dados do mundo! O Let’s Data te mostra como fazer uma classificação e regressão com esse pacote tão poderoso, o queridinho dos Kaggle Grandmasters ao seu alcance!
    Ao final deste vídeo você será capaz de:
    ☑️ Explicar o que são ensembles
    ☑️ Enumerar tipos de ensembles
    ☑️ Descrever as características de algoritmos de boosting
    ☑️ Detalhar as principais características do XGBoost
    ☑️ Implementar uma regressão e uma classificação usando XGBoost
    Clica logo no play e no like :)
    Não se esqueça de se inscrever no canal para assistir aos próximos vídeos!
    ---------
    ⬇️ Download do eBook "Como se Tornar um Cientista de Dados?": ebook.letsdata...
    ✅ Jornada Cientista de Dados! Deixe seu email para saber quando houver novas turmas: www.letsdata.a...
    ---------
    Leon Sólon é bacharel em Ciência da Computação e mestre em Ciência de Dados pela Universidade de Brasília - UnB. Possui mais de 20 anos de experiência na área de TI e mais há mais de 5 anos como cientista de dados. Atualmente é Auditor-Fiscal da Receita Federal (atuando como cientista de dados) e cientista de dados da startup Bludworks.
    ----------
    📸 Nos siga no Instagram: / letsdata.ai
    🐦 Nos siga no Twitter: / letsdataai
    Site: letsdata.ai
    LinkedIn: / lets-data
    ✉️ E-mail: contato@letsdata.ai
    ----------
    Ouça nosso podcast nos principais players:
    🟣 Spotify: open.spotify.c...
    🟣 iTunes: podcasts.apple...
    🟣 Google Podcast: podcasts.googl...
    🟣 Deezer: www.deezer.com...
    #xgboost #dados #datascience

КОМЕНТАРІ • 49

  • @germanojorge349
    @germanojorge349 2 роки тому +8

    Pra calcular o RMSE no sklearn é só mudar o parâmetro 'squared' do mean_squard_error para False, como em:
    sklearn.metrics.mean_squared_error(y_true, y_pred, *, sample_weight=None, multioutput='uniform_average', squared=False)
    Obrigado pelas aulas! um abraço.

    • @letsdataAI
      @letsdataAI  2 роки тому

      Boa, Germano!! Valeu, mestre!

  • @thiagotavares2384
    @thiagotavares2384 2 роки тому +2

    Parabéns, professor. Ótima aula.

  • @wesley_breno
    @wesley_breno Рік тому +1

    Adorei o conteudo!!! Didatica incrivel! 😁

    • @letsdataAI
      @letsdataAI  Рік тому

      Valeu demais, Wesley!! Aproveite que estamos com evento aberto, entra no letsdata.ai e participe! Abraços!

  • @DDarkoBR
    @DDarkoBR 2 роки тому +3

    Professor, uma sugestão é fazer uma aula de xgboost para séries temporais.

    • @letsdataAI
      @letsdataAI  2 роки тому +2

      Ótima sugestão!!

    • @DDarkoBR
      @DDarkoBR 2 роки тому +1

      @@letsdataAI Graças a essa aula consegui aplicar com gs o xgboost no meu trabalho. Abs.

    • @letsdataAI
      @letsdataAI  2 роки тому

      Que massa, Cairo!!! Felizes de saber que ajudou.

  • @riptorforever2
    @riptorforever2 2 роки тому +1

    Quando gosto muito da aula, ainda que eu não tenha nada relevante pra comentar, cedo a irrelevância mesmo só para contribuir com o algoritmo de recomendação do youtube.. Aulas fantásticas! Apesar de superficial, dá uma 'visão de águia' sobre o escopo da lib, a organizacao da documentacao e a praticidade do uso ^^

    • @letsdataAI
      @letsdataAI  2 роки тому

      Valeu demais pela força!!!

  • @orrafaellis
    @orrafaellis 2 роки тому +1

    Muito boa a aula! Obrigado!

  • @edwardsouza7603
    @edwardsouza7603 2 роки тому +1

    Parabéns pelo vídeo! Principalmente pela "canja" de "we are the champions". kkk

  • @guilhermemartins9824
    @guilhermemartins9824 2 роки тому +1

    Aula muito boa!

  • @maikerodrigo4249
    @maikerodrigo4249 2 роки тому +1

    Show de bola!

  • @guilhermeribeiro1870
    @guilhermeribeiro1870 3 місяці тому

    Ótima aula prof, mas uma coisa que me deu dúvida é, como utilizar pra prever o consumo de um novo carro?

    • @letsdataAI
      @letsdataAI  2 місяці тому

      Opa! Você usaria o predict do modelo

  • @RafaelRivetti
    @RafaelRivetti Рік тому +1

    Já tem vídeo de implementação para séries temporária? Se não tiver, faz por favor!! Seria legal usar o preço de ações em bolsa de valores. Abraço!

    • @letsdataAI
      @letsdataAI  Рік тому

      Tem vídeo de séries temporais! Depois nos diga se gostou!

  • @tiaofilho123
    @tiaofilho123 2 роки тому +1

    Muito boa a aula, León. Parabéns pela didática simples e assertiva.👍🏼 Agora só um pequeno detalhe, na parte do consumo dos veículos o de valor "mpg" máximo (46,6) seria o mais econômico e o mínimo (9,0) é que seria o "Hummer"! Você falou o contrário 😉. Abs.

    • @letsdataAI
      @letsdataAI  2 роки тому

      Valeu, Tião!! Verdade! Mais milhas por galão, mais econômico, obrigado!

  • @benjaminrondonneto6377
    @benjaminrondonneto6377 Рік тому +1

    Vc possue algum curso sobre o tema de analise de dados no panda?

    • @letsdataAI
      @letsdataAI  Рік тому

      Tudo bem, mestre? Temos um programa educacional completo, inclui pandas para análise de dados:
      www.letsdata.ai/a-jornada

    • @benjaminrondonneto6377
      @benjaminrondonneto6377 Рік тому

      @@letsdataAI muito obrigado... Estou finalizando o curso introdutório sobre python e já irei me inscrever no seu curso. Quero muito aprender sobre calibragem/otimização de parâmetros para modelos preditivos.

  • @orafaelgf
    @orafaelgf 2 роки тому +2

    Parabéns pelo vídeo e didática.
    Tô fazendo uma maratona no canal e ainda não encontrei algum modelo de classificação onde foi preciso balancear as classes. Caso tenha, pode indicar, por favor? Caso não, fica sugestão de vídeo.
    Abs e sucesso ao canal.

    • @letsdataAI
      @letsdataAI  2 роки тому +2

      Valeu, Rafael!! Boa sugestão! A gente aqui advoga por não balancear as classes por conta de muitas evidências que não melhoram a performance do modelo e ainda se corre um grande risco de data leakage. Nossa sugestão é escolher bem uma métrica que puna mais os erros na classe minoritária. Um ótimo assunto para um vídeo, vai entrar na lista! :)

    • @orafaelgf
      @orafaelgf 2 роки тому +1

      @@letsdataAI legal, entendi. Vou estudar mais sobre leakages e tentar descobrir modelos que lidam bem com o desbalanceamento de dados. Obrigado e sucesso.

    • @guimaraesalysson
      @guimaraesalysson 2 роки тому +2

      Você faz por meio do parâmetro scale_pos_weight, mas é melhor usar somente nos casos em que for MUITO desbalanceado (ex. 5% x 95%). Nos outros modelos comuns você tem que balancear com undersample/oversample e treinar nessa base, mas tem essa questão do data leakage

  • @lucasfescina
    @lucasfescina Рік тому +1

    Alguém poderia me dizer porque não precisa usar kfold nesse crossval score

    • @letsdataAI
      @letsdataAI  Рік тому +2

      Se não passar parâmetro o default é 5-fold :)

  • @guimaraesalysson
    @guimaraesalysson 2 роки тому +1

    Por que transformar o target em variável quant. discreta na classificação?

    • @letsdataAI
      @letsdataAI  2 роки тому +1

      No cross validate a API do XGBoost do scikit learn dá um erro porque ele transforma no fit mas não no predict. Deve ter outro jeito de corrigir, mas essa foi a opção mais simples que achamos.

  • @RafaelRivetti
    @RafaelRivetti 9 місяців тому

    O bootstrap pode gerar problemas em séries temporais no sentido de alterar pontos de dados que precisam obedecer uma sequência (ordem) temporal?
    Isso seria um problema para modelos de bagging (como Random Forest) ao serem usados em séries financeiras como ações, butcoin, etc, alterando os pontos de dados na reamostragem?

    • @letsdataAI
      @letsdataAI  9 місяців тому +1

      Excelente dúvida, Rafael, fez a gente matutar um bocado aqui 😂
      Pode sim!! Como as amostras usadas no bagging são randômicas, podemos perder informação que tenha relações temporais. Não é comum tratar isso e acabamos “aceitando” porque essa problema não inviabiliza a utilização dos modelos (como seria o caso de overfitting, por exemplo).
      Pra resolver tem que mudar a forma de amostragem, o que normalmente não é parametrizado nos principais pacotes. Ou seja: tem que fazer “na mão”.

  • @ederson.madruga
    @ederson.madruga 2 роки тому +1

    León, excelente aula. Obrigado.
    Vocês irão disponibilizar o notebook?

    • @letsdataAI
      @letsdataAI  2 роки тому +1

      Mestre Ederson! Repositório no ar! :)

    • @ederson.madruga
      @ederson.madruga 2 роки тому +1

      @@letsdataAI valeu LéON.

    • @tiaofilho123
      @tiaofilho123 2 роки тому +1

      @@letsdataAI . León, onde fica o repositório deste notebook da aula?

    • @letsdataAI
      @letsdataAI  2 роки тому

      Aqui!!
      github.com/letsdata

  • @anacarolina6700
    @anacarolina6700 2 роки тому +1

    boa tarde, professor. Esse notebook tá disponível em algum lugar pra gente baixar?

    • @letsdataAI
      @letsdataAI  2 роки тому +1

      Tá na mão:
      github.com/letsdata/gradient-boosting-com-xgboost

    • @anacarolina6700
      @anacarolina6700 2 роки тому

      @@letsdataAI muito obrigada!!

  • @nandojau1
    @nandojau1 Рік тому +1

    esse canal é PIÇA

    • @letsdataAI
      @letsdataAI  Рік тому

      😂 valeu demais! Conte com a gente