Previsões de Séries Temporais com XGBoost

Поділитися
Вставка
  • Опубліковано 23 лис 2024

КОМЕНТАРІ • 7

  • @mrnsdatascience
    @mrnsdatascience Місяць тому

    Parabéns pelo vídeo! Uma dúvida em relação a séries temporais e especificamente usando o XGBoost: O menor dado de Lag são 7 dias. É possível fazer previsões para janelas de tempo maior que 7 dias?
    Pq para lag7, a partir de 7 dias quais são os dados que vão ser utilizados como base pro modelo? O mesmo se aplica a lag14. A partir de 14 dias, quais serão os dados utilizados no modelo? E assim sucessivamente...
    Nesse caso, como o dataset é completo, temos todos os dados de Lag no dataset de treino e a previsão acontece normalmente. Mas para fazer previsões de fato para o futuro, como fica esse aspecto? Porque para mais de 7 dias não temos dados, e assim sucessivamente como foi falado no parágrafo 2. Como funciona para o modelo fazer essas previsões?

  • @JoaoVictor-ct5cg
    @JoaoVictor-ct5cg Місяць тому +1

    Rapaz acertou logo no meu tema favorito kkkkkkkkkkkkkkkk, ótimo conteúdo como sempre Yukio, e esse vídeo tirou algumas dúvidas que eu tava tendo e que tavam me travando em um projeto que estou pra lançar. Muito obrigadooooo

  • @SamoraDc
    @SamoraDc Місяць тому

    Muito bom achei interessante a estrategia de feature selection. XGBoost é um baita algoritmo, tanto pra regressão, quanto pra classificação, mas nunca usei em séries temporais. Nesse caso o R² deve ter dado esse valor, justamente com o MAE e o MSE ambos muito alto, pois muito provavelmente os dados não são estacionários, um teste de Dickey Fuller aumentado ia ajudar a ver isso, daí uma transformação logarítmica ou aplicar um diff() ia ajudar. Sei que o vídeo é mais pra mostrar o modelo para séries temporais e como aplicar, pois a ordem importa dos dados importa nas séries, mas fazer limpeza de dados e o feature selection antes do split não geraria data leakege? Só uma dúvida sincera mesmo. Abraços!

    • @universidade-dos-dados
      @universidade-dos-dados  Місяць тому +2

      Depende de qual limpeza. Por exemplo, num problema de dados cross sectional não poderia imputar missing antes do split, porque ele usaria informações do teste no treino. No caso ali, eu peguei a informação da lag só, entao não teria problema, ao meu ver

    • @SamoraDc
      @SamoraDc Місяць тому

      Ahhh sim! Agora entendi, realmente faz muito sentido, muito obrigado pela explicação!

  • @LucasEduardoPereiraTeles
    @LucasEduardoPereiraTeles Місяць тому +1

    Sobre a features, eu não entendi bem os lags, reassiste essa parte e ainda não entendi, mas o uso de janelas temporais também é uma opção né?

    • @diogobarreto4407
      @diogobarreto4407 4 дні тому

      Ele busca encontrar um padrão de consumo no dia da semana basicamente. Se por exemplo ele tem um dado de uma quarta feira, ele criou features para olhar o valor da target na quarta feira da semana passada (7 dias atrás), semana retrasada (14 dias atrás) e assim vai.