Parabéns pelo vídeo! Uma dúvida em relação a séries temporais e especificamente usando o XGBoost: O menor dado de Lag são 7 dias. É possível fazer previsões para janelas de tempo maior que 7 dias? Pq para lag7, a partir de 7 dias quais são os dados que vão ser utilizados como base pro modelo? O mesmo se aplica a lag14. A partir de 14 dias, quais serão os dados utilizados no modelo? E assim sucessivamente... Nesse caso, como o dataset é completo, temos todos os dados de Lag no dataset de treino e a previsão acontece normalmente. Mas para fazer previsões de fato para o futuro, como fica esse aspecto? Porque para mais de 7 dias não temos dados, e assim sucessivamente como foi falado no parágrafo 2. Como funciona para o modelo fazer essas previsões?
Rapaz acertou logo no meu tema favorito kkkkkkkkkkkkkkkk, ótimo conteúdo como sempre Yukio, e esse vídeo tirou algumas dúvidas que eu tava tendo e que tavam me travando em um projeto que estou pra lançar. Muito obrigadooooo
Muito bom achei interessante a estrategia de feature selection. XGBoost é um baita algoritmo, tanto pra regressão, quanto pra classificação, mas nunca usei em séries temporais. Nesse caso o R² deve ter dado esse valor, justamente com o MAE e o MSE ambos muito alto, pois muito provavelmente os dados não são estacionários, um teste de Dickey Fuller aumentado ia ajudar a ver isso, daí uma transformação logarítmica ou aplicar um diff() ia ajudar. Sei que o vídeo é mais pra mostrar o modelo para séries temporais e como aplicar, pois a ordem importa dos dados importa nas séries, mas fazer limpeza de dados e o feature selection antes do split não geraria data leakege? Só uma dúvida sincera mesmo. Abraços!
Depende de qual limpeza. Por exemplo, num problema de dados cross sectional não poderia imputar missing antes do split, porque ele usaria informações do teste no treino. No caso ali, eu peguei a informação da lag só, entao não teria problema, ao meu ver
Ele busca encontrar um padrão de consumo no dia da semana basicamente. Se por exemplo ele tem um dado de uma quarta feira, ele criou features para olhar o valor da target na quarta feira da semana passada (7 dias atrás), semana retrasada (14 dias atrás) e assim vai.
Parabéns pelo vídeo! Uma dúvida em relação a séries temporais e especificamente usando o XGBoost: O menor dado de Lag são 7 dias. É possível fazer previsões para janelas de tempo maior que 7 dias?
Pq para lag7, a partir de 7 dias quais são os dados que vão ser utilizados como base pro modelo? O mesmo se aplica a lag14. A partir de 14 dias, quais serão os dados utilizados no modelo? E assim sucessivamente...
Nesse caso, como o dataset é completo, temos todos os dados de Lag no dataset de treino e a previsão acontece normalmente. Mas para fazer previsões de fato para o futuro, como fica esse aspecto? Porque para mais de 7 dias não temos dados, e assim sucessivamente como foi falado no parágrafo 2. Como funciona para o modelo fazer essas previsões?
Rapaz acertou logo no meu tema favorito kkkkkkkkkkkkkkkk, ótimo conteúdo como sempre Yukio, e esse vídeo tirou algumas dúvidas que eu tava tendo e que tavam me travando em um projeto que estou pra lançar. Muito obrigadooooo
Muito bom achei interessante a estrategia de feature selection. XGBoost é um baita algoritmo, tanto pra regressão, quanto pra classificação, mas nunca usei em séries temporais. Nesse caso o R² deve ter dado esse valor, justamente com o MAE e o MSE ambos muito alto, pois muito provavelmente os dados não são estacionários, um teste de Dickey Fuller aumentado ia ajudar a ver isso, daí uma transformação logarítmica ou aplicar um diff() ia ajudar. Sei que o vídeo é mais pra mostrar o modelo para séries temporais e como aplicar, pois a ordem importa dos dados importa nas séries, mas fazer limpeza de dados e o feature selection antes do split não geraria data leakege? Só uma dúvida sincera mesmo. Abraços!
Depende de qual limpeza. Por exemplo, num problema de dados cross sectional não poderia imputar missing antes do split, porque ele usaria informações do teste no treino. No caso ali, eu peguei a informação da lag só, entao não teria problema, ao meu ver
Ahhh sim! Agora entendi, realmente faz muito sentido, muito obrigado pela explicação!
Sobre a features, eu não entendi bem os lags, reassiste essa parte e ainda não entendi, mas o uso de janelas temporais também é uma opção né?
Ele busca encontrar um padrão de consumo no dia da semana basicamente. Se por exemplo ele tem um dado de uma quarta feira, ele criou features para olhar o valor da target na quarta feira da semana passada (7 dias atrás), semana retrasada (14 dias atrás) e assim vai.