Manipulação de dados no R com Dplyr (Curso R para Machine Learning - Aula 5)

Поділитися
Вставка
  • Опубліковано 3 жов 2024
  • Como vimos na aula anterior, o tidyverse é composto por muitos pacotes, sendo um dos principais o Dplyr, que possibilida a manipulação de dados de maneira muito fácil, com funções intuitivas, inclusive lembrando a linguagem SQL.
    Links:
    dplyr.tidyvers...
    www.rdocumenta...
    github.com/rst...
    Acompanhe abaixo o resumo dessa aula:
    0:22 o que é o dplyr
    0:39 principais funções: mutate, select, filter, summarise, arrange e group_by
    2:20 cheatsheet dplyr (resumo do pacote)
    3:30 manipulação de observações
    3:40 manipulação de variáveis
    3:49 combinar tabelas: left_join, right_join, inner_join, full_join, semi_join e anti_join
    4:30 exemplo de utilização no RStudio
    7:08 criação do exemplo com filter, group_by e summarise
    9:30 visualização do resultado
    Próxima aula (Aula 6): • Organização de dados n...
    O curso completo de R para Machine Learning está organizado nessa página: didatica.tech/...
    E também nessa playlist: • R para Machine Learnin...

КОМЕНТАРІ • 21

  • @alsrod8898
    @alsrod8898 5 місяців тому

    Obrigado por compartilhar.
    A didática de vocês é muito boa... gostei.

  • @MyTree
    @MyTree 4 роки тому +2

    Po voces tem uma didática sensacional. Vocês podiam fazer um video sobre método de Student

  • @JamesBomdePapo
    @JamesBomdePapo 3 роки тому

    O operador pipe não funciona no Notebook Jupyter. Alguém sabe resolver isso?

  • @joaopauloalbuquerque5716
    @joaopauloalbuquerque5716 3 роки тому

    Uma pergunta (não é referente ao tema do vídeo). Não estou conseguindo importar dados mdb para o R statistics. Qual library vc me recomendaria????

  • @leonardobecker7285
    @leonardobecker7285 4 роки тому

    Da aula 4 para 5, como vocês fizeram para separar nome do carro e cilindradas? obrigado

  • @rdlima9
    @rdlima9 4 роки тому

    Olá, primeiramente gostaria de parabenizá-los pelos vídeos, gostei muito da "didática". Fechei as playlists relacionadas ao R e consegui absorver muito conteúdo.
    Tenho uma tabela em que na importação via "readr", na coluna 1 converti em datas e na coluna 12 em valores numéricos "double". são mais de 100 mil linhas e as datas se repetem, gostaria de sumarizar, deixando apenas 31 linhas (uma para cada dia do mês) e com a somatória de cada dia. Eu consegui filtrar somente as linhas com o valor da coluna 12 maior que zero, mas ao tentar aplicar a função "summarise", o sistema apresenta o erro "método não aplicável para 'summarise_' aplicado a um objeto de classe "Date". Pode me dar uma luz?

    •  4 роки тому +1

      Olá Ricardo. Acredito que este artigo possa lhe auxiliar: ro-che.info/articles/2017-02-22-group_by_month_r

    • @rdlima9
      @rdlima9 4 роки тому

      @ bem interessante mesmo! Ao usar o primeiro comando "floor_date" já consegui agrupar por dia! Obrigado!

  • @fernandarohrsetzer9257
    @fernandarohrsetzer9257 4 роки тому

    to com um baita problema, toda vez que executo o dplyr para calcular média, dp, mediana... ele mostra um erro.
    Error in UseMethod("group_by_") :
    no applicable method for 'group_by_' applied to an object of class "c('double', 'numeric')"
    já fiz de tudo e mesmo assim continua com esse erro. Alguém sabe?

    •  4 роки тому +1

      Olá. Qual o conteúdo da variável indicada no group_by?

  • @andreribeiro3476
    @andreribeiro3476 4 роки тому +1

    na parte do group_by eu gostaria de fazer a operação com os valores de todas as colunas, no seu caso você escolheu apenas o preço, é possível?

    •  4 роки тому +1

      Sim André. Neste exemplo, se você utilizar "summarise(mean(Preço), mean(Cilindradas), n())", será incluído o valor médio das cilindradas, e também a quantidade de carros selecionados em cada marca.

    • @andreribeiro3476
      @andreribeiro3476 4 роки тому

      @ Olá, obrigado por ter respondido. Mas no meu caso eu tenho uma planilha com 2484 colunas. Queria saber se é possível fazer com todas as colunas sem precisar colocar uma por uma.

    •  4 роки тому +4

      @@andreribeiro3476 Entendido! Neste caso, você pode utilizar a função "summarise_all()" que aplicará a função desejada a todas as variáveis. Em nosso exemplo ficaria "summarise_all(mean)".

    • @andreribeiro3476
      @andreribeiro3476 4 роки тому +1

      @ Mano, deu certo. Valeu cara. Vou continuar acompanhando seu trabalho.

  • @kaelbordallo642
    @kaelbordallo642 4 роки тому

    Olá! Vocês poderiam compartilhar a base de dados para que eu possa acompanhar daqui? Desde já, grato.

    •  4 роки тому

      Olá Kael, segue o link: didatica.tech/wp-content/uploads/2019/11/FipePrevAjustada.csv
      Na aula 3 está disponível para download a base bruta, que é transformada ao longo do curso até chegar neste ponto.

    • @leandrocosta1036
      @leandrocosta1036 4 роки тому

      @ Poderia disponibilizar o Script , por favor...pode ser dentro da plataforma do curso. Estou estudado pelo curso de ML para R

    •  4 роки тому +1

      @@leandrocosta1036 A ideia é que os alunos escrevam seus códigos, para ganhar familiaridade com a linguagem. Caso você já esteja habituado a escrever em R, envie um email para didaticatech@gmail.com que lhe enviaremos este script.

    • @natanalbuquerque1053
      @natanalbuquerque1053 2 роки тому

      @ na aula 3 separamos em apenas 5 colunas o banco de dados. Conforme as aulas vamos chegar as 7?