Fala galera! Gostou do vídeo? Deixa a sua curtida e se inscreve no canal! ► Para baixar o Minicurso de Python, acesse: pages.hashtagtreinamentos.com/inscricao-minicurso-python-automacao-org?origemurl=hashtag_yt_org_minipython_tYkbNV0onGk ► Para baixar os arquivos da aula, acesse: pages.hashtagtreinamentos.com/arquivo-python-1YzQcuoZvnbgvV5fzEybxZtUjkT8_QC_a?origemurl=hashtag_yt_org_planilhapyt_tYkbNV0onGk ► Para instalar o Jupyter, acesse: ua-cam.com/video/_eK0z5QbpKA/v-deo.html ► Blog: bit.ly/2MRUZs0 ► UA-cam: bit.ly/3c0LJQi ► Instagram: bit.ly/3o6dw42 ► Facebook: bit.ly/3qGtaF2
O polars é muito bom pra trabalhar com big data, o dask é uma outra solução palpável, mas a melhor de todas é o spark, podia fazer um vídeo com o polars
Bom dia equipe! Parabéns Lira! Me esclareça uma dúvida: foi necessário baixar todo o banco de dados ANTES de iniciar as análises das primeiras 10.000 linhas? Sou aluno de Análise e desenvolvimento! Desde já, grato pela atenção!!
Como vc não mencionou, acredito que esteja usando o pandas na versão antiga (v1). Ainda não testei, mas a versão 2.0 do pandas está bem melhor. Foi nessa que vc fez o video?
Colega. E se eu quiser medir a quantidade de memória para cada chunk do large.csv para tentar usar o disponível da minha memória ram ?Explico, se eu settar um chunk de 10.000 e isso representar um valor muito baixo da minha ram interna? Se eu quiser aplicar aumentos do tamanho do chunk até chegar a um valor ideal em relação ao meu hardware ?Como fazer ?
Olá pessoal do Hashtag. Como professor, sei que essas "buzzwords" de ciências de dados possuem diversas e, às vezes, conflitantes definições. Mas já vi diversas literaturas que dizem que para ser Big Data, é preciso ter aqueles cinco "Vs": volume, velocidade, variedade, veracidade e valor. Portanto, uma base de dados tradicional (com linhas, colunas e valores alfanuméricos) não poderia ser considerada "Big Data" ainda que tivesse trilhões de observações. Ou seja, "dados grandes" se torna, neste caso, uma má tradução, pois não é necessariamente Big Data o que temos. Neste vídeo, vejo que vocês chamam de Big Data essas bases de dados enormes. Existe alguma literatura que diz isso?
Desculpa Lira, mas isso não é Big Data, passa longe de ser Big Data. Pandas não foi feito para BigData. Melhor falar sobre DASK então, Spark ou Hadoop. E se quiser velocidade para Big Data usa o CUdf da Nvidia, para usar o poder de processamento todo em GPU.
Fala galera!
Gostou do vídeo? Deixa a sua curtida e se inscreve no canal!
► Para baixar o Minicurso de Python, acesse: pages.hashtagtreinamentos.com/inscricao-minicurso-python-automacao-org?origemurl=hashtag_yt_org_minipython_tYkbNV0onGk
► Para baixar os arquivos da aula, acesse: pages.hashtagtreinamentos.com/arquivo-python-1YzQcuoZvnbgvV5fzEybxZtUjkT8_QC_a?origemurl=hashtag_yt_org_planilhapyt_tYkbNV0onGk
► Para instalar o Jupyter, acesse: ua-cam.com/video/_eK0z5QbpKA/v-deo.html
► Blog: bit.ly/2MRUZs0
► UA-cam: bit.ly/3c0LJQi
► Instagram: bit.ly/3o6dw42
► Facebook: bit.ly/3qGtaF2
Muito bom!
Esse vídeo deu vários insights para otimizar alguns processos que tenho!
Show, Lira.
Obrigada pela aula!
muito boa a aula. bem objetiva. obg!
Muito bom
Parabéns.
Vc se garante demais!
Faz um video de Spark e hadoop
Muito obrigado. Excelente!
que aulão heim!
Gostei! Faz um vídeo com essa mesma base de dados usando o spark agora
O polars é muito bom pra trabalhar com big data, o dask é uma outra solução palpável, mas a melhor de todas é o spark, podia fazer um vídeo com o polars
Já brinquei um pouco com o dask, mas não tive muito sucesso
Ótimas dicas, valeu!
Excelente!
A balança entre o Time Complexity e o Space Complexity
Me ajudou bastante!
Bom dia equipe! Parabéns Lira! Me esclareça uma dúvida: foi necessário baixar todo o banco de dados ANTES de iniciar as análises das primeiras 10.000 linhas? Sou aluno de Análise e desenvolvimento! Desde já, grato pela atenção!!
Outra possibilidade: utilizar a biblioteca Polaris ao invés do Pandas e torcer para que a próxima atualização dessa se torne parecida com aquela.
Como vc não mencionou, acredito que esteja usando o pandas na versão antiga (v1). Ainda não testei, mas a versão 2.0 do pandas está bem melhor. Foi nessa que vc fez o video?
Show():Bola()
Colega. E se eu quiser medir a quantidade de memória para cada chunk do large.csv para tentar usar o disponível da minha memória ram ?Explico, se eu settar um chunk de 10.000 e isso representar um valor muito baixo da minha ram interna? Se eu quiser aplicar aumentos do tamanho do chunk até chegar a um valor ideal em relação ao meu hardware ?Como fazer ?
Já fez uma medição do large.csv com uma importação para um DB ?? Tvz um DB faça um gerenciamento melhor
Opa ... fui o 401! kkk
Olá pessoal do Hashtag. Como professor, sei que essas "buzzwords" de ciências de dados possuem diversas e, às vezes, conflitantes definições. Mas já vi diversas literaturas que dizem que para ser Big Data, é preciso ter aqueles cinco "Vs": volume, velocidade, variedade, veracidade e valor. Portanto, uma base de dados tradicional (com linhas, colunas e valores alfanuméricos) não poderia ser considerada "Big Data" ainda que tivesse trilhões de observações. Ou seja, "dados grandes" se torna, neste caso, uma má tradução, pois não é necessariamente Big Data o que temos. Neste vídeo, vejo que vocês chamam de Big Data essas bases de dados enormes. Existe alguma literatura que diz isso?
Desculpa Lira, mas isso não é Big Data, passa longe de ser Big Data. Pandas não foi feito para BigData. Melhor falar sobre DASK então, Spark ou Hadoop. E se quiser velocidade para Big Data usa o CUdf da Nvidia, para usar o poder de processamento todo em GPU.