Ele fez o assunto parecer tão fácil mais tão fácil que até parece que eu aprendi a ler de novo, parabéns mestre, teu conteúdo é excelente. Mais um inscrito para o seu canal, valeuu!!
O poetry tem a documentação de instalação dele, mas basicamente o recomendado é instalar ele com o pipx (ele vai isolar o poetry em uma "venv" própria.
Opa @BaierleBR, fazer ETL usando Python no Colab é bem diferente de usar Spark. Enquanto o Python no Colab processa os dados de forma sequencial em uma única máquina, o Spark utiliza paralelismo distribuído, dividindo o trabalho entre vários nós de um cluster. Isso faz com que o Spark seja muito mais eficiente quando se trata de grandes volumes de dados. Em resumo, para pequenos datasets, o Python no Colab pode funcionar bem, mas para lidar com Big Data, o Spark é a escolha mais adequada.
Atualmente, estou aprendendo a trabalhar no ambiente Cloudera Hadoop. Lá utilizamos Hive e Impala para manipulação de dados. Posso também utilizar Apache Spark neste ambiente? Se sim, o curso de vocês "APACHE SPARK PARA ENGENHARIA DE DADOS" já seria suficiente para poder fazer as transformações neste ambiente?
Sim @louriveira, você pode usar Apache Spark no ambiente Cloudera Hadoop! O curso "APACHE SPARK PARA ENGENHARIA DE DADOS" é suficiente para aprender a fazer transformações de dados utilizando essa framework, embora não utilizamos esse ambiente, fazemos tudo local, em breve estaremos com conteúdo mais focado no uso do Apache Spark para Cloud.
Uma dúvida, eu tenho instalado no mac o java 21, é importante ser especificamente a versão 11 como mostra? E se sim, ter mais essa versão não vai atrapalhar a versão já instalada?
Tudo bem? O projeto do spark hoje tem suporte às versões 8/11/17 do Java. Você pode ter mais de uma versão instalada, mas precisa configurar suas aplicações para utilizar a versão correta.
Eu não costumo comentar vídeos no youtube mas esse vou ter que comentar pq me ajudou MUITO! obrigadA!
Didática sensacional!!!!
Obrigado!!
Show narrativa show de bola. Mil vezes melhor que as aulas da ALURA!
Parabéns pela aula, sua explicação é perfeita!
Parabéns Matheus, super aula, super organizado, show de didática
Ele fez o assunto parecer tão fácil mais tão fácil que até parece que eu aprendi a ler de novo, parabéns mestre, teu conteúdo é excelente. Mais um inscrito para o seu canal, valeuu!!
Conteúdo top da DataWay BR! Valeu Rossi!
Uma verdadeira aula!
Top. Parabens Matheus e sucesso ao canal.
Muito obrigado pelo vídeo! Bem didático!
Nós que agradecemos!
Muito boa didática!
Boa! Parabéns.
Excelente
Uau, parabéns pelo conteúdo! Muito bom.
Muito caprichado o conteúdo! Parabéns! Quais os detalhes para instalar do poetry? Tem que ser em uma venv ou no próprio sistema?
O poetry tem a documentação de instalação dele, mas basicamente o recomendado é instalar ele com o pipx (ele vai isolar o poetry em uma "venv" própria.
@@datawaybr Valeu! Deu certo agora e rodou liso. Eu estava instalando global e estava ferrando tudo. kkk
Uma duvida amigo, fazer o ETL com Python usando o Google Colab ou Jupyter Notebook não seria bom igual o spark? (Se conseguir me tirar essa duvida)
Opa @BaierleBR, fazer ETL usando Python no Colab é bem diferente de usar Spark. Enquanto o Python no Colab processa os dados de forma sequencial em uma única máquina, o Spark utiliza paralelismo distribuído, dividindo o trabalho entre vários nós de um cluster. Isso faz com que o Spark seja muito mais eficiente quando se trata de grandes volumes de dados. Em resumo, para pequenos datasets, o Python no Colab pode funcionar bem, mas para lidar com Big Data, o Spark é a escolha mais adequada.
Atualmente, estou aprendendo a trabalhar no ambiente Cloudera Hadoop. Lá utilizamos Hive e Impala para manipulação de dados. Posso também utilizar Apache Spark neste ambiente? Se sim, o curso de vocês "APACHE SPARK PARA ENGENHARIA DE DADOS" já seria suficiente para poder fazer as transformações neste ambiente?
Sim @louriveira, você pode usar Apache Spark no ambiente Cloudera Hadoop! O curso "APACHE SPARK PARA ENGENHARIA DE DADOS" é suficiente para aprender a fazer transformações de dados utilizando essa framework, embora não utilizamos esse ambiente, fazemos tudo local, em breve estaremos com conteúdo mais focado no uso do Apache Spark para Cloud.
parabéns pelo seu conteúdo, hoje estou tendo problemas com etl de bigdata, penso que o spark pode ajudar
Com certeza!!! O Apache Spark é extremamente recomendável para cenários de Big Data
ótima aula , onde eu encontro os links e o fluxo apresentado no vídeo ?
Olá
Você pode encontrar no nosso medium também
datawaybr.medium.com/do-zero-ao-pyspark-em-1h-4185005771e5
Uma dúvida, eu tenho instalado no mac o java 21, é importante ser especificamente a versão 11 como mostra? E se sim, ter mais essa versão não vai atrapalhar a versão já instalada?
Tudo bem? O projeto do spark hoje tem suporte às versões 8/11/17 do Java.
Você pode ter mais de uma versão instalada, mas precisa configurar suas aplicações para utilizar a versão correta.
no arquivo faltou o entry de "data" só pra avisar
Obrigado! Realmente estava faltando, adicionamos no post agora.
Agradecemos o feedback 🤩