Resumo do Vídeo: O vídeo é uma introdução ao Delta Lake e ao Apache Spark, abordando suas funcionalidades e como utilizá-los em conjunto para resolver problemas de processamento distribuído de big data. - 00:01 Neste vídeo, o palestrante faz uma introdução ao Delta Lake e ao Apache Spark, explicando como essas tecnologias se complementam. - 05:00 Este vídeo mostra como instalar o Delta Lake com o Apache Spark em seu ambiente e como importar o pacote "delta" para sua aplicação. - 10:02 Delta Lake é um tipo de dado muito utilizado para leitura e escrita, sendo mais rápido e permitindo armazenar dados com esquemas complexos. - 15:01 O Delta Lake possui recursos como verificação de esquema e evolução de esquema para garantir a qualidade e consistência dos dados. - 20:04 O Delta Lake resolve o problema de atributos nulos, permite fazer updates e deletes em nível de linha e é necessário usar o pacote Delta para isso. - 25:04 A atualização de registros na tabela Delta Lake pode ser feita usando o método "merge", e é possível especificar as colunas que serão atualizadas. - 30:05 Delta Lake tem um período de retenção padrão de 30 dias, mas pode ser configurado para períodos maiores ou menores. - 35:06 Este trecho explica como usar o Delta Lake com o Apache Spark e como especificar sua própria lógica para cada micro batch. Gerado por Monica AI. Adquira o seu agora! 👉 monica.im?r=480529
Cara, Parabéns pelo video e pela iniciativa, uma duvida que ficou pra mim, eu posso usar o Delta Lake dentro da AWS, onde em vez de eu gerar informações no formato parquet, posso gerar em Delta Lake ?
Muito bom! Parabéns! Um dúvida: Pq na hora de visualizar vc passa para Data Frame? Só é possível visualizar se for Data Frame? É necessário passar para Data Frame sempre que for visualizar?
Vitor, Boa tarde, voltei a ver ser vídeo e tenho uma duvida que eu gostaria de tirar com você: Imaginando um cenário: Onde eu tenho um arquivo .csv que tenho as vendas diarias: 01/07/2022 - 4 vendas para 4 clientes. (Id_Cliente = 1,2,3 e 4) 02/07/2022 - 10 vendas para 2 clientes. (Id_Cliente = 1 e2) 03/07/2022 - 14 vendas para 4 clientes. (Id_Cliente = 1 ). 04/07/2022 - 24 vendas para 3 clientes.. (Id_Cliente = 2) Eu processo os arquivos por dia e pensando em Time Travel, caso eu list o arquivo via Dataframe, os rtetornos serão: 01/07/2022 - 4 registros serão mostrados 02/07/2022 - 14 registros serão mostrados 03/07/2022 - 28 registros serão mostrados 04/07/2022 - 52 registros serão mostrados E no final dentro do Delta Lake conterá 52 linhas ?
Resumo do Vídeo:
O vídeo é uma introdução ao Delta Lake e ao Apache Spark, abordando suas funcionalidades e como utilizá-los em conjunto para resolver problemas de processamento distribuído de big data.
- 00:01 Neste vídeo, o palestrante faz uma introdução ao Delta Lake e ao Apache Spark, explicando como essas tecnologias se complementam.
- 05:00 Este vídeo mostra como instalar o Delta Lake com o Apache Spark em seu ambiente e como importar o pacote "delta" para sua aplicação.
- 10:02 Delta Lake é um tipo de dado muito utilizado para leitura e escrita, sendo mais rápido e permitindo armazenar dados com esquemas complexos.
- 15:01 O Delta Lake possui recursos como verificação de esquema e evolução de esquema para garantir a qualidade e consistência dos dados.
- 20:04 O Delta Lake resolve o problema de atributos nulos, permite fazer updates e deletes em nível de linha e é necessário usar o pacote Delta para isso.
- 25:04 A atualização de registros na tabela Delta Lake pode ser feita usando o método "merge", e é possível especificar as colunas que serão atualizadas.
- 30:05 Delta Lake tem um período de retenção padrão de 30 dias, mas pode ser configurado para períodos maiores ou menores.
- 35:06 Este trecho explica como usar o Delta Lake com o Apache Spark e como especificar sua própria lógica para cada micro batch.
Gerado por Monica AI. Adquira o seu agora! 👉 monica.im?r=480529
slc pai, maninho é monstrão nessas fita de delta lake chamaaaa
Parabéns pelo vídeo. Spark é tão foda cara..amo essa parada.
ótimo conteudo, parabéns !
Excelente vídeo, muito bem explicado
Muito obrigado Mateus! Em breve irei fazer um vídeos com as novas features do Delta!
Isso n foi uma aula, foi uma surra
Muito bom!
Cara, Parabéns pelo video e pela iniciativa, uma duvida que ficou pra mim, eu posso usar o Delta Lake dentro da AWS, onde em vez de eu gerar informações no formato parquet, posso gerar em Delta Lake ?
Muito bom! Parabéns!
Um dúvida: Pq na hora de visualizar vc passa para Data Frame? Só é possível visualizar se for Data Frame? É necessário passar para Data Frame sempre que for visualizar?
Vitor, Boa tarde, voltei a ver ser vídeo e tenho uma duvida que eu gostaria de tirar com você:
Imaginando um cenário:
Onde eu tenho um arquivo .csv que tenho as vendas diarias:
01/07/2022 - 4 vendas para 4 clientes. (Id_Cliente = 1,2,3 e 4)
02/07/2022 - 10 vendas para 2 clientes. (Id_Cliente = 1 e2)
03/07/2022 - 14 vendas para 4 clientes. (Id_Cliente = 1 ).
04/07/2022 - 24 vendas para 3 clientes.. (Id_Cliente = 2)
Eu processo os arquivos por dia e pensando em Time Travel, caso eu list o arquivo via Dataframe, os rtetornos serão:
01/07/2022 - 4 registros serão mostrados
02/07/2022 - 14 registros serão mostrados
03/07/2022 - 28 registros serão mostrados
04/07/2022 - 52 registros serão mostrados
E no final dentro do Delta Lake conterá 52 linhas ?
O dataset não existe mais... Podia atualizar o link