Comment créer une architecture Data avec Databricks ? (Data Engineer System design interview)

Comment bâtir une équipe Data efficace ? Data Engineering Principles (partie 1)

Qu'est-ce que l'architecture d'entreprise?

🔥"СВОшник" РОЗНОСИТЬ шоу путіністів! Ведучий ШОКОВАНИЙ від цих СЛІВ #shorts

У ДЕТЕНЫША СТЕПЫ ИСЧЕЗ ГЛАЗИК

Что будет если украсть в магазине шоколадку 🍫

Comment design une architecture Data avec Snowflake/DBT ? (Data Engineer System design interview)

Data From Scratch - Willis

Переглядів 3 710

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 9 січ 2025

КОМЕНТАРІ • 32

@filmsreview8817 3 місяці тому ⁺¹
Bonjour Will, merci pour ta video, elle est vraiment concise neanmois j'ai quelques questions.
1-- Puisque tu utilises S3 comme source de stockage, n'est-il pas adequat de construire un data lake avec pour stockage S3 ?? je pense à un combo AWS Lake Formation + S3 ou alors AWS EMR + (Spark + Flink + Trino) + iceberg. Qu'en penses-tu ??
2-- Comment transmets tu les données de S3 vers Snowflake ? (à l'aide de kafka) ?
3-- N'est-il pas interessant de diposé d'une BD analytics et orienté colonne telle que Druid ??
4-- Data quality -- as-tu eu à tester great expectations ??
5 -- N'aurait-il pas de place pour du sematic layer dans cette architecture ??
Donnes moi ton avis sur ces diffents points stp
@DominiqueLenglet-b3d 8 місяців тому ⁺¹
Hello Willis je ne peux pas te répondre pour DBT de mon côté je gère la partie transformation avec Semarchy xdi et quant à ta question concernant sa capacités à gérer de fortes volumétrie cela dépend totalement de la capacités mémoires du runtime et de la performance du SGBD. Donc par exemple si tu es sur un linux on premises bases Postgres tu vas avoir de gros soucis par rapport à un runtime déployé sur GCP qui attaque une base bigquery, mais la contrepartie sera alors le coup de requetage sur bigquery.
@BigQueyrie 9 місяців тому ⁺¹
Bonne vidéo. De mon côté, j'aurais plutôt utilisé Scala et le framework Spark pour la partie transformation "technique" réalisée par des Data Engineers, et dbt pour les transformations impliquant une logique métier par les Analytics Engineers/Data Analysts. Cela rajoute une couche, mais permet de mieux répartir la charge et scinder les périmètres.
Et pour la partie liée à la qualité de données, tu peux effectivement utiliser Great Expectations et/ou la librarie dbt-expectations qui évite de rédiger des macros custom 😉 Il faudrait aussi que je creuse les outils OS de dashboarding (evidence, Rill...) car Tableau coûte une blinde 😂
@soul67 9 місяців тому
C'est un banger cette vidéo, MERCI !
@potaryx4281 7 місяців тому ⁺¹
Merci beaucoup Willis ❤😊
@Davy016 10 місяців тому
T'es le meilleur. Thks !
@stefen_taime 10 місяців тому
Par contre je rajouterai trino en dessus de dbt pour interagir avec s3 ^^ à moins que dans ton airflow tu fais un COPY STAGE de s3 vers snowflake
@kojotv3461 3 місяці тому
Super intéressant, merci pour cet exercice
@DataFromScratchWillis 3 місяці тому
Merci à toi
@didjo94 9 місяців тому
niveau data transformation on peut utiliser databricks aussi pour les gros volumes de donnée c'est nickel
@YannManUtd 10 місяців тому ⁺²
Merci beaucoup! J’adore vraiment le format. Juste curieux, pour la partir data Storage, pourquoi stores-tu les données en tant que flat files, au lieu de choisir une base de donnée e.g. sql server ?
@techmetothecloud 10 місяців тому ⁺²
Je me permets de donner mon avis. S3 est probablement meilleur pour les raisons suivantes: permet de garder les donnes brutes au contraire d une BDD(schema on write), on parle d injecter 80TB par jour donc SQL server n est pas adapte pour ce type de scenario ( c est d ailleurs pour ca il choisit Snowflake entre autre)
@docteurcoincoin6216 10 місяців тому
Cette vidéo est géniale !
@kouassirodrigueahoussou72 8 місяців тому
Infiniment Merci pour la Video
@MaxTheKing289 10 місяців тому
Super vidéo Willis est ce que tu aurais des ressources pour les entretiens de System Design mais pour ML Engineer
@Girl_Game2012 3 місяці тому
Super 👍
@SM-vz1ek 4 місяці тому
super intéressant mais comment avoir cette culture business ?
@azobensadio260 10 місяців тому
Toujours concis et précis dans tes explications, un grand big up à toi 😉😉.Une question pourrais-tu nous faire une prez sur les BD Vectorielles et les cas d'usages? merci d'avance
@DataFromScratchWillis 10 місяців тому
Merci pour le commentaire ! C'est noté !
@akotchayebatcho1285 10 місяців тому
Merci bcp Willis , je comprends mieux l'architecture data.
Quel est l'intérêt de faire une présentation à partir des données récupérées dans snowflake, vu que la transformation se fait avec dbt?
Merci.
@dhjgj1412 10 місяців тому ⁺¹
Par présentation il veut dire visualisation.
Une fois les données nettoyé, il faut les présenter sous formes de graphiques afin d’aider à la prise de décision
@ruddynzita1540 10 місяців тому
Du coup les données dans S3 vont être importées dans snowflake et c’est la qu’on utilisera dbt non?
@DataFromScratchWillis 10 місяців тому
Oui, dbt servira à gérer la partie Transformation de l'ELT
@gaelguedia 10 місяців тому ⁺¹
Pourquoi pas spark au lieu de dbt?
@dhjgj1412 10 місяців тому
Ça rajouterait un layer en plus.
Vaut mieux utiliser la puissance du data warehouse pour faire les transformations
@stefen_taime 10 місяців тому
Par contre je rajouterai trino en dessus de dbt pour interagir avec s3 ^^ à moins que dans ton airflow tu fais un COPY STAGE de s3 vers snowflake
@ruddynzita1540 10 місяців тому ⁺¹
J’ai exactement la même question. On peut même les utiliser ensemble mais ils semblent presque inévitables d’utiliser du « compute distributed »
@dhjgj1412 9 місяців тому
@@ruddynzita1540 le data warehouse est déjà un “compute distributed”
@kidam999 2 місяці тому
Mais si tu utilises Kafka pour l’ingestion, tu risques de stocker des données sales dans Snowflake, non ?
@DataFromScratchWillis 2 місяці тому
Oui, tu stockes les données sur du S3 ou/et Snowflake pour la transformation
@kidam999 2 місяці тому
@DataFromScratchWillis ah OK à ce stade même si le données sont brut c'est pas grave puisque c'est après que l'on peut faire la transformation. Merci 👌💪

Наступне

Автоматичне відтворення

Comment créer une architecture Data avec Databricks ? (Data Engineer System design interview)

Comment créer une architecture Data avec Databricks ? (Data Engineer System design interview)

Comment bâtir une équipe Data efficace ? Data Engineering Principles (partie 1)

Comment bâtir une équipe Data efficace ? Data Engineering Principles (partie 1)

Qu'est-ce que l'architecture d'entreprise?

Qu'est-ce que l'architecture d'entreprise?

🔥"СВОшник" РОЗНОСИТЬ шоу путіністів! Ведучий ШОКОВАНИЙ від цих СЛІВ #shorts

🔥"СВОшник" РОЗНОСИТЬ шоу путіністів! Ведучий ШОКОВАНИЙ від цих СЛІВ #shorts

У ДЕТЕНЫША СТЕПЫ ИСЧЕЗ ГЛАЗИК

У ДЕТЕНЫША СТЕПЫ ИСЧЕЗ ГЛАЗИК

Что будет если украсть в магазине шоколадку 🍫

Что будет если украсть в магазине шоколадку 🍫

Удержаться на воде?? 🌊 #симбочкапимпочка #симбочка #симба

Удержаться на воде?? 🌊 #симбочкапимпочка #симбочка #симба

CCNA FAST FREE DAY 12 : Comprendre l'ARCHITECTURE d'un DATA CENTER

CCNA FAST FREE DAY 12 : Comprendre l'ARCHITECTURE d'un DATA CENTER

Architecture Data 1/3 : le Data Warehouse

Architecture Data 1/3 : le Data Warehouse

Code along - build an ELT Pipeline in 1 Hour (dbt, Snowflake, Airflow)

Code along - build an ELT Pipeline in 1 Hour (dbt, Snowflake, Airflow)

Lakehouse vs Datawarehouse vs Datalake vs Base de données - Pourquoi est-ce important ?

Lakehouse vs Datawarehouse vs Datalake vs Base de données - Pourquoi est-ce important ?

Qu'est-ce que le Data Engineering ? Pourquoi est-ce la clé d'un projet Data ?

Qu'est-ce que le Data Engineering ? Pourquoi est-ce la clé d'un projet Data ?

Data Engineer vs Analytics Engineer vs Data Analyst : Quel métier choisir en 2025 ?

Data Engineer vs Analytics Engineer vs Data Analyst : Quel métier choisir en 2025 ?

How I would learn Data Engineering (if I could start over)

How I would learn Data Engineering (if I could start over)

Architecture Logicielle: C'est quoi?

Architecture Logicielle: C'est quoi?

Pourquoi a-t-il fait sa reconversion de Data Scientist à Data Engineer ?

Pourquoi a-t-il fait sa reconversion de Data Scientist à Data Engineer ?

Разобрался голыми руками 😎 #start #кино #фильм #сериал #молотведьм #полиция #пацаны

Разобрался голыми руками 😎 #start #кино #фильм #сериал #молотведьм #полиция #пацаны

Мама загинула у блокадному Чернігові, а тато у полоні РФ #війна #люди #україна #shorts #смерть

Мама загинула у блокадному Чернігові, а тато у полоні РФ #війна #люди #україна #shorts #смерть

ГРАВИТАЦИЯ! ВЫЖИВАНИЕ на ЛЕТАЮЩЕМ ОСТРОВЕ(DDprod.) в РАСТ/RUST

ГРАВИТАЦИЯ! ВЫЖИВАНИЕ на ЛЕТАЮЩЕМ ОСТРОВЕ(DDprod.) в РАСТ/RUST

вернулись в ПРОШЛОЕ 🔃 | WICSUR #shorts

вернулись в ПРОШЛОЕ 🔃 | WICSUR #shorts

Пилот обманул смерть ракета пролетела рядом с ним #shorts

Пилот обманул смерть ракета пролетела рядом с ним #shorts

ふわふわシフォン大作戦🩷スイーツ戦隊のキラキラミッション✨【銀座コージーコーナー】 #shorts #シフォンケーキ #クリスマスケーキ #クリスマス #ケーキ #チョコケーキ #christmas

ふわふわシフォン大作戦🩷スイーツ戦隊のキラキラミッション✨【銀座コージーコーナー】 #shorts #シフォンケーキ #クリスマスケーキ #クリスマス #ケーキ #チョコケーキ #christmas

КТО НЕ ДВИНЕТСЯ, ПОЛУЧИТ МАШИНУ!

КТО НЕ ДВИНЕТСЯ, ПОЛУЧИТ МАШИНУ!