Артем Алиев - Trino (Presto) DB: Zero copy lakehouse

Поділитися
Вставка
  • Опубліковано 26 чер 2022
  • Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
    Подробности и билеты: jrg.su/KFFBS7
    - -
    PrestoDB (теперь и Trino) была создана в Facebook для предоставления интерактивного доступа к данным, хранящимся в Hive/Hadoop. С тех пор Hadoop объявили мертвым, Spark и S3 заменяют Hive и HDFS, а в индустрии обсуждают микросервисы, IoT и мульти/гибридные облака. Но аналитические запросы медленны, ETL все так же занимает всю ночь и большинство данных в облаке никому не нужны. А еще они опять поменяли схему данных в источнике! Можно ничего не копировать? Да - использовать Trino или его конкурентов (Dremio, Drill). Работа с данными из первоисточников, объединение и обогащение их, запросы с субсекундной скоростью. Конечно, существуют проблемы, но есть и решения. Поговорим, обо всем этом, о скрытых возможностях, о новой функциональности, что есть в проекте или в его форках.
    Доклад нацелен на дата-инженеров и архитекторов облачных систем, и предлагает интересный вариант интеграции источников данных.
    Скачать презентацию: assets.ctfassets.net/oxjq45e8...

КОМЕНТАРІ • 2