Екатерина Колпакова - Сказ про то, как мы DWH строим: От реплик MySQL до Exasol + ClickHouse
Вставка
- Опубліковано 26 чер 2022
- Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
Подробности и билеты: jrg.su/KFFBS7
- -
В этом докладе Екатерина хочет рассказать о том, почему в Ситимобил выбрали именно Exasol в качестве СУБД для хранилища, а Data Vault в качестве модели данных. Но все равно не отказались от концепции Data Lake полностью.
Особое внимание будет уделено тому, как сейчас устроены потоки данных: в компании разработали свой гибкий и масштабируемый механизм ELT, чтобы не свыкаться с ограничениями коробочных решений.
Заглянем немного в прекрасное будущее: спикер расскажет о планах по внедрению Self Service ETL и о том, как в компании планируют позволить пользователям самостоятельно создавать хранилище и проверки качества данных.
Скачать презентацию: assets.ctfassets.net/oxjq45e8...
Классный доклад, с множеством технических деталей и честностью/откровенностью!
Сказ - огонь. Екатерина оч крутая пипл :)!!!
Спасибо за рассказ и за честность!
Я предпочитаю spark+trino+iceberg для data lakehouse
Екатерина крутая!
Спасибо :)
я не понял причину следственную связь: нет транзакций == теряются данные
я представляю что транзакции нужны если ты записываешь несколько связанных сущностей одной операцией. Я так понимаю это не тот случай
тогда остается вариант что может репликация там несинхронная
Поясните пожалуйста что имело ввиду.
Здравствуйте, когда будет видео про exasol вместо clickhouse? Уже 2023год. Хотелось бы узнать что получилось и решились ли проблемы?
Привет! Увы, Ситимобил в прежнем виде прекратил свое существование в феврале 2021. Сейчас в других компаниях, а тут уже во главу угла ставится импортозамещение...
Интересно, а работает ли Exasol сейчас в России? Как я понимаю, как минимум, платить за Exasol из России весьма не просто. Если свой бизнес строить на платных зарубежных решениях, это в любой момент может сильно ударить по бизнесу. Западные компании на поверку оказались сильно политизированными и совсем не надежными.
Опен сорс рулит. Iceberg+Spark+Trino, нафиг все эти гринпламы и прочее г*вно.
Достаточно сумбурно, несистемно, но вполне искренне и интересно. Странно, что докладчик не совсем осознал, зачем именно применяется модель Data Vault - это же не просто для того, чтобы сначала нормализовать, а потом джойнить, а для того, чтобы быть готовым к изменению бизнес-процессов - вот тут как раз линки без сателлитов помогут.
Ну и, как всегда: «бизнес мог бы быть идеальным, если бы не люди». Это про вражду OLTP’ников и DWH’ников. Еще сильно «доставил» тезис: «достаточно многие управленческие решения проводятся на основании отчетности по DWH». Остальные-то как принимаются - на основании карты звездного неба? Ну т.е. как всегда и везде - выделили нехилый бюджет, набрали людей, они создали продукт и потом, когда его используют для принятия решений, для его создателей это праздник.
В общем, зашкаливающий уровень энтропии (бардака, ежели, по-русски) в компании. В результате, какой бы не был уровень хард скиллов, софт скиллы и встроенность в систему принятия управленческих решений- залог успеха компании.
Велкам ту зе реал ворд, где таки сложные управленчиские решения в большинстве принимаются по карте звездного неба, НО иногда для обоснования этого решения натягиваются данные из BI. И так по всему миру
Вы, кажется, не слушали.
В том-то и дело, что это все из области влажных фантазий и книжных иллюзий. На практике такая гибкость никому не нужна, или нужна, но далеко не везде. С 2013 года в разных местах использую Data Vault, и везде от использования его в чистом виде больше проблем, чем пользы. Нельзя его применять вот так в лоб. DV - это возможность автоматизировать создание ETL, и не более.