Екатерина Колпакова - Сказ про то, как мы DWH строим: От реплик MySQL до Exasol + ClickHouse

Поділитися
Вставка
  • Опубліковано 26 чер 2022
  • Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
    Подробности и билеты: jrg.su/KFFBS7
    - -
    В этом докладе Екатерина хочет рассказать о том, почему в Ситимобил выбрали именно Exasol в качестве СУБД для хранилища, а Data Vault в качестве модели данных. Но все равно не отказались от концепции Data Lake полностью.
    Особое внимание будет уделено тому, как сейчас устроены потоки данных: в компании разработали свой гибкий и масштабируемый механизм ELT, чтобы не свыкаться с ограничениями коробочных решений.
    Заглянем немного в прекрасное будущее: спикер расскажет о планах по внедрению Self Service ETL и о том, как в компании планируют позволить пользователям самостоятельно создавать хранилище и проверки качества данных.
    Скачать презентацию: assets.ctfassets.net/oxjq45e8...

КОМЕНТАРІ • 15

  • @user-fv2qi7ce5w
    @user-fv2qi7ce5w Місяць тому

    Классный доклад, с множеством технических деталей и честностью/откровенностью!

  • @user-tu5zt2mm6w
    @user-tu5zt2mm6w Рік тому +3

    Сказ - огонь. Екатерина оч крутая пипл :)!!!

  • @andreymustdie
    @andreymustdie Рік тому

    Спасибо за рассказ и за честность!

  • @paulfunigga
    @paulfunigga 2 дні тому

    Я предпочитаю spark+trino+iceberg для data lakehouse

  • @MikhailKhludnev
    @MikhailKhludnev 2 роки тому +2

    Екатерина крутая!

  • @glebbondarenko67
    @glebbondarenko67 28 днів тому

    я не понял причину следственную связь: нет транзакций == теряются данные
    я представляю что транзакции нужны если ты записываешь несколько связанных сущностей одной операцией. Я так понимаю это не тот случай
    тогда остается вариант что может репликация там несинхронная
    Поясните пожалуйста что имело ввиду.

  • @rockefe11er21
    @rockefe11er21 Рік тому +1

    Здравствуйте, когда будет видео про exasol вместо clickhouse? Уже 2023год. Хотелось бы узнать что получилось и решились ли проблемы?

    • @arbeks_42
      @arbeks_42 9 місяців тому +1

      Привет! Увы, Ситимобил в прежнем виде прекратил свое существование в феврале 2021. Сейчас в других компаниях, а тут уже во главу угла ставится импортозамещение...

  • @user-mz6xs3eq7w
    @user-mz6xs3eq7w 5 місяців тому

    Интересно, а работает ли Exasol сейчас в России? Как я понимаю, как минимум, платить за Exasol из России весьма не просто. Если свой бизнес строить на платных зарубежных решениях, это в любой момент может сильно ударить по бизнесу. Западные компании на поверку оказались сильно политизированными и совсем не надежными.

    • @paulfunigga
      @paulfunigga День тому

      Опен сорс рулит. Iceberg+Spark+Trino, нафиг все эти гринпламы и прочее г*вно.

  • @nikolaybaranov2213
    @nikolaybaranov2213 Рік тому +1

    Достаточно сумбурно, несистемно, но вполне искренне и интересно. Странно, что докладчик не совсем осознал, зачем именно применяется модель Data Vault - это же не просто для того, чтобы сначала нормализовать, а потом джойнить, а для того, чтобы быть готовым к изменению бизнес-процессов - вот тут как раз линки без сателлитов помогут.
    Ну и, как всегда: «бизнес мог бы быть идеальным, если бы не люди». Это про вражду OLTP’ников и DWH’ников. Еще сильно «доставил» тезис: «достаточно многие управленческие решения проводятся на основании отчетности по DWH». Остальные-то как принимаются - на основании карты звездного неба? Ну т.е. как всегда и везде - выделили нехилый бюджет, набрали людей, они создали продукт и потом, когда его используют для принятия решений, для его создателей это праздник.
    В общем, зашкаливающий уровень энтропии (бардака, ежели, по-русски) в компании. В результате, какой бы не был уровень хард скиллов, софт скиллы и встроенность в систему принятия управленческих решений- залог успеха компании.

    • @ivani3237
      @ivani3237 Рік тому

      Велкам ту зе реал ворд, где таки сложные управленчиские решения в большинстве принимаются по карте звездного неба, НО иногда для обоснования этого решения натягиваются данные из BI. И так по всему миру

    • @arbeks_42
      @arbeks_42 9 місяців тому +1

      Вы, кажется, не слушали.
      В том-то и дело, что это все из области влажных фантазий и книжных иллюзий. На практике такая гибкость никому не нужна, или нужна, но далеко не везде. С 2013 года в разных местах использую Data Vault, и везде от использования его в чистом виде больше проблем, чем пользы. Нельзя его применять вот так в лоб. DV - это возможность автоматизировать создание ETL, и не более.