SmartData
SmartData
  • 197
  • 177 224
Иван Клименко (Arenadata) — CDC в банке от источника до хранилища с применением продуктов Arenadata
Подробнее о конференции SmartData: jrg.su/aTWU2K
- -
Скачать презентацию с сайта SmartData - jrg.su/mYoFMh
Change Data Capture от популярных источников (Oracle, PostreSQL) с применением Debezium, построенном на Kafka Connect, трансформациями в Apache NiFi и сохранением в начальный слой хранилища Greenplum.
Почему именно CDC, а не прямые выгрузки? Обсудили сложности при внедрении, связанные с информационной безопасностью и нагрузкой на транспортные системы, варианты решений по трансформациям и доставке данных до хранилища, варианты разбора данных на хранилище до stage-слоя.
Будет интересно архитекторам хранилищ данных, разработчикам интеграционных решений. Демонстрация - на продуктах Arenadata: ADS - Kafka, Kafka Connect, NiFi и ADB - Arenadata Database.
Переглядів: 465

Відео

Закрытие конференции SmartData 2023
Переглядів 293 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Ведущие: Максим Стаценко, Михаил Марюфич.
Игра «Своя пирамида»
Переглядів 433 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Интеллектуальная игра от Программного комитета. В каждом раунде представлены вопросы общей тематики, связанные с программированием и инженерией данных, а также вопросы на темы, выбранные самими участниками, отражающие их сферу интересов. Цель каждого игрока - как можно быстрее ответить на вопросы и заработать максимальное количество очков. Эт...
Викторина и подведение итогов online-части конференции SmartData 2023
Переглядів 173 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - В завершении онлайн-части SmartData 2023 мы провели викторину про Data Engineering. А в конце подвели итоги, вспомнили яркие моменты и рассказали о дальнейших планах. Ведущие: Максим Стаценко, Михаил Лукин, Мария Лаврова. #dataengineering
Открытие второго дня SmartData 2023
Переглядів 143 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Говорим о расписании, сессиях и активностях. Ведущие: Максим Стаценко, Михаил Лукин.
Александр Плавин - Телескопы XXI века: от железа и софта к данным и результатам
Переглядів 663 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/LSWT7p Современные астрономические инструменты - телескопы - выглядят далеко не так, как сотни и даже десятки лет назад. Наблюдательные данные быстро растут в объеме и скорости получения, сокращается требуемое время реакции - это создает новые требования к системам обработки. В докладе приведены ...
Открытие конференции SmartData 2023
Переглядів 603 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Говорим о расписании, сессиях и активностях. Ведущие: Максим Стаценко, Андрей Кузнецов.
Владимир Сурдин - Внеатмосферная астрономия и новый космический телескоп «Джеймс Уэбб»
Переглядів 7 тис.3 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Астрономам тесно на Земле: мешает атмосфера, мешают спутники Илона Маска, маловат размер планеты. Теперь космос для астрономов стал не только объектом исследования, но и рабочей площадкой. Что нового узнали ученые с помощью космических телескопов и каковы перспективы?
Открытие офлайн-части конференции SmartData 2023
Переглядів 183 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Говорим о расписании, сессиях и делимся информацией. Ведущие: Михаил Марюфич, Алексей Федоров.
Бронислав Житников - Как сделать так, чтобы вашему Apache NiFi было плохо
Переглядів 2793 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/AWPHir NiFi - очень мощный инструмент, и им можно закрыть очень широкий спектр задач. Однако есть задачи, которые заставляют NiFi чувствовать себя не очень хорошо. Спикер рассказывает про свой взгляд на такие задачи. Доклад о том, как не стоит использовать NiFi, какие кейсы NiFi может реализовать...
DataFrame - настоящее и будущее
Переглядів 3793 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Какие библиотеки существуют для работы с DataFrame? Какие исследования и разработки сейчас ведутся в этой области? Обсуждаем интеграцию с базами данных, хранилищами данных и data science-решениями. Спикеры: Александр Боргардт, Евгений Селиверстов, Николай Марков. Ведущий: Павел Филонов. #dataframe #dataengineering
Виталий Бодренков - Визуализация для ELT-процессов в DWH
Переглядів 8093 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/smVTLi Об использовании dbt. Как применяли у себя, как кастомизировали. О написании материализаций, DDL-генераторе и проблемах с временными таблицами.
Тимофей Брунько - CDC. От баззворда к реализации в Data Transfer
Переглядів 5804 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/aioagg CDC (Change Data Capture) - подход для решения задач интеграции данных. Спикер рассказывает про его особенности, рассматривает рыночные решения и говорит о том, с какими вызовами они столкнулись при его реализации в сервисе Data Transfer в Yandex Cloud.
Юрий Гусев - От потоков данных до ML-моделей. Секрет конструирования и тестирования признаков
Переглядів 1134 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/vfqgGS Юрий рассказывает, как Serverless, Kappa architecture и Python могут помочь в создании простой, но эффективной платформы для конструирования признаков и обучения моделей. Используя простые концепции, такие как CQRS и Event Sourcing, разрабатываем систему обработки данных, которая позволит ...
Евгений Ненахов - Spark Streaming: брать или не брать?
Переглядів 3644 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/993g53 Все чаще продуктовым командам приходится решать задачи потоковой обработки данных в связи с потребностью бизнеса обрабатывать данные в режиме реального времени или близком к реальному. Инструментов для решения задач потоковой обработки данных много, и каждый из них способен достаточно эффе...
Валентина Предтеченская - Apache Flink под капотом: distributed, stateful, realtime
Переглядів 4064 місяці тому
Валентина Предтеченская - Apache Flink под капотом: distributed, stateful, realtime
Даниэл Рачич - Kafka Connect: что за зверь этот ваш Single Message Transform?
Переглядів 2224 місяці тому
Даниэл Рачич - Kafka Connect: что за зверь этот ваш Single Message Transform?
Александр Бобряков - Apache Flink на примере задачи дедупликации
Переглядів 3304 місяці тому
Александр Бобряков - Apache Flink на примере задачи дедупликации
Сергей Космос - Создание группы сервисов по анализу космических снимков с помощью машинного обучения
Переглядів 764 місяці тому
Сергей Космос - Создание группы сервисов по анализу космических снимков с помощью машинного обучения
Алексей Даньшин - Методы обезличивания данных
Переглядів 5854 місяці тому
Алексей Даньшин - Методы обезличивания данных
Василий Мельник - Streaming Data Integration - ETL-инструмент для создания near realtime-процессов
Переглядів 6424 місяці тому
Василий Мельник - Streaming Data Integration - ETL-инструмент для создания near realtime-процессов
Павел Филонов, Аркадий Василенко - ML System Design Interview
Переглядів 5514 місяці тому
Павел Филонов, Аркадий Василенко - ML System Design Interview
Наджим Мохаммад, Дмитрий Бодин, Максим Бартенев - Платформа как продукт
Переглядів 4114 місяці тому
Наджим Мохаммад, Дмитрий Бодин, Максим Бартенев - Платформа как продукт
Владимир Верстов - Платформа управления данными вокруг YTsaurus
Переглядів 2924 місяці тому
Владимир Верстов - Платформа управления данными вокруг YTsaurus
Алексей Озерицкий - Архитектура распределенного SQL-движка для аналитических запросов
Переглядів 3554 місяці тому
Алексей Озерицкий - Архитектура распределенного SQL-движка для аналитических запросов
Кузьма Лешаков - Разгоним запросы: как быстро готовить ClickHouse
Переглядів 1,8 тис.4 місяці тому
Кузьма Лешаков - Разгоним запросы: как быстро готовить ClickHouse
Алексей Дмитриев - Движение к универсальности: гибридная OLTP-база с поддержкой OLAP-запросов
Переглядів 2234 місяці тому
Алексей Дмитриев - Движение к универсальности: гибридная OLTP-база с поддержкой OLAP-запросов
Максим Бабенко - Как мы адаптировали динамические таблицы YTsaurus для хранения блобов
Переглядів 2774 місяці тому
Максим Бабенко - Как мы адаптировали динамические таблицы YTsaurus для хранения блобов
Петр Зайцев - Глубокое погружение в производительность запросов
Переглядів 3014 місяці тому
Петр Зайцев - Глубокое погружение в производительность запросов
Игнат Колесниченко - Планирование миллиардов задач каждый день
Переглядів 2154 місяці тому
Игнат Колесниченко - Планирование миллиардов задач каждый день

КОМЕНТАРІ

  • @ashimov1970
    @ashimov1970 3 дні тому

    ну и нах*** он такой нужен этот кликхаус? неужели более адекватных альтернатив нет?

  • @boristheblade2791
    @boristheblade2791 14 днів тому

    Честность нужна только внутри команды и то не всегда. Какие-то очень сферические рассуждения получились на 15:50

  • @mikhailb8222
    @mikhailb8222 Місяць тому

    очень толковый доклад, благодарю

  • @alexricher2554
    @alexricher2554 Місяць тому

    Единственный нормальный доклад без воды на русском, мое уважение

  • @gordeyvasilev
    @gordeyvasilev Місяць тому

  • @vladpron1468
    @vladpron1468 2 місяці тому

    вместо различных историй хотелось больше услышать про механизм, вместо этого по механизму быстро пробежались без углубления в детали, чтож пошел гуглить

  • @SergiusBfg
    @SergiusBfg 2 місяці тому

    Послушал Начало. Да. Бубки и ВК естьь Софт все равно амно

  • @Putinka1000
    @Putinka1000 3 місяці тому

    Хороший доклад. Описывает типовую связку dbt с airflow, но все это печально. Скоро выйдет какой-нибудь open source и все инженеры будут запросики писать

  • @АлексейКирьянов-я9ь
    @АлексейКирьянов-я9ь 3 місяці тому

    Было бы крайне интересно послушать про нынешнюю ситуацию с DWH. Как сложилась все таки ситуация с Exasol, ведь, наверняка, компания Exasol в РФ не предоставляет свои продукты.

  • @Rudoku_
    @Rudoku_ 3 місяці тому

    Спасибо большое) Было очень интересно

  • @husanturdiev
    @husanturdiev 3 місяці тому

    Классный доклад!

  • @alx8439
    @alx8439 3 місяці тому

    Trino, Drill, Impala, StarRocks, SparkSQL а теперь еще и DQ :) Осталось еще cost based optimizer докрутить

  • @konstantinchvilyov9602
    @konstantinchvilyov9602 3 місяці тому

    Analysis[əˈnælɪsɪs]=Анализ это детальное Изучение Составляющих или Строения чего-либо.

  • @konstantinchvilyov9602
    @konstantinchvilyov9602 3 місяці тому

    Analytical[ænəˈlɪtɪkəl]=Аналитический означает относящийся к анализу или логическому мышлению или использующий их.

  • @66__99
    @66__99 3 місяці тому

    Слишком много аааааа

  • @pravdyzritel
    @pravdyzritel 3 місяці тому

    Прекрасный лектор и учёный Всегда приятно слушать Спасибо огромное советскому поколению и образованию

  • @konstantinchvilyov9602
    @konstantinchvilyov9602 3 місяці тому

    batch [bæʧ] - пачка, пакет; последовательность, серия; партия

  • @konstantinchvilyov9602
    @konstantinchvilyov9602 3 місяці тому

    duplication [djuːplɪˈkeɪʃn] - удвоение, удваивание; копирование; воспрои ведение; размножение; повторение; тиражирование.

  • @konstantinchvilyov9602
    @konstantinchvilyov9602 3 місяці тому

    replicate [ˈreplɪkɪt] - копировать, повторять; воспроизводить, размножать; тиражировать, дублировать.

  • @konstantinchvilyov9602
    @konstantinchvilyov9602 3 місяці тому

    replicated [ˈreplɪkeɪtɪd] - скопированный, воспроизводимый

  • @C00L777
    @C00L777 3 місяці тому

    Подонок. Благ его лишили. Войну в Европе развязали. Войну, мерзавец, развязало в, Европе НАТО, в 1999 году.

    • @ngc107
      @ngc107 3 місяці тому

      Это вы про себя

  • @ГалинаЯстребова-ш2й
    @ГалинаЯстребова-ш2й 3 місяці тому

    Слишком много аааааа

  • @СергейСергеевич-м8у7о

    Это туалетная тряпка , а не ученый . Просто рвань позорная. Пацаны с сво покажут тебе твоё иесто

  • @робертПетров-с8д
    @робертПетров-с8д 3 місяці тому

    Допустим я быстро обработал данные. Но ведь станок все равно деталь будет пилить 9 часов

  • @ДобрыняНикитич-ю1о
    @ДобрыняНикитич-ю1о 3 місяці тому

    Шмурдин - или нйух

  • @sshkiperr102
    @sshkiperr102 3 місяці тому

    Этот человек делает науку платной! Пуполерезатор)

    • @СтаниславЛиманский-ъ8з
      @СтаниславЛиманский-ъ8з 3 місяці тому

      А когда она была бесплатной?

    • @j1234okey
      @j1234okey 3 місяці тому

      бесплатный только сыр на фудкорте и то если кто-то не доел..

    • @робертПетров-с8д
      @робертПетров-с8д 3 місяці тому

      Я не могу за науку платить. Я работаю уже 4 года за еду

    • @СергейСергеевич-м8у7о
      @СергейСергеевич-м8у7о 3 місяці тому

      @user-sm1ur5bk2r без образования и специальности работу нормальную найти тяжелее с каждым годом.

    • @sshkiperr102
      @sshkiperr102 3 місяці тому

      @@СергейСергеевич-м8у7о все что он рассказывает я узнал бесплатно! Все что он расскажет за деньги тебе не пригодится. Он умный дядька, я не спорю! Но гранты надо как-то окупать!? Вот тебе и популяризаторы. Мб сам не хочет! Надо!!!! А если что не так... Гарантия возврата денег Мы расширим ваши познания в области астрономии и окружающего мира в целом с помощью легких уроков с доступным изложением за 6 недель. Вернем деньги без вопросов и задержек, если вам не понравится после первых трех уроков.

  • @2account134
    @2account134 3 місяці тому

    Хороший контент, но Марк слишком быстро тараторит)

  • @matt-zt1ky
    @matt-zt1ky 3 місяці тому

    Отличный доклад, спасибо)

  • @Влад-о5щ
    @Влад-о5щ 3 місяці тому

    Уффф, офигенно вышло Ты лучший, без шууток Я тҽбҽ 𝓬дҽлαю ρҽƙ1лαᙏყ Ԩα 𝓬ßσҽᙏ 𝓬тρиᙏҽ бҽ𝓬плαтԨσ, Ԋαбҽρҽ1ᙏ тҽбҽ пσдпи𝓬чиƙσß! 3αйди Ԋα этσт ƙαԨαл ყßидиɯƄ ᙏσи дßα ƙαԨαлα - пσдпиɯи𝓬Ƅ Ԩα Ԋиχ! А я тебе пожелаю удачи! :)

  • @valeriymogilnitskiy9692
    @valeriymogilnitskiy9692 3 місяці тому

    18 минут из 30 не про маге

  • @pavelgalkin8565
    @pavelgalkin8565 4 місяці тому

    Отличный доклад!

  • @SergeyTarabara
    @SergeyTarabara 4 місяці тому

    Такое ощущение, что на Flink написали NiFi)

  • @vladaleshin5028
    @vladaleshin5028 4 місяці тому

    Является ли CDC/Debezium альтернативным решением в случае с небольшим количеством сообщений и несложными трансформациями?

  • @DAJakaRedAries
    @DAJakaRedAries 4 місяці тому

    Жаль, что цель доклада - реклама форка, который уже заброшен 😢

  • @КозьмаПрутков-ж6д
    @КозьмаПрутков-ж6д 4 місяці тому

    И ещё какая тварь UA-cam замедляет, руки бы обломать...

  • @pavlovi4100
    @pavlovi4100 4 місяці тому

    Отличный доклад

  • @alesyuzefovich115
    @alesyuzefovich115 4 місяці тому

    Спасибо Владимиру за отличный рассказ

  • @bananasba
    @bananasba 4 місяці тому

    бэ, мэ, ненужный выпендреж и шуточки, по существу не много

  • @alexcoast9102
    @alexcoast9102 4 місяці тому

    есть русское слово - применить, зачем долгое имплементировать ? )))))

  • @eletenkov
    @eletenkov 4 місяці тому

    очень много воды

  • @alexzir
    @alexzir 4 місяці тому

    Много не по теме. А так очень интересно Спасибо

  • @levkolosovikb-9363
    @levkolosovikb-9363 4 місяці тому

    Да блин, запускаю тот же самый код и работает иначе всё

  • @thghtfl
    @thghtfl 4 місяці тому

    Понравилась первая часть выступления, которая не относилась к Mage, вот эта рефлексия с позиции менеджера. Как только перешли к демо по непосредственной теме, все стало очень скомканно, что-то в streamlit показал, запустил пайплайн в mage, что получил, для чего - непонятно. Может быть, стоило строить доклад не вокруг конкретного тула, а до конца описать преобразования, которые с командой удалось осуществить. От себя скажу про Mage. Он расширяет возможности оркестратора, позволяя смотреть на результаты трансформаций в jupyter-like интерфейсе и даже передавать датасеты между тасками. Также он ест меньше памяти в сравнении с Airflow, особенно в idle state. Но! В прод мы так и не решились с ним идти - он все-таки еще очень сырой, какие-то нечитаемые ошибки, баги и т.п.

  • @evevideo100
    @evevideo100 4 місяці тому

    ЭЭ а как же запрет работы из-за границы ?

  • @emild579
    @emild579 4 місяці тому

    Интересно, ожидал, что на Data Lens перейдут

  • @dataengineer735
    @dataengineer735 5 місяців тому

    Добрый день. А мне, как кандидату, не понравилось интервью. Создалось впечатление, что нанимающие менеджеры живут в своей придуманной ими реальности. Что нужно сделать чтобы % был больше: перестать искать сферического коня в вакууме, идеала(с нереальными скилами), а опираться на реальных людей, которые приходят на рынок. И речь идет не о том, что нужно брать не грамотных, а о том, чтобы опираться на опыт людей+потребности компании. Если нанимающий менеджер даже резюме не читает - по мне это говорит о том, что он не заинтересован в человеке, а хочет найти функцию. Позиция соискателя: 1. Все знать невозможно, по причине огромного количества информации и технологий, тем более, что они устаревают. 2. за свою карьеру я работал в разных компаниях, и удивительно: то, что меня спрашивали на собесах по технологиям, в реальных проектах было не более 20% 3. считаю, что умение осваивать и учиться новому гораздо более важно, чем знания на текущий момент, однако не все компании это понимают. 4. лайф-кодинг по python на собесах для DE считаю бесполезной штукой, поскольку сейчас очень много информации по python, для написания дагов airflow не нужно сверхзнаний, а если пишешь на nifi, там вообще nocode. Гораздо важнее понимание процессов, как работает та или иная технология, принципы проектирования БД, обработка данных, знание нюансов конкретной СУБД, в которой работаешь. У меня в опыте по DE и даже когда я был разработчиком, ни разу не было задач по алгоритмам. Разве что в институте. Зачем это спрашивают - я не понимаю. 5. Софт-скиллы важны, это да. Однако когда нанимающий менеджер даже резюме не читает, это занавес. Мне скажут, что он очень занят, это отговорки, поскольку если нанимают по месяцам(то на это время, конечно же есть). Найм - это обоюдный процесс. 6. Мне очень понравилась идея спрашивать человека об его опыте. Это честно и вызывает уважение. И по сути верно. О чужом опыте гораздо труднее разговаривать. А про знания - я написал выше. Вывод: маленький % по найму на мой взгляд из-за того, что компании хотят найти идеального под себя кандидата. Идеалы недостижимы, они есть, но только в наших головах, а реальность другая.

  • @alieszhar8163
    @alieszhar8163 5 місяців тому

    Здравствуйте, а видео из дискуссионной зоны пишется?

    • @SmartDataConf
      @SmartDataConf 4 місяці тому

      Здравствуйте! Дискуссии после активностей не записываются, принять в них участие можно только непосредственно во время проведения конференции 🙃

  • @Jealosy-fu3kj
    @Jealosy-fu3kj 5 місяців тому

    А embedded остается такой же? У суперсет насколько я понимаю embeded достаточно ограничен

  • @Jealosy-fu3kj
    @Jealosy-fu3kj 5 місяців тому

    Уже вторая половина 2024, где open source))

  • @maximsenin2641
    @maximsenin2641 5 місяців тому

    Суперсет - огонь!