- 197
- 177 224
SmartData
Приєднався 31 лип 2017
SmartData - конференция по инженерии данных (Conference on Data Engineering).
Конференция для дата-инженеров и тех, кто работает с большими данными. Эксперты из различных компаний обсуждают техническую конкретику по всем темам - от отказоустойчивости до MLOps.
Ближайшая конференция - SmartData 2025, даты будут анонсированы позднее.
Подробнее о конференции - jrg.su/TIQNFm
Основные темы:
- MMP СУБД и хранилища данных
- SMP и специализированные СУБД
- Архетектура дата-платформ
- Data Processing
- DataOps
- Database Internals
- Data Management
- Cloud Solutions
- Миграция с одних инструментов и хранилищ в другие
- Дата-инженерия не для дата-инженеров
Конференция для дата-инженеров и тех, кто работает с большими данными. Эксперты из различных компаний обсуждают техническую конкретику по всем темам - от отказоустойчивости до MLOps.
Ближайшая конференция - SmartData 2025, даты будут анонсированы позднее.
Подробнее о конференции - jrg.su/TIQNFm
Основные темы:
- MMP СУБД и хранилища данных
- SMP и специализированные СУБД
- Архетектура дата-платформ
- Data Processing
- DataOps
- Database Internals
- Data Management
- Cloud Solutions
- Миграция с одних инструментов и хранилищ в другие
- Дата-инженерия не для дата-инженеров
Иван Клименко (Arenadata) — CDC в банке от источника до хранилища с применением продуктов Arenadata
Подробнее о конференции SmartData: jrg.su/aTWU2K
- -
Скачать презентацию с сайта SmartData - jrg.su/mYoFMh
Change Data Capture от популярных источников (Oracle, PostreSQL) с применением Debezium, построенном на Kafka Connect, трансформациями в Apache NiFi и сохранением в начальный слой хранилища Greenplum.
Почему именно CDC, а не прямые выгрузки? Обсудили сложности при внедрении, связанные с информационной безопасностью и нагрузкой на транспортные системы, варианты решений по трансформациям и доставке данных до хранилища, варианты разбора данных на хранилище до stage-слоя.
Будет интересно архитекторам хранилищ данных, разработчикам интеграционных решений. Демонстрация - на продуктах Arenadata: ADS - Kafka, Kafka Connect, NiFi и ADB - Arenadata Database.
- -
Скачать презентацию с сайта SmartData - jrg.su/mYoFMh
Change Data Capture от популярных источников (Oracle, PostreSQL) с применением Debezium, построенном на Kafka Connect, трансформациями в Apache NiFi и сохранением в начальный слой хранилища Greenplum.
Почему именно CDC, а не прямые выгрузки? Обсудили сложности при внедрении, связанные с информационной безопасностью и нагрузкой на транспортные системы, варианты решений по трансформациям и доставке данных до хранилища, варианты разбора данных на хранилище до stage-слоя.
Будет интересно архитекторам хранилищ данных, разработчикам интеграционных решений. Демонстрация - на продуктах Arenadata: ADS - Kafka, Kafka Connect, NiFi и ADB - Arenadata Database.
Переглядів: 465
Відео
Закрытие конференции SmartData 2023
Переглядів 293 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Ведущие: Максим Стаценко, Михаил Марюфич.
Игра «Своя пирамида»
Переглядів 433 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Интеллектуальная игра от Программного комитета. В каждом раунде представлены вопросы общей тематики, связанные с программированием и инженерией данных, а также вопросы на темы, выбранные самими участниками, отражающие их сферу интересов. Цель каждого игрока - как можно быстрее ответить на вопросы и заработать максимальное количество очков. Эт...
Викторина и подведение итогов online-части конференции SmartData 2023
Переглядів 173 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - В завершении онлайн-части SmartData 2023 мы провели викторину про Data Engineering. А в конце подвели итоги, вспомнили яркие моменты и рассказали о дальнейших планах. Ведущие: Максим Стаценко, Михаил Лукин, Мария Лаврова. #dataengineering
Открытие второго дня SmartData 2023
Переглядів 143 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Говорим о расписании, сессиях и активностях. Ведущие: Максим Стаценко, Михаил Лукин.
Александр Плавин - Телескопы XXI века: от железа и софта к данным и результатам
Переглядів 663 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/LSWT7p Современные астрономические инструменты - телескопы - выглядят далеко не так, как сотни и даже десятки лет назад. Наблюдательные данные быстро растут в объеме и скорости получения, сокращается требуемое время реакции - это создает новые требования к системам обработки. В докладе приведены ...
Открытие конференции SmartData 2023
Переглядів 603 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Говорим о расписании, сессиях и активностях. Ведущие: Максим Стаценко, Андрей Кузнецов.
Владимир Сурдин - Внеатмосферная астрономия и новый космический телескоп «Джеймс Уэбб»
Переглядів 7 тис.3 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Астрономам тесно на Земле: мешает атмосфера, мешают спутники Илона Маска, маловат размер планеты. Теперь космос для астрономов стал не только объектом исследования, но и рабочей площадкой. Что нового узнали ученые с помощью космических телескопов и каковы перспективы?
Открытие офлайн-части конференции SmartData 2023
Переглядів 183 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Говорим о расписании, сессиях и делимся информацией. Ведущие: Михаил Марюфич, Алексей Федоров.
Бронислав Житников - Как сделать так, чтобы вашему Apache NiFi было плохо
Переглядів 2793 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/AWPHir NiFi - очень мощный инструмент, и им можно закрыть очень широкий спектр задач. Однако есть задачи, которые заставляют NiFi чувствовать себя не очень хорошо. Спикер рассказывает про свой взгляд на такие задачи. Доклад о том, как не стоит использовать NiFi, какие кейсы NiFi может реализовать...
DataFrame - настоящее и будущее
Переглядів 3793 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Какие библиотеки существуют для работы с DataFrame? Какие исследования и разработки сейчас ведутся в этой области? Обсуждаем интеграцию с базами данных, хранилищами данных и data science-решениями. Спикеры: Александр Боргардт, Евгений Селиверстов, Николай Марков. Ведущий: Павел Филонов. #dataframe #dataengineering
Виталий Бодренков - Визуализация для ELT-процессов в DWH
Переглядів 8093 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/smVTLi Об использовании dbt. Как применяли у себя, как кастомизировали. О написании материализаций, DDL-генераторе и проблемах с временными таблицами.
Тимофей Брунько - CDC. От баззворда к реализации в Data Transfer
Переглядів 5804 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/aioagg CDC (Change Data Capture) - подход для решения задач интеграции данных. Спикер рассказывает про его особенности, рассматривает рыночные решения и говорит о том, с какими вызовами они столкнулись при его реализации в сервисе Data Transfer в Yandex Cloud.
Юрий Гусев - От потоков данных до ML-моделей. Секрет конструирования и тестирования признаков
Переглядів 1134 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/vfqgGS Юрий рассказывает, как Serverless, Kappa architecture и Python могут помочь в создании простой, но эффективной платформы для конструирования признаков и обучения моделей. Используя простые концепции, такие как CQRS и Event Sourcing, разрабатываем систему обработки данных, которая позволит ...
Евгений Ненахов - Spark Streaming: брать или не брать?
Переглядів 3644 місяці тому
Подробнее о конференции SmartData: jrg.su/aTWU2K - - Скачать презентацию с сайта SmartData - jrg.su/993g53 Все чаще продуктовым командам приходится решать задачи потоковой обработки данных в связи с потребностью бизнеса обрабатывать данные в режиме реального времени или близком к реальному. Инструментов для решения задач потоковой обработки данных много, и каждый из них способен достаточно эффе...
Валентина Предтеченская - Apache Flink под капотом: distributed, stateful, realtime
Переглядів 4064 місяці тому
Валентина Предтеченская - Apache Flink под капотом: distributed, stateful, realtime
Даниэл Рачич - Kafka Connect: что за зверь этот ваш Single Message Transform?
Переглядів 2224 місяці тому
Даниэл Рачич - Kafka Connect: что за зверь этот ваш Single Message Transform?
Александр Бобряков - Apache Flink на примере задачи дедупликации
Переглядів 3304 місяці тому
Александр Бобряков - Apache Flink на примере задачи дедупликации
Сергей Космос - Создание группы сервисов по анализу космических снимков с помощью машинного обучения
Переглядів 764 місяці тому
Сергей Космос - Создание группы сервисов по анализу космических снимков с помощью машинного обучения
Алексей Даньшин - Методы обезличивания данных
Переглядів 5854 місяці тому
Алексей Даньшин - Методы обезличивания данных
Василий Мельник - Streaming Data Integration - ETL-инструмент для создания near realtime-процессов
Переглядів 6424 місяці тому
Василий Мельник - Streaming Data Integration - ETL-инструмент для создания near realtime-процессов
Павел Филонов, Аркадий Василенко - ML System Design Interview
Переглядів 5514 місяці тому
Павел Филонов, Аркадий Василенко - ML System Design Interview
Наджим Мохаммад, Дмитрий Бодин, Максим Бартенев - Платформа как продукт
Переглядів 4114 місяці тому
Наджим Мохаммад, Дмитрий Бодин, Максим Бартенев - Платформа как продукт
Владимир Верстов - Платформа управления данными вокруг YTsaurus
Переглядів 2924 місяці тому
Владимир Верстов - Платформа управления данными вокруг YTsaurus
Алексей Озерицкий - Архитектура распределенного SQL-движка для аналитических запросов
Переглядів 3554 місяці тому
Алексей Озерицкий - Архитектура распределенного SQL-движка для аналитических запросов
Кузьма Лешаков - Разгоним запросы: как быстро готовить ClickHouse
Переглядів 1,8 тис.4 місяці тому
Кузьма Лешаков - Разгоним запросы: как быстро готовить ClickHouse
Алексей Дмитриев - Движение к универсальности: гибридная OLTP-база с поддержкой OLAP-запросов
Переглядів 2234 місяці тому
Алексей Дмитриев - Движение к универсальности: гибридная OLTP-база с поддержкой OLAP-запросов
Максим Бабенко - Как мы адаптировали динамические таблицы YTsaurus для хранения блобов
Переглядів 2774 місяці тому
Максим Бабенко - Как мы адаптировали динамические таблицы YTsaurus для хранения блобов
Петр Зайцев - Глубокое погружение в производительность запросов
Переглядів 3014 місяці тому
Петр Зайцев - Глубокое погружение в производительность запросов
Игнат Колесниченко - Планирование миллиардов задач каждый день
Переглядів 2154 місяці тому
Игнат Колесниченко - Планирование миллиардов задач каждый день
ну и нах*** он такой нужен этот кликхаус? неужели более адекватных альтернатив нет?
Честность нужна только внутри команды и то не всегда. Какие-то очень сферические рассуждения получились на 15:50
очень толковый доклад, благодарю
Единственный нормальный доклад без воды на русском, мое уважение
вместо различных историй хотелось больше услышать про механизм, вместо этого по механизму быстро пробежались без углубления в детали, чтож пошел гуглить
Послушал Начало. Да. Бубки и ВК естьь Софт все равно амно
Хороший доклад. Описывает типовую связку dbt с airflow, но все это печально. Скоро выйдет какой-нибудь open source и все инженеры будут запросики писать
Было бы крайне интересно послушать про нынешнюю ситуацию с DWH. Как сложилась все таки ситуация с Exasol, ведь, наверняка, компания Exasol в РФ не предоставляет свои продукты.
Спасибо большое) Было очень интересно
Классный доклад!
Trino, Drill, Impala, StarRocks, SparkSQL а теперь еще и DQ :) Осталось еще cost based optimizer докрутить
Analysis[əˈnælɪsɪs]=Анализ это детальное Изучение Составляющих или Строения чего-либо.
Analytical[ænəˈlɪtɪkəl]=Аналитический означает относящийся к анализу или логическому мышлению или использующий их.
Слишком много аааааа
Прекрасный лектор и учёный Всегда приятно слушать Спасибо огромное советскому поколению и образованию
batch [bæʧ] - пачка, пакет; последовательность, серия; партия
duplication [djuːplɪˈkeɪʃn] - удвоение, удваивание; копирование; воспрои ведение; размножение; повторение; тиражирование.
replicate [ˈreplɪkɪt] - копировать, повторять; воспроизводить, размножать; тиражировать, дублировать.
replicated [ˈreplɪkeɪtɪd] - скопированный, воспроизводимый
Подонок. Благ его лишили. Войну в Европе развязали. Войну, мерзавец, развязало в, Европе НАТО, в 1999 году.
Это вы про себя
Слишком много аааааа
Да норм лектор
В точку
Потерпишь
Это туалетная тряпка , а не ученый . Просто рвань позорная. Пацаны с сво покажут тебе твоё иесто
Допустим я быстро обработал данные. Но ведь станок все равно деталь будет пилить 9 часов
Шмурдин - или нйух
Этот человек делает науку платной! Пуполерезатор)
А когда она была бесплатной?
бесплатный только сыр на фудкорте и то если кто-то не доел..
Я не могу за науку платить. Я работаю уже 4 года за еду
@user-sm1ur5bk2r без образования и специальности работу нормальную найти тяжелее с каждым годом.
@@СергейСергеевич-м8у7о все что он рассказывает я узнал бесплатно! Все что он расскажет за деньги тебе не пригодится. Он умный дядька, я не спорю! Но гранты надо как-то окупать!? Вот тебе и популяризаторы. Мб сам не хочет! Надо!!!! А если что не так... Гарантия возврата денег Мы расширим ваши познания в области астрономии и окружающего мира в целом с помощью легких уроков с доступным изложением за 6 недель. Вернем деньги без вопросов и задержек, если вам не понравится после первых трех уроков.
Хороший контент, но Марк слишком быстро тараторит)
Отличный доклад, спасибо)
Уффф, офигенно вышло Ты лучший, без шууток Я тҽбҽ 𝓬дҽлαю ρҽƙ1лαᙏყ Ԩα 𝓬ßσҽᙏ 𝓬тρиᙏҽ бҽ𝓬плαтԨσ, Ԋαбҽρҽ1ᙏ тҽбҽ пσдпи𝓬чиƙσß! 3αйди Ԋα этσт ƙαԨαл ყßидиɯƄ ᙏσи дßα ƙαԨαлα - пσдпиɯи𝓬Ƅ Ԩα Ԋиχ! А я тебе пожелаю удачи! :)
18 минут из 30 не про маге
Отличный доклад!
Такое ощущение, что на Flink написали NiFi)
Является ли CDC/Debezium альтернативным решением в случае с небольшим количеством сообщений и несложными трансформациями?
Жаль, что цель доклада - реклама форка, который уже заброшен 😢
И ещё какая тварь UA-cam замедляет, руки бы обломать...
Отличный доклад
Спасибо Владимиру за отличный рассказ
бэ, мэ, ненужный выпендреж и шуточки, по существу не много
есть русское слово - применить, зачем долгое имплементировать ? )))))
очень много воды
Много не по теме. А так очень интересно Спасибо
Да блин, запускаю тот же самый код и работает иначе всё
Понравилась первая часть выступления, которая не относилась к Mage, вот эта рефлексия с позиции менеджера. Как только перешли к демо по непосредственной теме, все стало очень скомканно, что-то в streamlit показал, запустил пайплайн в mage, что получил, для чего - непонятно. Может быть, стоило строить доклад не вокруг конкретного тула, а до конца описать преобразования, которые с командой удалось осуществить. От себя скажу про Mage. Он расширяет возможности оркестратора, позволяя смотреть на результаты трансформаций в jupyter-like интерфейсе и даже передавать датасеты между тасками. Также он ест меньше памяти в сравнении с Airflow, особенно в idle state. Но! В прод мы так и не решились с ним идти - он все-таки еще очень сырой, какие-то нечитаемые ошибки, баги и т.п.
ЭЭ а как же запрет работы из-за границы ?
Интересно, ожидал, что на Data Lens перейдут
Добрый день. А мне, как кандидату, не понравилось интервью. Создалось впечатление, что нанимающие менеджеры живут в своей придуманной ими реальности. Что нужно сделать чтобы % был больше: перестать искать сферического коня в вакууме, идеала(с нереальными скилами), а опираться на реальных людей, которые приходят на рынок. И речь идет не о том, что нужно брать не грамотных, а о том, чтобы опираться на опыт людей+потребности компании. Если нанимающий менеджер даже резюме не читает - по мне это говорит о том, что он не заинтересован в человеке, а хочет найти функцию. Позиция соискателя: 1. Все знать невозможно, по причине огромного количества информации и технологий, тем более, что они устаревают. 2. за свою карьеру я работал в разных компаниях, и удивительно: то, что меня спрашивали на собесах по технологиям, в реальных проектах было не более 20% 3. считаю, что умение осваивать и учиться новому гораздо более важно, чем знания на текущий момент, однако не все компании это понимают. 4. лайф-кодинг по python на собесах для DE считаю бесполезной штукой, поскольку сейчас очень много информации по python, для написания дагов airflow не нужно сверхзнаний, а если пишешь на nifi, там вообще nocode. Гораздо важнее понимание процессов, как работает та или иная технология, принципы проектирования БД, обработка данных, знание нюансов конкретной СУБД, в которой работаешь. У меня в опыте по DE и даже когда я был разработчиком, ни разу не было задач по алгоритмам. Разве что в институте. Зачем это спрашивают - я не понимаю. 5. Софт-скиллы важны, это да. Однако когда нанимающий менеджер даже резюме не читает, это занавес. Мне скажут, что он очень занят, это отговорки, поскольку если нанимают по месяцам(то на это время, конечно же есть). Найм - это обоюдный процесс. 6. Мне очень понравилась идея спрашивать человека об его опыте. Это честно и вызывает уважение. И по сути верно. О чужом опыте гораздо труднее разговаривать. А про знания - я написал выше. Вывод: маленький % по найму на мой взгляд из-за того, что компании хотят найти идеального под себя кандидата. Идеалы недостижимы, они есть, но только в наших головах, а реальность другая.
Здравствуйте, а видео из дискуссионной зоны пишется?
Здравствуйте! Дискуссии после активностей не записываются, принять в них участие можно только непосредственно во время проведения конференции 🙃
А embedded остается такой же? У суперсет насколько я понимаю embeded достаточно ограничен
Уже вторая половина 2024, где open source))
Суперсет - огонь!