ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ

Поділитися
Вставка
  • Опубліковано 17 вер 2024
  • На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!
    🔔 План:
    📌 Как и почему появился Apache Spark
    📌 Какие задачи решает
    📌 Основные концепции
    📌 Практика 1 - установка и запуск PySpark локально
    📌 SparkSQL API
    📌 Практика 2 - делаем ETL в PySpark
    📌 Q&A
    🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!
    📕 Записывайтесь и проходите курс Инженера Данных.
    ⚠️ КУРС БЕСПЛАТНЫЙ!
    🔗 Записаться вы можете на нашем портале datalearn.ru/
    👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.

КОМЕНТАРІ • 53

  • @illiakaltovich
    @illiakaltovich Рік тому +24

    Отличная вводная лекция по Spark 🙂
    Таймкоды:
    1:38 - План вебинара
    3:05 - Для кого этот вебинар
    3:48 - О спикере
    5:00 - Начало. Пример задачи, под которую заточен Spark
    11:59 - Что такое Spark?
    17:36 - Модель распределенных вычислений в Spark
    22:40 - Нужен ли Spark’y Hadoop?
    22:25 - Практика. Установка Spark локально
    27:04 - Установка Pyspark из pip
    35:15 - Запуск Spark из Docker
    38:26 - Запуск Spark в Google Colab
    45:35 - Обзор собранной статистики о слушателях
    46:00 - Q&A сессия
    51:08 - Про режимы работы Spark
    54:02 - Что можно делать в PySpark?
    56:24 - Компоненты PySpark приложения
    1:05:54 - Подробнее о DataFrame
    1:08:41 - Читаем данные в DataFrame
    1:15:08 - О трансформации данных
    1:17:26 - О записи данных
    1:18:54 - SQL в Spark
    1:23:26 - Практика. DataFrame API
    2:24:39 - DataFrame API: основные методы в использовании
    2:25:36 - SQL functions: основные методы в использовании
    2:27:40 - Общие принципы Spark приложения
    2:34:08 - Q&A сессия

    • @annicioua
      @annicioua Рік тому +2

      Спасибо тебе добрый человек =)

  • @user-qf5fx8gf1f
    @user-qf5fx8gf1f 24 дні тому

    Прекрасная лекция, спасибо огромное!

  • @ManticoreRoko
    @ManticoreRoko Рік тому +5

    Великолепный материал для тех кто только начинает погружаться в PySpark. Благодарности ведущему и основателям канала

  • @olegzaba4756
    @olegzaba4756 2 роки тому +7

    вообще классно всё объяснил - 3 часа как одно мгновение ... очень жду продолжение!

  • @user-xl1zq2ic5f
    @user-xl1zq2ic5f 2 роки тому +7

    Сильный спикер, спасибо!

  • @Юрий-б2ф4з
    @Юрий-б2ф4з 2 роки тому +2

    Лучшая вводная лекция, которую я видел. Но, ребята, что за звук? 2021й год и треск микрофона?! Вы серьезно?)

  • @sergeystrikanov2302
    @sergeystrikanov2302 2 роки тому +2

    Большое спасибо! Очень круто для понимания и знакомства с PySpark.

  • @ДмитрийВолишевский

    Кайфовый вэбик. Вы как всегда на уровне бог. Спасибо Олегу!

  • @254598
    @254598 2 роки тому +1

    Ребята вы лучшие! Купила курс на gb, в итоге модуль про спарк изучаю по вашему видео)

  • @bbbkkk930
    @bbbkkk930 11 місяців тому

    хороший эфир ...
    авторам спасибо

  • @user-zo6cz2er8k
    @user-zo6cz2er8k 3 роки тому +1

    Спасибо, долго искал что-то подобное на ру-ресусрах)

  • @lex83641
    @lex83641 2 роки тому

    Отличный доклад! Гораздо лучше всяких индусов

  • @anastasiyaivanova6992
    @anastasiyaivanova6992 3 роки тому +1

    Спасибо, очень полезная информация для ознакомления с PySpark. Как раз то что было нужно.

  • @lerosh7894
    @lerosh7894 11 місяців тому

    вебинар огонь

  • @vandriichuk
    @vandriichuk 3 роки тому +1

    Спасибо. Для меня очень полезный материал. Особенно ценно, что на русском.

  • @gpankov
    @gpankov 8 місяців тому

    лучшее объяснение!

  • @petrodyak
    @petrodyak 2 роки тому

    Thanks for the introduction to the PySpark! It was very useful.

  • @denisbaranoff
    @denisbaranoff 2 роки тому

    Прекрасно, это прям ну очень просится па мастеркласс по пайспар в какой- нибудб юдеми👍👍👍

  • @aliaksandrsiamenau9922
    @aliaksandrsiamenau9922 2 роки тому

    Замечательный стрим, спасибо

  • @faizalimuhammadzoda4731
    @faizalimuhammadzoda4731 2 роки тому

    Спасибо за хороший контент.

  • @itrunner
    @itrunner 2 роки тому

    Очень крутой доклад!

  • @igorbulenko6335
    @igorbulenko6335 2 роки тому

    Спасибо, очень круто, хотелось бы продолжения ))

  • @salivona
    @salivona 2 роки тому

    Очень здорово, спасибо!

  • @nikitakrutikov9697
    @nikitakrutikov9697 2 роки тому

    Респектище, помогло очень

  • @maksimkuznetsov2132
    @maksimkuznetsov2132 Рік тому +1

    Спасибо большое! По ETL вообще мало чего есть в русскоязычном сегменте ютуба. На мой взгляд лучший способ передачи опыта - видео.
    Питон немного изучал. Сейчас я PL/SQL разработчик, но думаю смещаться в ETL.
    Дико привык к SQL. И все эти методы кажатся извращением. Вообще БД-шные спецы плюются на спарк и ORM

    • @529aff
      @529aff 7 місяців тому

      в spark можно писать и на sql

  • @annicioua
    @annicioua Рік тому +4

    Как жаль, что ведущий вебинара не рассказал, что просто так ты не заинсталлишь Spark через pip install , если не создашь специальные системные переменные среды, а у лектора всё уже готовенько, а у него pyspark к моменту записи вебинара уже давно установлен был..

  • @Vanzer77
    @Vanzer77 2 роки тому +8

    Отличное видео для начала работы с PySpark!
    Есть вопрос по части, где нужно посчитать статистики по полю manufacturer_name.
    Из моего опыта с СУБД и Pandas, очень плохой тон делать группировки по текстовым полям - они работают значительно медленнее чем по целочисленным полям / датам. Понимаю, что в видео поле manufacturer_name было выбрано для примера, но как в целом у спарка обстоят дела с группировкой по тестовым колонкам?

  • @ДмитрийАверьянов-щ4г

    Шикарно

  • @dmitryanoshin8004
    @dmitryanoshin8004 3 роки тому +3

    Очень круто! Добавим к модулю 7 DE-101!

    • @anton108
      @anton108 2 роки тому +1

      ты забыл вставить ссылку в GIT

  • @Asylum_M
    @Asylum_M 2 роки тому +2

    Спасибо, а когда продолжение? На ютубе одни вводные лекции для pyspark, а хотелось бы более глубокого погружения.

    • @maksimkuznetsov2132
      @maksimkuznetsov2132 8 місяців тому

      Привет. Кстати, как успехи с пайспарком?
      Вообще мне показалось, что всего, что тут есть хватит для старта карьеры в этом стэке.
      Сейчас пытаюсь стартовать в этом имея за плечами большой опыт на SQL и материал этого видео. ))

  • @maksimkuznetsov2132
    @maksimkuznetsov2132 Рік тому

    Интересно было бы ещё узнать, где чаще всего бывают затыки по производительнсти.

  • @maksimsvirskiy6828
    @maksimsvirskiy6828 2 роки тому +1

    Огромное спасибо - было очень понятно! а где посмотреть презентацию и ссылки все на гит и т.д.?!

    • @Frezer911
      @Frezer911 Рік тому

      В чатике трансляции

  • @imoldpirate
    @imoldpirate Рік тому

    норм

  • @antonboiko788
    @antonboiko788 Рік тому

    Драйвер не распределяет данные между экзекьюторами, это делает Cluster manager

  • @qweras79
    @qweras79 Рік тому

    Привет. Спасибо большое за видео. Можно вопрос, будь ласка? я попробовала работать в сессии Спарка прямо из Визуал Студио Код - єто очень неудобно по ряду причин. Установила взяла отдельно Юпитер. но сессия Спарка в Юпитера не запускается. Єто невозможно или я что-то делаю не так?

  • @Egor-sm4bl
    @Egor-sm4bl 2 роки тому +1

    Хм, а у меня сразу сохранило в одном файле json.... Что-то не так сделал?

  • @volodink
    @volodink 6 місяців тому

    А ссылку на гитхаб в коменты скиньте пожалуйста😅

  • @cozyfootball
    @cozyfootball 10 місяців тому

    Очень много водяных рассуждений ни о чем. Очень много бэ, мэ, эээ.
    "Я рассказываю так быстро" - ты серьзно?

    • @529aff
      @529aff 7 місяців тому

      запишешь лучше?