CatBoost на больших данных | Вебинар Александра Савченко | karpov.courses

Поділитися
Вставка
  • Опубліковано 13 жов 2024
  • Курс «Инженер данных»: bit.ly/3GclP89
    Spark - пожалуй, самый популярный фреймворк для работы с большими данными, предоставляющий инструменты для построения и обучения различных ML-моделей. CatBoost - открытая библиотека для градиентного бустинга от компании Яндекс.
    В рамках вебинара мы обсудим, как подружить Spark и CatBoost; рассмотрим процесс обучения моделей на SparkML; научимся обучать CatBoost модели на больших данных; разберём, как встраивать CatBoost в компоненты SparkML.
    Google CoLab (Notebook) из видео: clck.ru/ZADik
    Репозиторий с исходниками: clck.ru/ZADjm
    Документация по catboost-spark: clck.ru/ZADkg
    Catboost-spark репозиторий: clck.ru/ZADrL
    RAPIDS Accelerator for Apache Spark: clck.ru/ZADrk
    Учитесь Data Science с нами: karpov.courses/

КОМЕНТАРІ • 12

  • @artem-314
    @artem-314 24 дні тому

    Спасибо! Отличный, практичный ролик! 🎉

  • @newglory6789
    @newglory6789 26 днів тому

    Благодарю вас за познавательное видео? Подскажите, пожалуйста, повышает ли применение pyspark точность на большом количестве классов в комбинации catboost?

  • @sashab.5472
    @sashab.5472 2 роки тому +1

    Спасибо за Ваш труд 🌏🕊

  • @mwave3388
    @mwave3388 2 роки тому +2

    3:13

  • @DmitryB876
    @DmitryB876 2 роки тому +1

    Почему ничего не изменилось в точности предсказания, после того, как мы задали категориальные фичи?

    • @alexkbit
      @alexkbit 2 роки тому

      Да, простите, во время вебинара у меня опечатка была допущена, и я создавал метаинформацию по исходным колонкам, а нужно было по тем которые были получены после StringIndex'ов. В CoLab сейчас это исправлено.

    • @DmitryB876
      @DmitryB876 2 роки тому

      @@alexkbit ок, спасибо!

  • @alekseyloverberg1742
    @alekseyloverberg1742 2 роки тому

    Учитывает ли приведенный в уроке pipeline категориальные фичи или нужно добавлять стейдж?

    • @alexkbit
      @alexkbit 2 роки тому

      Да, Нужно добавить будет стейдж с добавлением метаинформации, но вы можете реализовать обернутую векторизацию которая это будет делать, на базе VectorAssembler.

  • @alekseyloverberg1742
    @alekseyloverberg1742 2 роки тому

    Как добавить стейдж с withColumn?

    • @alexkbit
      @alexkbit 2 роки тому

      Вам нужно просто реализовать свой класс-трансформера с вашей логикой по созданию новой колонки.
      Для этого просто опишите класс унаследованный от Transformer.

    • @alekseyloverberg1742
      @alekseyloverberg1742 2 роки тому

      спасибо