CatBoost на больших данных | Вебинар Александра Савченко | karpov.courses
Вставка
- Опубліковано 13 жов 2024
- Курс «Инженер данных»: bit.ly/3GclP89
Spark - пожалуй, самый популярный фреймворк для работы с большими данными, предоставляющий инструменты для построения и обучения различных ML-моделей. CatBoost - открытая библиотека для градиентного бустинга от компании Яндекс.
В рамках вебинара мы обсудим, как подружить Spark и CatBoost; рассмотрим процесс обучения моделей на SparkML; научимся обучать CatBoost модели на больших данных; разберём, как встраивать CatBoost в компоненты SparkML.
Google CoLab (Notebook) из видео: clck.ru/ZADik
Репозиторий с исходниками: clck.ru/ZADjm
Документация по catboost-spark: clck.ru/ZADkg
Catboost-spark репозиторий: clck.ru/ZADrL
RAPIDS Accelerator for Apache Spark: clck.ru/ZADrk
Учитесь Data Science с нами: karpov.courses/
Спасибо! Отличный, практичный ролик! 🎉
Благодарю вас за познавательное видео? Подскажите, пожалуйста, повышает ли применение pyspark точность на большом количестве классов в комбинации catboost?
Спасибо за Ваш труд 🌏🕊
3:13
Почему ничего не изменилось в точности предсказания, после того, как мы задали категориальные фичи?
Да, простите, во время вебинара у меня опечатка была допущена, и я создавал метаинформацию по исходным колонкам, а нужно было по тем которые были получены после StringIndex'ов. В CoLab сейчас это исправлено.
@@alexkbit ок, спасибо!
Учитывает ли приведенный в уроке pipeline категориальные фичи или нужно добавлять стейдж?
Да, Нужно добавить будет стейдж с добавлением метаинформации, но вы можете реализовать обернутую векторизацию которая это будет делать, на базе VectorAssembler.
Как добавить стейдж с withColumn?
Вам нужно просто реализовать свой класс-трансформера с вашей логикой по созданию новой колонки.
Для этого просто опишите класс унаследованный от Transformer.
спасибо