089. Мастер класс Решение задач классификации при помощи CatBoost - Никита Дмитриев

Yandex for ML

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 13 жов 2024
PyData Moscow, 13 октября 2018 г.
Градиентный бустинг - метод машинного обучения, появление которого привело к прорыву в решении многих задач, включая поиск в интернете, создание рекомендательных систем и прогнозирование погоды. На протяжении многих лет он остаётся основным методом работы с неоднородными признаками, зашумлёнными данными и сложными зависимостями.
CatBoost - это библиотека градиентного бустинга с открытым исходным кодом. Она превосходит по качеству аналоги и имеет дополнительные преимущества. CatBoost поддерживает работу с категориальными признаками (например, жанрами музыки, ID устройства, URL и т. д.) без предобработки данных. У него очень хорошие дефолтные параметры, поэтому их не нужно настраивать для получения качественных моделей. А GPU-реализация CatBoost - самая быстрая среди общедоступных реализаций градиентного бустинга.
С возможностями библиотеки мы будем знакомиться на примере решения задачи классификации. Вместе мы пройдём все этапы построения модели прогнозирования и рассмотрим следующие темы:
Выбор подходящих функций потерь и метрик для оптимизации.
Обучение модели.
Визуализация процесса обучения и кросс-валидации.
Работа со встроенным детектором переобучения.
Выбор оптимального порога принятия решения.
Важность признаков и интерпретация прогнозов модели.
Применение обученной модели к тестовым данным.
Для участия мастер-классе нужен настроенный Jupyter Notebook с установленными библиотеками: catboos, ipywidgets, sklearn, matplotlib, shap.
Никита Дмитриев
Окончил механико-математический факультет МГУ и Школу анализа данных. В Яндексе занимается разработкой систем машинного обучения.
Другие материалы PyData Moscow - events.yandex....

КОМЕНТАРІ • 32

@martins1500 5 місяців тому ⁺⁶
Классный туториал, спасибо. Печально, что я пришел сюда только в 2024.
@alexeylubinets8758 3 роки тому ⁺³
Отличная лекция, много полезной информации. Ждем многопоточные вычисления на cpu. Хорошо бы еще добавить примеров на официальном сайте.
@Ivan-rj8fg 4 роки тому ⁺⁴
30:18 Cross-validation
1:06:03 tunning
@linterrupt 3 роки тому ⁺⁴
На XGBoost я получаю ROC AUC = 0.87
На CatBoost ROC AUC = 0.74.
В чем же причина
@nikitakuptsov1233 2 роки тому ⁺¹
А есть подобное видео для задачи регрессии?
@jjj78ean 5 років тому ⁺⁴
Для тех, кто хочет поиграться с параметрами -мотайте на 1:06:00
@ilyin_sergey 5 років тому ⁺¹
а по какой ссылке ноутбуки лежат?
@mukammedalimbet2351 Рік тому
спасибо! очень полезно
@jjj78ean 5 років тому ⁺⁴
43:20 roc-curve
@linterrupt 3 роки тому
34:16 Почему нет AUC для train?
А нет, тут есть. Но у меня почему-то не показывает
@ОлегДоходицифровыефинансы 5 років тому ⁺¹
Мы получили число-границу принятия решений при помощи Trashhold. Как ее передать в модель?
@romanbaldaev227 5 років тому ⁺¹
Как вариант - после predict_proba руками сделать итоговые предсказания
@yugopolis23 2 роки тому ⁺⁴
Почему он всё время чавкает ?
@AgentSmithLP 3 місяці тому
оче приятно
@mikhailzhitnikov3715 2 місяці тому
Очень уж он дефолтный получился. Превзойти результаты параметров по умолчанию крайне сложно на вменяемых данных. С одной стороны это хорошо. С другой получается, что катбустом затестил датасет, оценил приблизительно и пошел дальше учить другие модельки. Впрочем и XGB не далеко ушел. Может так и задумывалось разрабами конкретной реализации, а может сам бустинг "устойчив" к подбору гиперпараметров )
@sonfiree 5 років тому ⁺¹
Где ноутбук взять? В репозитории CatBost не правильный лежит
@nikitxskv 5 років тому ⁺⁵
github.com/catboost/catboost/blob/master/catboost/tutorials/events/pydata_moscow_oct_13_2018.ipynb
@kuqmua755 5 років тому ⁺¹
Респект.
@myolimpiada5037 6 років тому ⁺²
Первый Нах! :)
Спасибо !
было очень интересно!
@Sibbarb9 2 роки тому
А почему не Анна рассказывает? Это же ее ребёночек)
@cozyfootball Рік тому
Брак по звуку, Яндекс ну ты чего 😮
@prapor23rus 2 роки тому ⁺¹
у сотрудника Яндекса стоит адблок - как это показательно...
@darenty6752 2 роки тому
таймкод для себя 54:32
@gordonfreeman6804 3 роки тому
CatBoost лучше некоторых. Уступает в точности Random Forest - сам проверил на сложных датасетах. Да и то, что с шумами и выбросами не борется делает его заурядным алгоритмом. Есть куда более перспективные направления в ML.
@baxai_ 3 роки тому ⁺⁶
Как рэндом форест может быть лучше бустинга?) шо вы придумываете ей богу
@МаъруфСултанов-ь1ш 2 роки тому
что у него за ноутбук ?
@petrkoklev6857 2 роки тому ⁺²
jupyter
@martins1500 5 місяців тому
Макбук конечно же, как у любого приличного программиста
@mikhailzhitnikov3715 2 місяці тому
Если учить модели на локальном GPU, то Макбук не вариант. Любой игровой ноут с картой rtx будет считать сильно лучше.
@jamesmiller2521 5 років тому
У меня такое ощущение, что катбуст в Яндексе написали "шоб було" или по юридическим причинам. Честно говоря, преимущества пред хгбуст и лайтгбм не очевидны.
@linterrupt 3 роки тому ⁺⁵
Почему, в сравнении же выигрывает. API CatBoost намного приятнее того же XGBoost. Еще плюсом является, что не надо отдельно обрабатывать категориальные фичи, он сам обработает. Очень удобно, что выводит график в реальном времени

Наступне

Автоматичне відтворення

090. Yargy парсер. Извлечение структурированной информации из текстов на русском языке