Что такое градиентный бустинг? | Григорий Будорагин | karpov.courses

karpov.courses

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 26 вер 2024
Учитесь ML с нами:
Симулятор ML: bit.ly/3Lhk0wi
Курс Start ML: bit.ly/3ZA8vEL
Курс Hard ML: bit.ly/3J48EsV
Градиентный бустинг - ключевой алгоритм машинного обучения для табличных данных. Его используют в поиске, подборе цен и в противодействия мошенничеству.
Сегодня вместе с аналитиком-разработчиком Яндекса, Григорием Будорагиным, мы разберёмся, как алгоритм обучается на данных и прогнозирует числовые величины на примере цен домов.

КОМЕНТАРІ • 41

@NiksFok Рік тому ⁺¹⁵
Я не очень понял почему 230 футов меньше 200.
@TheMrGrench Рік тому
Действительно)
@bdrgn Рік тому ⁺¹
я извиняюсь, на слайде 'да' и 'нет' перепутаны местами на первом разделении
@АндрейВоробьев-ь7ц Рік тому ⁺¹
@@bdrgn думаю дело не в словах а в знаке условия
@spyphyfarnsworth6050 Рік тому ⁺⁸
про ГРАДИЕНТНЫЙ бустинг вообще ни слова
@АлександрЕлизаров-ш5н Рік тому ⁺²
Рисовка класс, формат понравился, в идеале делать ролики такого же формата, но с более глубоким погружением в ML (ну это так, хотелка), спасибо авторам!
@bdrgn Рік тому
Спасибо! А где глубины не хватило в этой теме?
@АлександрЕлизаров-ш5н Рік тому
@@bdrgn объяснение показалось верхнеуровневым, что для такой длительности видео даже хорошо, но если бы лекции были подлиннее и «поглубже» с формулами и тд, было бы просто прекрасно! Обычно такая тема как бустинг и деревья объясняется час+
@bdrgn Рік тому ⁺¹
@@АлександрЕлизаров-ш5н сегодня вышло моё длинное видео про градиентный бустинг. там без формул, но зато сразу с кодом.
ua-cam.com/video/J56xpgadgzY/v-deo.html
@angryworm80 Рік тому ⁺⁶
Эммм…
1-е: насколько я помню дерево регрессии на обучении все таки формально не MSE на расщеплении считает, а дисперсию 🫤✌🏻 … и соответственно старается минимизировать суммарную дисперсию расщепления. Хотя с точки зрения формул все одинаково.
2-е. На N+1 шаге прогнозируется НЕ величина ошибки на N шаге, а значение градиента функции ошибки при имеющемся значении на N шаге. Ибо именно градиентом потом делается Sn+1 = Sn - @ * grad
@no-user-found 22 дні тому
переживал, что моего понимания математики не достаточно для вкатывания в ML, тут разработчик яндекса MSE от дисперсии не отличает... шопроисходит вообще?
@musl1618 3 місяці тому
Круто!!!! Очень даже понятно👍👍👍
@Irades 4 місяці тому
Спасибо, хорошее объяснение
@hopelesssuprem1867 Рік тому ⁺⁷
У меня вопрос: преподаватели на курсах умеют реализовывать с нуля такие алгоритмы без sklearn? Я это к чему...перед бустингом надо было бы рассказать про ансамбли и случайные леса, и роль бутстрапа в этом, потом про дерево классификации и регрессии CART, про бинарное дерево, работающее через рекурсию, потом про то, что в случае классификации наилучший вопрос берется по gini index, а в регрессии по mse, а потом это все забилдить с нуля. Только тогда у студентов будет полное понимание бустингов. Советую всем проделать эти шаги с нуля и полностью всё изучить т.к. бустинг - это серебряная пуля в мире ML. Но за видос спасибо, задумка харошая, жаль что раскрыта не до конца.
@bdrgn Рік тому ⁺¹
Вы прямо в яблочко попали про имплементацию алгоритмов без sklearn! Тут как раз вышло моё видео, где пишу с нуля градиентный бустинг на Python: ua-cam.com/video/J56xpgadgzY/v-deo.html
@hopelesssuprem1867 Рік тому ⁺²
@@bdrgnого, вот это вы круто сделали, сейчас буду смотреть ибо я такие штуки очень люблю). На мой взгяд, реализация алгоритмов с нуля - это самое важное в обучении ml. Респект👍
@Devof-n9i Рік тому ⁺⁷
У меня вопрос теоретического плана: я ем капусту, сосед ест мясо, в среднем, мы едим голубцы. Почему алгоритмы машинного обучения используют среднее значение, а не медиану?
@bdrgn Рік тому ⁺⁶
Если распределение нормальное, то среднее и медиана попадают в одну точку. В остальных случаях ошибка ниже при прогнозировании с помощью среднего, потому что оно лучше отображает тенденцию распределения.
@Devof-n9i Рік тому ⁺¹
А нормализация распределения разве не работает только (в большинстве реальных случаев) при большом числе наблюдений? Насколько уместно ожидание нормальности от распределения в реальной жизни?
@pupuneux Рік тому ⁺⁸
Так и от капусты с мясом медианой будут голубцы 🙃
@cryptoworkdonkey Рік тому
@@Devof-n9i условно если применил log/Бокса-Кокса к цене, а на выходе делаешь exp от log цены - держи в уме Jensen inequality и выпуклость.
@cryptoworkdonkey Рік тому ⁺¹
@@pupuneux , будут "деревенские" голубцы а не "купеческие".
@НиколайГригорьев-ч2е 6 місяців тому
Формула MSE не правильная.
Сказано, что это предсказание - среднее, но на самом деле это предсказание - истинное
@no-user-found 22 дні тому
Эмм, а с каких пор MSE использует разницу между средним значением и значением таргетов? Дерево выбирает предикаты уменьшая дисперсию, а не MSE. Зашёл посмотреть про градиентный бустинг, а тут такое...
@kuban23_96 Рік тому ⁺¹
«Алгоритм обучает прогнозировать ошибку предыдущего дерева», а как? Тема в видео не раскрыта!!!
@unknownhero6187 Рік тому ⁺²
От чего происходит название градиентный бустинг и как оно связанно с деревьями?
@bdrgn Рік тому ⁺²
Градиентный бустинг может использовать в качастве слабого алгоритма не только деревья, но и другие алгоритмы. Деревья просто самый популярный из них, поэтому именно они используются в видео. Как правило сегодня когда говорят бустинг подразумевают ансамбли деревьев.
Бустинг называется градиентным, потому что при обучении каждого нового алгоритма используется ошибка предыдущих. Каждый новый обученный алгоритм это «шаг» градиентного спуска в направлении снижения ошибки.
@thedotareview9748 Рік тому
Можешь для иллюстрации загуглить 'линейный градиент', там будем картинка с постепенным изменением цвета/цветов. Таким же образом меняются деревья при помощи градиентного бустинга, постепенно от одного состояния к другому
@matthewgiovannini2360 10 місяців тому
У меня вопрос...
Почему он вместо MSE считает дисперсию? Он точно знает что такое MSE?
@alekseistepanov6426 8 місяців тому
Из цены нужно вычитать не среднее, а предсказанную моделью цену
@valeriym.9478 Рік тому ⁺¹
Цена дома в 230 кв.футов должна быть $200k
@ruslanchernyak1135 Рік тому
откуда берутся 220 и 80 я не понимаю
@НиколайВладимирович-к5ф Рік тому
Наконец то понятно и доходчиво. Спасибо!
@ilyaisko Рік тому
Кажется еще MSE должен быть в 10^6 раз больше
@АндрейДостоевский-к5в 4 місяці тому
Ни слова про сам градиентный бустинг. Опять воспитывают жертв онлайн курсов, которые не понимают, как работает алгоритм и как им управлять. Сколько уже собеседовал подобных жертв - всегда одно и то же: в голове только шаблонные фразы без понимания, что за ними стоит. Чуть-чуть глубже начнешь копать и понимаешь, что в голове то каша...
@waitwhat9669 Рік тому
И все же я не понял, как он выбрал задать первый вопрос к площади дома, а не количестве спален, допустим
@karpovcourses Рік тому
Модель проверила оба варианта, и выяснила, что если выбрать площадь дома для первого вопроса, получится снизить ошибку в данных наибольшим образом.
@DayZExperimentalRus Рік тому ⁺¹
Не совсем понятно про бустинг. Про деревья ещё более менее понял, но я не ради этого сюда зашёл на видео.
Тема градиентного бустинга не раскрыта полностью.
Был такой физик Фейнманн, его называли великим объяснятелем: он мог объяснить суть Вселенной даже ребёнку.
Вам нужно стремиться к нему же: расскажите про бустинг на бананах и яблоках - слава придёт к вам семимильными шагами!
Пока что ставлю диз. Тема не раскрыта.
@dangerenok Рік тому
Что то я не понял. В итоге придем к дереву которое должно давать среднее значение цены. И зачем такое дерево? Я наверно что то не понял

Наступне

Автоматичне відтворення

Градиентный Бустинг: самый частый вопрос на собеседовании на дата саентиста