#41. Случайные деревья и случайный лес. Бутстрэп и бэггинг | Машинное обучение

Поділитися
Вставка
  • Опубліковано 25 тра 2022
  • Общая идея композиции простых алгоритмов в соответствии с идеей бэггинга (bagging). Способ разбиения обучающей выборки на несколько подвыборок по алгоритму бутстрэп (bootstrap). Бэггинг с решающими деревьями. Случайный лес (random forest). Реализация случайного леса на Python через классы RandomForestClassifier и RandomForestRegressor. Преимущества и недостатки случайного леса.
    Инфо-сайт: proproprogs.ru/ml
    Телеграм-канал: t.me/machine_learning_selfedu
    machine_learning_41_regression.py: github.com/selfedu-rus/machin...
    Ансамблевые методы: scikit-learn.ru/1-11-ensemble...

КОМЕНТАРІ • 12

  • @artemivanov5013
    @artemivanov5013 2 роки тому +3

    Супер урок!!!Спасибо!

  • @sergeyworm1476
    @sergeyworm1476 Рік тому +1

    Спасибо за видео!
    Всё же, наверное, "генератор" случайных чисел, а не "датчик". Хотя мне "датчик" нравится :)

  • @tastywhiskyy
    @tastywhiskyy 2 роки тому +3

    Про градиентный бустинг будет?
    А так все топ

  • @user-il7hc8mw3v
    @user-il7hc8mw3v Рік тому +1

    Спасибо за видео! Всё же если остановиться на линейных моделях, в теории метод работает? Очевидно, что среднее нескольких независимых моделей лучше чем каждая в отдельности. Но лучше ли это одной модели которая училась на всей выборке? В простейшем случае предсказания константы в шуме, "лучшая" оценка это среднее значение выборки с дисперсией в N раз меньшей, чем у шума, где N - размер выборки. В этом случае можно что-то улучшить взяв несколько подвыборок?

  • @shapovalentine
    @shapovalentine Рік тому

    Очень крутой урок. Единственное не понял проблему (на 9:22): "
    Алгоритмы aj(x) в своей совокупности должны охватывать как можно больше возможных исходов для каждого вектора x и формировать как можно более независимые ответы
    >>> Линейный алгоритм не очень пригоден при композиции (усреднении) ответов"

    • @selfedu_rus
      @selfedu_rus  Рік тому +1

      Спасибо! Суперпозиция линейных алгоритмов - это все тот же линейный алгоритм.

  • @YbisZX
    @YbisZX Рік тому +1

    @selfedu 9:04 А как быть с M-классификацией? Выбирать класс по большинству? Или тогда уже лучше по большинству из суммы в конечных листах деревьев?

    • @selfedu_rus
      @selfedu_rus  Рік тому

      Здесь можно воспользоваться одной из стратегий для реализации многоклассовой классификации: all-vs-all, one-vs-all. Подробнее здесь proproprogs.ru/ml/ml-mnogoklassovaya-klassifikaciya-metody-one-vs-all-i-all-vs-all

  • @alexeyermakov7391
    @alexeyermakov7391 Рік тому

    Сергей, спасибо! У Вас классные уроки👋
    Для меня правда остался непонятным один момент про недостатки случайного леса - невозможность использования для экстраполяции. Однако мы же по факту с помощью predict можем взять и предсказать интересующий нас целевой признак вне интервала, это получается не экстраполяция?

    • @alexeyermakov7391
      @alexeyermakov7391 Рік тому +1

      Переобучился сам уже. Совсем очевидную вещь спросил,, с этим все понятно

    • @olbasdjirmyhamedov704
      @olbasdjirmyhamedov704 Рік тому

      @@alexeyermakov7391 тоже не очень понял про это, можете, пожалуйста пояснить? :)

    • @YbisZX
      @YbisZX Рік тому

      @@olbasdjirmyhamedov704 Деревья делают разбивку по данным выборки. Они не знают, что находится за ее пределами - в лучшем случае до бесконечности растянут крайние значения. Такая же проблема с метрической регрессией - она размещает предсказание _между_ ближайшими соседями.