Машинное обучение в аналитике: как работают деревья решений | Анатолий Карпов | karpov.courses

Поділитися
Вставка
  • Опубліковано 1 гру 2024
  • Курс «Аналитик данных»: bit.ly/44MoDGd
    Курс Start ML: bit.ly/3LUXesT
    А по промокоду MLINDA вы получите скидку 5% при полной оплате :)
    Перед аналитиками часто стоит задача классифицировать пользователей, предсказать их поведение. Вы знали, что в этом могут помочь методы машинного обучения?
    На вебинаре «Машинное обучение в аналитике: как работают деревья решений» мы:
    ● познакомились с decision tree и random forest;
    ● подробно разобрались, как работают эти методы;
    ● узнали, какие задачи аналитики можно решать при помощи машинного обучения.
    А ещё вебинар провёл Анатолий Карпов!

КОМЕНТАРІ • 21

  • @FreeMAN-rf1uk
    @FreeMAN-rf1uk Рік тому +3

    Закончил курс по Data Science в яндекс практикуме. Работаю аналитиком. Думал что мне машинное обучение не нужно сильно в работе. Но уже несколько раз приходилось применять машинное обучение на практике. Наверное, аналитик который вообще не умеет в машинное обучение не совсем проф. пригоден. Базовые вещи такие как метрики качества машинного обучения, линейная регрессия, классификация, деревья решений должен знать каждый аналитик. А вот глубокое обучение, компьютерное зрение, обработка текстов (NLP), - для аналитика можно понимать на уровне черного ящика: данные подаем на вход и получаем нужные данные на выходе, а внутри магия)). Хотя обработка текстов частая задача и знание что такое эмбединги, DSSM, Bert и прочее тоже иногда весьма полезно и может съэкономить аналитику уйму времени и повысить качество его работы.

  • @КаналСупермастерА

    Анатолий лудшый!

  • @evgenianovikova3596
    @evgenianovikova3596 Рік тому +1

    Во, молодец. Хоть кто-то код рассматривает! А то все слайды читают. Я читать умею с детского сада, зачем мне человек, который читает слайды? ХДДДДД

  • @Dmitrii-Zhinzhilov
    @Dmitrii-Zhinzhilov Рік тому

    Благодарю! 👍

  • @fedrichnezabutkin5631
    @fedrichnezabutkin5631 Рік тому +2

    Отличный вебинар!
    Подскажите какие методы используете для анализа и прогнозирования временных рядов в python и R?

    • @karpovcourses
      @karpovcourses  Рік тому

      ua-cam.com/video/1xsRaClzMzU/v-deo.html&ab_channel=karpov.courses

  • @alexeyi.197
    @alexeyi.197 Рік тому +3

    Там еще был вопрос, как оценить качество работы алгоритма классификации. С помощью recall, precision и их гармонической средней в виде F-меры 🙂

  • @TheEagleIvan
    @TheEagleIvan Рік тому +4

    Карпов, ты крутой мужик! Не люблю курсы, больше по книгам нравится учится. Какую из книг по DS для условно уровня intermediate можете посоветовать? Чтоб не было пол книги основ Питона)

    • @karpovcourses
      @karpovcourses  Рік тому +2

      Привет! А я наоборот учился только по курсам и видео на ютубе. Так что тут не подскажу(

    • @mymobigoogle205
      @mymobigoogle205 Рік тому

      Я тоже всегда по докам и rfcшкам учился (одновременно на реальных задачах). А тут первый раз в жизни на Степике курс по статистике попробовал, понравилось, прошел. :). Даже не ожидал, что будет такая вовлеченность без решения реальных задач (моих личных).

  • @hopelesssuprem1867
    @hopelesssuprem1867 Рік тому +4

    Анатолий, прежде всего спасибо за лекцию, но в ней есть ряд серьезных упущений:
    - не было реализации дерева вручную с нуля на python;
    - не упомянуты разновидности деревьев (CART, ID3, C4.5, C5.0, MARS и др.) и в каких случаях какие лучше использовать;
    - не было сказано, что для классификации могут использоваться gini_impurity, entropy, missclassification_error, разница между ними, а для регрессии используется mse для выбора лучшего threshold;
    - не было рассказано про оптимизацию деревьев, а именно про post-pruning (resuced error pruning, cost-complexity pruning), как ищутся эффективные ccp_alpha в cart версии sklearn;
    - не были упомянуты метрики оценки кач-ва обученной модели, их виды и какие из них в какой ситуации лучше подходят;
    - также было бы не лишним рассказать про преимущества и недостатки деревьев в сравнении с другими алгоритмами, в каком случае деревья подходят лучше всего, а в каком нет и почему.
    Учитывая, что деревья лежат в основе ансамблей, знать их нужно очень хорошо и очень глубоко, и нет лучшего способа чем реализация всего вышеперечисленного с нуля, а так получается "галопом по Европам".
    Честно говоря, для платной школы, в которой преподают якобы ml-щики и аналитики, выглядит все это слабовато, может мы просто на разных уровнях? Даже не знаю что и сказать. Также не согласен, что ml - это легко, может, если работать во пятерочках и яндексах, то такого уровня подготовки будет достаточно, но для работы в приличных компаниях с сильной командой такой подход не прокатит, увы.
    Я ни в коем случае никого не хочу обидеть, но пройти мимо просто не смог, учитывая обилие бесплатных ресурсов с более подробным объяснением, не только ml, но и всего остального в целом. Рекомендую ITSL и курс Эндрю Ына по ml: они дадут хороший вектор для дальнейшего развития.

    • @АрсенАвсаткаринов
      @АрсенАвсаткаринов Рік тому +3

      Это же больше знакомство с деревьями решений, чем погружение в него. Плюс это просто вебинар, а не видео с курса по аналитике)

    • @karpovcourses
      @karpovcourses  Рік тому +3

      Спасибо! Но это вебинар для тех, кто впервые увидел дерево решений, основная задача была рассказать саму идею, как оно работает. Мы делаем контент для всех уровней и для совсем начинающих, и для серьезных специалистов. Вот лекция о деревьях решений нашего преподавателя, расчитанная на более подготовленную аудиторию ua-cam.com/video/wnTlsXaVj-s/v-deo.html

    • @hopelesssuprem1867
      @hopelesssuprem1867 Рік тому +3

      @@karpovcourses за видео спасибо, но там в принципе такая же проблема: нет реализации дерева с нуля, т.е. это то же самое, если бы учили программированию без написания кода - профит нулевой. Также в видео есть неточности:
      - лектор говорит, что перед нахождением лучшего разбиения необходимо сортировать датафрейм, но это лишняя операция т.к. алгоритм все равно жадный и лучший признак для разбиения ищется независимо от позиции среди уникальных;
      - по регуляризации деревьев очень много вопросов: не было сказано какая именно регуляризация для какого дерева применяется, например, в CATR используется cost-complexity pruning, где ccp_alpha для каждого decision node ищется по формуле: (Rt - RTt) / (T - 1), потом прунится слабейшей узел и процедура повторяется рекурсивно buttom-up до корня, а значения с самыми эффективными alpha находятся в cost_complexity_pruning_path и для выбора наилучшего alpha применяется k-fold кросс-валидация, которое в конечном счете используется в кач-ве регуляризатора для построения оптимального дерева - вот всего этого не было упомянуто и реализовано, а ведь это дерево из sklearn, которым все пользуются;
      - бустинги были просто перечислены - там вообще миллион вопросов можно насобирать.
      Я это все к чему... лучше выпустить видео/статью, с реализацией ML-алгоритмов нуля и подробным объяснением математической составляющей, лежащей в их основе, вместо множества видео с водой.
      В целом - это проблема всей русскоязычной data science тусовки: все только умничают, не понимая как устроен ML изнутри, и в скором времени я собираюсь это исправить, написав статью с реализацией алгоритмов и норм объяснением классического ML в целом.

    • @viktorponomarev4048
      @viktorponomarev4048 Рік тому

      ​@@hopelesssuprem1867поделитесь, как опубликуете, пожалуйста

  • @ChirilCodreanu
    @ChirilCodreanu Рік тому

    В первом примере показана логическая функция 'xor'. По сути даже дерево решений не нужно и вычислительная нагрузка на процессор минимальная. Шутка, конечно 😀

  • @dieff_automation
    @dieff_automation Рік тому

    Дата саентисты это самые настоящие миллионеры

    • @karpovcourses
      @karpovcourses  Рік тому

      Почему?)

    • @dieff_automation
      @dieff_automation Рік тому +1

      @@karpovcourses ну бро я же давно в айти работаю - знаю у кого самые большие вилки и кто сейчас нужен бизнесу больше всего )

    • @dieff_automation
      @dieff_automation Рік тому +1

      @@karpovcourses Рублевые точно)

    • @shapovalentine
      @shapovalentine Рік тому +1

      Может быть там просто обратная корреляция🙃