Машинное обучение в аналитике: как работают деревья решений | Анатолий Карпов | karpov.courses
Вставка
- Опубліковано 1 гру 2024
- Курс «Аналитик данных»: bit.ly/44MoDGd
Курс Start ML: bit.ly/3LUXesT
А по промокоду MLINDA вы получите скидку 5% при полной оплате :)
Перед аналитиками часто стоит задача классифицировать пользователей, предсказать их поведение. Вы знали, что в этом могут помочь методы машинного обучения?
На вебинаре «Машинное обучение в аналитике: как работают деревья решений» мы:
● познакомились с decision tree и random forest;
● подробно разобрались, как работают эти методы;
● узнали, какие задачи аналитики можно решать при помощи машинного обучения.
А ещё вебинар провёл Анатолий Карпов!
Закончил курс по Data Science в яндекс практикуме. Работаю аналитиком. Думал что мне машинное обучение не нужно сильно в работе. Но уже несколько раз приходилось применять машинное обучение на практике. Наверное, аналитик который вообще не умеет в машинное обучение не совсем проф. пригоден. Базовые вещи такие как метрики качества машинного обучения, линейная регрессия, классификация, деревья решений должен знать каждый аналитик. А вот глубокое обучение, компьютерное зрение, обработка текстов (NLP), - для аналитика можно понимать на уровне черного ящика: данные подаем на вход и получаем нужные данные на выходе, а внутри магия)). Хотя обработка текстов частая задача и знание что такое эмбединги, DSSM, Bert и прочее тоже иногда весьма полезно и может съэкономить аналитику уйму времени и повысить качество его работы.
Анатолий лудшый!
Во, молодец. Хоть кто-то код рассматривает! А то все слайды читают. Я читать умею с детского сада, зачем мне человек, который читает слайды? ХДДДДД
Благодарю! 👍
Отличный вебинар!
Подскажите какие методы используете для анализа и прогнозирования временных рядов в python и R?
ua-cam.com/video/1xsRaClzMzU/v-deo.html&ab_channel=karpov.courses
Там еще был вопрос, как оценить качество работы алгоритма классификации. С помощью recall, precision и их гармонической средней в виде F-меры 🙂
Карпов, ты крутой мужик! Не люблю курсы, больше по книгам нравится учится. Какую из книг по DS для условно уровня intermediate можете посоветовать? Чтоб не было пол книги основ Питона)
Привет! А я наоборот учился только по курсам и видео на ютубе. Так что тут не подскажу(
Я тоже всегда по докам и rfcшкам учился (одновременно на реальных задачах). А тут первый раз в жизни на Степике курс по статистике попробовал, понравилось, прошел. :). Даже не ожидал, что будет такая вовлеченность без решения реальных задач (моих личных).
Анатолий, прежде всего спасибо за лекцию, но в ней есть ряд серьезных упущений:
- не было реализации дерева вручную с нуля на python;
- не упомянуты разновидности деревьев (CART, ID3, C4.5, C5.0, MARS и др.) и в каких случаях какие лучше использовать;
- не было сказано, что для классификации могут использоваться gini_impurity, entropy, missclassification_error, разница между ними, а для регрессии используется mse для выбора лучшего threshold;
- не было рассказано про оптимизацию деревьев, а именно про post-pruning (resuced error pruning, cost-complexity pruning), как ищутся эффективные ccp_alpha в cart версии sklearn;
- не были упомянуты метрики оценки кач-ва обученной модели, их виды и какие из них в какой ситуации лучше подходят;
- также было бы не лишним рассказать про преимущества и недостатки деревьев в сравнении с другими алгоритмами, в каком случае деревья подходят лучше всего, а в каком нет и почему.
Учитывая, что деревья лежат в основе ансамблей, знать их нужно очень хорошо и очень глубоко, и нет лучшего способа чем реализация всего вышеперечисленного с нуля, а так получается "галопом по Европам".
Честно говоря, для платной школы, в которой преподают якобы ml-щики и аналитики, выглядит все это слабовато, может мы просто на разных уровнях? Даже не знаю что и сказать. Также не согласен, что ml - это легко, может, если работать во пятерочках и яндексах, то такого уровня подготовки будет достаточно, но для работы в приличных компаниях с сильной командой такой подход не прокатит, увы.
Я ни в коем случае никого не хочу обидеть, но пройти мимо просто не смог, учитывая обилие бесплатных ресурсов с более подробным объяснением, не только ml, но и всего остального в целом. Рекомендую ITSL и курс Эндрю Ына по ml: они дадут хороший вектор для дальнейшего развития.
Это же больше знакомство с деревьями решений, чем погружение в него. Плюс это просто вебинар, а не видео с курса по аналитике)
Спасибо! Но это вебинар для тех, кто впервые увидел дерево решений, основная задача была рассказать саму идею, как оно работает. Мы делаем контент для всех уровней и для совсем начинающих, и для серьезных специалистов. Вот лекция о деревьях решений нашего преподавателя, расчитанная на более подготовленную аудиторию ua-cam.com/video/wnTlsXaVj-s/v-deo.html
@@karpovcourses за видео спасибо, но там в принципе такая же проблема: нет реализации дерева с нуля, т.е. это то же самое, если бы учили программированию без написания кода - профит нулевой. Также в видео есть неточности:
- лектор говорит, что перед нахождением лучшего разбиения необходимо сортировать датафрейм, но это лишняя операция т.к. алгоритм все равно жадный и лучший признак для разбиения ищется независимо от позиции среди уникальных;
- по регуляризации деревьев очень много вопросов: не было сказано какая именно регуляризация для какого дерева применяется, например, в CATR используется cost-complexity pruning, где ccp_alpha для каждого decision node ищется по формуле: (Rt - RTt) / (T - 1), потом прунится слабейшей узел и процедура повторяется рекурсивно buttom-up до корня, а значения с самыми эффективными alpha находятся в cost_complexity_pruning_path и для выбора наилучшего alpha применяется k-fold кросс-валидация, которое в конечном счете используется в кач-ве регуляризатора для построения оптимального дерева - вот всего этого не было упомянуто и реализовано, а ведь это дерево из sklearn, которым все пользуются;
- бустинги были просто перечислены - там вообще миллион вопросов можно насобирать.
Я это все к чему... лучше выпустить видео/статью, с реализацией ML-алгоритмов нуля и подробным объяснением математической составляющей, лежащей в их основе, вместо множества видео с водой.
В целом - это проблема всей русскоязычной data science тусовки: все только умничают, не понимая как устроен ML изнутри, и в скором времени я собираюсь это исправить, написав статью с реализацией алгоритмов и норм объяснением классического ML в целом.
@@hopelesssuprem1867поделитесь, как опубликуете, пожалуйста
В первом примере показана логическая функция 'xor'. По сути даже дерево решений не нужно и вычислительная нагрузка на процессор минимальная. Шутка, конечно 😀
Дата саентисты это самые настоящие миллионеры
Почему?)
@@karpovcourses ну бро я же давно в айти работаю - знаю у кого самые большие вилки и кто сейчас нужен бизнесу больше всего )
@@karpovcourses Рублевые точно)
Может быть там просто обратная корреляция🙃