StandardScaler| MinMaxScaler | МАСШТАБИРОВАНИЕ ДАННЫХ | МАШИННОЕ ОБУЧЕНИЕ
Вставка
- Опубліковано 31 тра 2024
- Практическое задание boosty.to/machine_learrrning/...
Поддержать канал можно оформив подписку на boosty.to/machine_learrrning
Канал в TG t.me/machine_learrrning
Группа в VK machine_learrrning
Курсы на платформе Stepik:
1. Библиотеки Python для Data Science stepik.org/a/129105
2. Введение в нейронные сети (Keras/Tensorflow) stepik.org/a/127274
Вопросы, на которые найдем ответы в этом видео:
Что такое масштабирование данных и зачем оно нужно?
Как работать с StandardScaler (Стандартизация)?
Как работать с MinMaxScaler (Нормализация)?
Ноутбук из видео colab.research.google.com/dri...
0:00 Вводная
0:05 Зачем масштабировать данные
0:13 Получение данных
0:41 Обучение модели KNN
1:14 Плохие метрики на KNN
1:30 Обучение моделей
2:20 Поиск проблемы в данных
3:02 Признаки разных масштабов
3:36 Виды масштабирования данных
3:44 Нормализация данных
4:10 MinMaxScaler
5:05 Как вывести нормальные значения в numpy
6:00 MinMaxScaler transform
7:22 Почему после MinMaxScaler max не 1 или min не 0
8:52 Нормалиазация своими руками
10:36 Обучение моделей на нормализованных данных
11:57 Стандартизация данных
12:14 StandardScaler
13:21 Как вывести нормальные значения в pandas
14:06 Стандартизация тестовой выборки
14:21 Почему после StandardScaler std не 1 или mean не 0
15:00 Стандартизация своими руками
16:32 Обучение моделей на стандартизированных данных
18:00 DecisionTree и масштабирование данных
19:26 Практика на boosty.to/machine_learrrning
20:06 Резюме занятия
ушки как большие признаки - все внимание забрали...
пс. объясняете здорово, спасибо огромное
балдеж чистой воды. огромное спасибо
Оч круто! Этой темы и в этом формате мне долго не хватало!
Отличное обучающее видео с примерами. Все по полочкам разложила. Спасибо 👍. Хотелось бы в дальнейшем видео о том какие модели чаще используются и в каких случаях. Заранее благодарю!
Прекрасное объяснение! Лайк и подписка обеспечены. Даёшь больше крутого контента)
Очень просто и доступно. Спасибо тебе, лучезарная!
Отличное объяснение! Спасибо!
спасибо!
Все по полкам, спасибо!
Спасибо, очень полезный видеоурок!
Какой балдëж и каеф🥰
Отличный урок
Отличное видео!!!
Спасибо за такую подачу доступным языком.
А после обучения модели на продакшене ей на вход надо тоже смасштабированные признаки подавать и получать в итоге смасштабированный таргет? И что с ним потом делать? Как "размасштабировать"?
И вам спасибо за приятные слова!
В продакшене тоже нужно признаки масштабировать, но целевое значение в целом лучше не масштабировать (что на обучении, что на тесте), а оставлять его в исходном виде.
А если уже масштабировали, то через классы в sklearn это можно сделать: есть метод inverse_transform (scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler.inverse_transform), который и позволяет сделать обратное масштабирование
Видос суперский!
спасибо❤❤❤
Спасибо, Юля
Всегда пожалуйста 😸
Юля как всегда патащила!!!
Лучшая!
Что если у нас задача сложной регрессии и в разряде числа, которое подаем на вход модели, имеется важная информация?
К примеру мы подаем номер квартир и хотим чтобы модель научилась узнавать номер этажа, на котором находится эта квартира.
Те 220 квартира находится на 2-ом этаже.
Если мы нормализуем такие значения то модель будет не состоянии уловить вот эту вот "логику", что разряд и есть ответ, тк мы удалим из входного значения нужное значение.
спасибо тебе
Спасибо за очень понятное видео! В который раз всё объяснено максимально подробно и с хорошими примерами! Оформил light+ подписку.
Есть вопрос по видео: почему мы сначала делим выборку на train и test, а только потом делаем нормализацию/стандартизацию? Можем ли мы сначала весь датасет промасштабировать, а уже потом разделять его на train и test? Спасибо.
Большое спасибо за приятные слова и за подписку! 😸
Сначала нужно разбить данные, а затем делать масштабирование данных, т.к. к выборке test относимся, как к настоящим, реальным данным, которые прислал заказчик, а он может прислать очень странные данные, дабы проверить нашу модель, поэтому мы должны быть готовы к этим странностям
А можем подготовиться путем подсчета всех нужных нам показателей на выборке train, а затем только применять к test
@@machine_learrrning Я вас понял. К части test на этапе подготовки модели относимся как к реальным данным. Спасибо!
Здравствуйте! Как можно с Вами связаться?
Какой это плейлист?
Скажите, пожалуйста, должны ли мы приводить данные к нормальному распределению, когда подразумевается использование различных статистик (тот же Ф-тест Фишера) для проверки гипотез? Или мы просто подразумеваем, что данные распределены нормально? Если можно, дайте, пожалуйста, развернутый ответ. Надеялся, что будет раскрыта эта тема, касательно стандартизации.
Нужно убедиться, что признаки имеют нормальное распределение, чтобы пользоваться такого рода статистическими критериями
Если признак распределен не нормально, то нужно пользоваться другими стат. критериями
Спасибо за ролик. Очень тихий звук (
Главный вопрос после нормализации и стандартизации , когда обучим модель и будем делать на ней предсказание, нам в эту модель нужно подавать нормализованные или стандартизованные данные или в обычном формате? И если мы будем подавать в обученную модель нормализованные и стандартизованные данные, то как их переводить в прежний вид? Вот про это не было сказано.
В обученную модель на масштабированных данных нужно подавать точно такие же масштабированные данные, только они будут новыми
Перевести в обычный вид масштабированные данные можно применив к ним обратные преобразования, к примеру, для стандартизации нужно умножить на std и прибавив среднее арифметическое
А как действовать если на этапе обучения и тестирования, мы всё нормализовали, но в проде приходит значение которое не попадает в шкалу, и при transform(x), мы получаем значение >1?
Ничего страшного, что такое произойдет несколько раз, если это будет постоянно, тогда нужно будет собрать выборку с новыми значениями масштабируемого признака и снова обучить модель
Вы используете R2 для задачи классификации?
Предсказываем стоимость недвижимости - а это задача регрессии, так что можем использовать R2_score
Спасибо. Лайк. Но зря мышку модифицировала, реально внимание отвлекает, тяжело смотреть.