StandardScaler| MinMaxScaler | МАСШТАБИРОВАНИЕ ДАННЫХ | МАШИННОЕ ОБУЧЕНИЕ

Поділитися
Вставка
  • Опубліковано 31 тра 2024
  • Практическое задание boosty.to/machine_learrrning/...
    Поддержать канал можно оформив подписку на boosty.to/machine_learrrning
    Канал в TG t.me/machine_learrrning
    Группа в VK machine_learrrning
    Курсы на платформе Stepik:
    1. Библиотеки Python для Data Science stepik.org/a/129105
    2. Введение в нейронные сети (Keras/Tensorflow) stepik.org/a/127274
    Вопросы, на которые найдем ответы в этом видео:
    Что такое масштабирование данных и зачем оно нужно?
    Как работать с StandardScaler (Стандартизация)?
    Как работать с MinMaxScaler (Нормализация)?
    Ноутбук из видео colab.research.google.com/dri...
    0:00 Вводная
    0:05 Зачем масштабировать данные
    0:13 Получение данных
    0:41 Обучение модели KNN
    1:14 Плохие метрики на KNN
    1:30 Обучение моделей
    2:20 Поиск проблемы в данных
    3:02 Признаки разных масштабов
    3:36 Виды масштабирования данных
    3:44 Нормализация данных
    4:10 MinMaxScaler
    5:05 Как вывести нормальные значения в numpy
    6:00 MinMaxScaler transform
    7:22 Почему после MinMaxScaler max не 1 или min не 0
    8:52 Нормалиазация своими руками
    10:36 Обучение моделей на нормализованных данных
    11:57 Стандартизация данных
    12:14 StandardScaler
    13:21 Как вывести нормальные значения в pandas
    14:06 Стандартизация тестовой выборки
    14:21 Почему после StandardScaler std не 1 или mean не 0
    15:00 Стандартизация своими руками
    16:32 Обучение моделей на стандартизированных данных
    18:00 DecisionTree и масштабирование данных
    19:26 Практика на boosty.to/machine_learrrning
    20:06 Резюме занятия

КОМЕНТАРІ • 38

  • @TheKaramba321
    @TheKaramba321 2 роки тому +5

    ушки как большие признаки - все внимание забрали...
    пс. объясняете здорово, спасибо огромное

  • @aboba98159
    @aboba98159 2 роки тому +9

    балдеж чистой воды. огромное спасибо

  • @user-sh9jf2ge6z
    @user-sh9jf2ge6z Рік тому +9

    Оч круто! Этой темы и в этом формате мне долго не хватало!

  • @baubekmynbaev666
    @baubekmynbaev666 Рік тому +5

    Отличное обучающее видео с примерами. Все по полочкам разложила. Спасибо 👍. Хотелось бы в дальнейшем видео о том какие модели чаще используются и в каких случаях. Заранее благодарю!

  • @parvi5172
    @parvi5172 Рік тому +3

    Прекрасное объяснение! Лайк и подписка обеспечены. Даёшь больше крутого контента)

  • @polmaksim
    @polmaksim Рік тому +1

    Очень просто и доступно. Спасибо тебе, лучезарная!

  • @user-gw2hb6nd6x
    @user-gw2hb6nd6x Рік тому +2

    Отличное объяснение! Спасибо!

  • @user-co7zj4ce4e
    @user-co7zj4ce4e 24 дні тому

    спасибо!

  • @Sergey_Yrevich
    @Sergey_Yrevich Рік тому +1

    Все по полкам, спасибо!

  • @user-ud1et9ub7g
    @user-ud1et9ub7g Рік тому

    Спасибо, очень полезный видеоурок!

  • @user-gv9dg4ni5g
    @user-gv9dg4ni5g Рік тому +1

    Какой балдëж и каеф🥰

  • @vyacheslavgadzhiev7803
    @vyacheslavgadzhiev7803 2 роки тому +1

    Отличный урок

  • @olegtinkov6553
    @olegtinkov6553 Рік тому +1

    Отличное видео!!!

  • @skbalinez
    @skbalinez Рік тому +4

    Спасибо за такую подачу доступным языком.
    А после обучения модели на продакшене ей на вход надо тоже смасштабированные признаки подавать и получать в итоге смасштабированный таргет? И что с ним потом делать? Как "размасштабировать"?

    • @machine_learrrning
      @machine_learrrning  Рік тому +1

      И вам спасибо за приятные слова!
      В продакшене тоже нужно признаки масштабировать, но целевое значение в целом лучше не масштабировать (что на обучении, что на тесте), а оставлять его в исходном виде.
      А если уже масштабировали, то через классы в sklearn это можно сделать: есть метод inverse_transform (scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler.inverse_transform), который и позволяет сделать обратное масштабирование

  • @alexnatalchenko4471
    @alexnatalchenko4471 7 місяців тому

    Видос суперский!

  • @MsGleaming
    @MsGleaming 2 роки тому +1

    спасибо❤❤❤

  • @datorikai9911
    @datorikai9911 Рік тому +1

    Спасибо, Юля

  • @user-jd6uz5si2f
    @user-jd6uz5si2f 6 місяців тому

    Юля как всегда патащила!!!

  • @vukavuka7519
    @vukavuka7519 Рік тому +1

    Лучшая!

  • @deadmorose4741
    @deadmorose4741 2 місяці тому

    Что если у нас задача сложной регрессии и в разряде числа, которое подаем на вход модели, имеется важная информация?
    К примеру мы подаем номер квартир и хотим чтобы модель научилась узнавать номер этажа, на котором находится эта квартира.
    Те 220 квартира находится на 2-ом этаже.
    Если мы нормализуем такие значения то модель будет не состоянии уловить вот эту вот "логику", что разряд и есть ответ, тк мы удалим из входного значения нужное значение.

  • @sergeymarkevich6406
    @sergeymarkevich6406 2 роки тому

    спасибо тебе

  • @RR-hq4cv
    @RR-hq4cv Рік тому +1

    Спасибо за очень понятное видео! В который раз всё объяснено максимально подробно и с хорошими примерами! Оформил light+ подписку.
    Есть вопрос по видео: почему мы сначала делим выборку на train и test, а только потом делаем нормализацию/стандартизацию? Можем ли мы сначала весь датасет промасштабировать, а уже потом разделять его на train и test? Спасибо.

    • @machine_learrrning
      @machine_learrrning  Рік тому

      Большое спасибо за приятные слова и за подписку! 😸
      Сначала нужно разбить данные, а затем делать масштабирование данных, т.к. к выборке test относимся, как к настоящим, реальным данным, которые прислал заказчик, а он может прислать очень странные данные, дабы проверить нашу модель, поэтому мы должны быть готовы к этим странностям
      А можем подготовиться путем подсчета всех нужных нам показателей на выборке train, а затем только применять к test

    • @RR-hq4cv
      @RR-hq4cv Рік тому

      @@machine_learrrning Я вас понял. К части test на этапе подготовки модели относимся как к реальным данным. Спасибо!

  • @Trading-Neural
    @Trading-Neural 8 місяців тому

    Здравствуйте! Как можно с Вами связаться?

  • @wordofworld6874
    @wordofworld6874 Рік тому

    Какой это плейлист?

  • @alexandershim6205
    @alexandershim6205 Рік тому

    Скажите, пожалуйста, должны ли мы приводить данные к нормальному распределению, когда подразумевается использование различных статистик (тот же Ф-тест Фишера) для проверки гипотез? Или мы просто подразумеваем, что данные распределены нормально? Если можно, дайте, пожалуйста, развернутый ответ. Надеялся, что будет раскрыта эта тема, касательно стандартизации.

    • @machine_learrrning
      @machine_learrrning  Рік тому

      Нужно убедиться, что признаки имеют нормальное распределение, чтобы пользоваться такого рода статистическими критериями
      Если признак распределен не нормально, то нужно пользоваться другими стат. критериями

  • @gobals8925
    @gobals8925 Рік тому

    Спасибо за ролик. Очень тихий звук (

  • @user-sy4zm9km5o
    @user-sy4zm9km5o Рік тому

    Главный вопрос после нормализации и стандартизации , когда обучим модель и будем делать на ней предсказание, нам в эту модель нужно подавать нормализованные или стандартизованные данные или в обычном формате? И если мы будем подавать в обученную модель нормализованные и стандартизованные данные, то как их переводить в прежний вид? Вот про это не было сказано.

    • @machine_learrrning
      @machine_learrrning  Рік тому

      В обученную модель на масштабированных данных нужно подавать точно такие же масштабированные данные, только они будут новыми
      Перевести в обычный вид масштабированные данные можно применив к ним обратные преобразования, к примеру, для стандартизации нужно умножить на std и прибавив среднее арифметическое

  • @1dalgo
    @1dalgo 11 місяців тому

    А как действовать если на этапе обучения и тестирования, мы всё нормализовали, но в проде приходит значение которое не попадает в шкалу, и при transform(x), мы получаем значение >1?

    • @machine_learrrning
      @machine_learrrning  11 місяців тому

      Ничего страшного, что такое произойдет несколько раз, если это будет постоянно, тогда нужно будет собрать выборку с новыми значениями масштабируемого признака и снова обучить модель

  • @wordofworld6874
    @wordofworld6874 Рік тому

    Вы используете R2 для задачи классификации?

    • @machine_learrrning
      @machine_learrrning  Рік тому

      Предсказываем стоимость недвижимости - а это задача регрессии, так что можем использовать R2_score

  • @alexanderyablokov5881
    @alexanderyablokov5881 Рік тому

    Спасибо. Лайк. Но зря мышку модифицировала, реально внимание отвлекает, тяжело смотреть.