Подготовка (pre-processing) данных

Поділитися
Вставка
  • Опубліковано 27 лис 2024

КОМЕНТАРІ • 11

  • @Леонид-с5з
    @Леонид-с5з 7 місяців тому

    1:00
    1:40
    2:05 3 основных аспекта подготовки данных
    2:09 1. Нормирование данных
    3:14 4:09 при наличии отрицательных чисел диапазон получается [-1; 1] и почему не использовали более простую формулу нормирования - x/max (тоже ведь все значения будут в пределах данного диапазона)?
    4:37 z-нормализация
    5:24 зачем нужно
    6:23 2. Категориальные данные
    6:30 Приведение к единичным векторам
    8:28
    8:42 3. Циклические параметры
    9:27 Тригонометрические функции
    11:38
    12:35

  • @chaddoomslayer4721
    @chaddoomslayer4721 2 роки тому

    Отличный ликбез! Спасибо!

  • @l379
    @l379 4 роки тому +1

    Благодарю Вас за структурность

  • @ClosiusBeg
    @ClosiusBeg 3 роки тому +1

    огромное спасибо!!!!

  • @grbak
    @grbak 2 роки тому

    Лайк!

  • @viteksmarket9711
    @viteksmarket9711 3 роки тому

    Так то интересно, спасибо, но музычка заставляет заснуть

  • @ivanshelonik3979
    @ivanshelonik3979 2 роки тому +1

    Подскажите пожалуйста, есть ли смысл в алгоритмах деревьев решений (например xgboost/catboost) представлять временные фичи в циклическом виде?
    Время(например час) мы можем представить 2мя колонками cos/sin одновременно!. По сплит рулу деревьев у нас идёт разбиение лишь по одной колонке, а нам нужно, что бы модель учитывала одновременно 2 колонки, иначе выходит для 1-й sin или cos может быть а течении 24 часов несколько одинаковых точек
    Благодарю за ответ

    • @ittensive
      @ittensive  2 роки тому +1

      если модель строится только по одному из парных атрибутов, то, наверное, важность второго минимальна. Технически, можно сделать какой-нибудь sinx / cosx, чтобы был учет обоих атрибутов, но это будет уже не циклично

    • @ivanshelonik3979
      @ivanshelonik3979 2 роки тому

      @@ittensive Благодарю за ответ

  • @ClosiusBeg
    @ClosiusBeg 3 роки тому

    Скажите пожалуйста, согласно центральной предельной теоремы мы можешь преставить любые данные (не автокррелированные) в виде нормально распределения. Выходит мы можем к любому (не автокоррелированному) набору данных применить z-нормализацию? Просто Вы сказали, что применить ее можно только к нормально распределенной выборке

    • @ittensive
      @ittensive  3 роки тому

      Отличный комментарий. В реальности, все выборки - это некоторое приближение к исходному распределению генеральной совокупности. А большинство распределений являются нормальными. Т.е. z-нормализацию можно применять к любому набору данных, другой вопрос - какой от этого будет результат, если, например, у нас бинарные данные (есть/нет признак).