#17. Гауссовский байесовский классификатор | Машинное обучение

Поділитися
Вставка
  • Опубліковано 24 січ 2025

КОМЕНТАРІ • 28

  • @АнтонГородец-д3к
    @АнтонГородец-д3к 2 роки тому +4

    Спасибо за такие уроки. Я тоже хотел в Data since, пока не понял, что этому нужно посвятить очень много времени.

  • @Никита-п6и1к
    @Никита-п6и1к 2 роки тому +4

    25 лайков!!!!!!!!!!!!!!!!!!!!!!!!!!! это заслуживает миллионов

  • @impellergimpeller5133
    @impellergimpeller5133 2 роки тому +1

    👍👍👍👍👍

  • @YbisZX
    @YbisZX 2 роки тому +1

    На 1:36 в ковариационной матрице я так понял на каждой позиции должно быть не (xi-my), а индивидуальное мат.ожидание для соответствующего признака: (x1-m1y), (x2-m2y) и т.д. А в общем виде было бы = E [ (x-my)*(x-my).T ]
    На 7:15 когда берем логарифм от множителя перед экспонентой, то почему степень -1/2 выносим, а 2*pi внутри ln просто убираем? Мало влияет?

    • @selfedu_rus
      @selfedu_rus  2 роки тому

      1. У нас здесь мат ожидание общее для всех компонент вектора x, поэтому не зависит от индекса. Если есть более точная информация по мат ожиданию, то да, учитываем их с индексом, как вы и написали.
      2. Все константы в алгоритме максимума правдоподобия (когда берем максимум ПРВ и определяем класс) можно отбросить, т.к. они не влияют на конечный результат.

    • @YbisZX
      @YbisZX 2 роки тому

      @@selfedu_rus 1. Не понял про _общее_ мат.ожидание для всех компонент (признаков). Нельзя же взять общее мат.ожидание от роста в метрах и веса в граммах... На 1:35 my=[my1...myn] - это вектор, а следом в ков.матрице из каждого признака вычитается весь вектор my... В программе все правильно - из каждой выборки в x1 (x1[0], x1[1]) вычитается соответствующее значение из вектора mm1.
      2. Про коэффициент понял, но возник вопрос про множитель -1/2. :) В формуле для p(x|y) в знаменателе (2*pi*detEy)^(n/2), но тогда выносимый из логарифма множитель будет -n/2. Подозреваю, что там степень n относится только к корню из 2*pi, а определитель ков.матрицы просто под корнем. Для независимых признаков он уже сам является произведением дисперсий.

    • @selfedu_rus
      @selfedu_rus  2 роки тому

      @@YbisZX да, я имел ввиду для всех образов, а не признаков, т.е. мы для каждого столбца (признака) в обучающей выборке вычисляем единое МО

    • @YbisZX
      @YbisZX 2 роки тому

      @@selfedu_rus Я так и понял. Просто в видео в раскрытой ков.матрице из каждого x1...xn вычитаются просто my без соответствующих индексов признаков.
      И еще хочу уточнить формулу p(x|y) - там в знаменателе det(Ey) явно не должен быть под степенью n/2, а только под корнем. Ведь detE - уже произведение из n дисперсий (в случае независимых признаков).

  • @СарматПересветов
    @СарматПересветов 10 місяців тому +1

    вопрос, когда мы формулу p(x|y) преобразуем через логарифм один из множителей ( 1 / (2 * pi * det(сигма))**(n/2) ) преобразуется в множитель (-0.5 * ln( det(сигма)) мне вот не понятно, каким образом делается это преобразование??? куда у нас подевалась степень n/2 и число pi и так далее???

  • @СергейЧёрный-л7ш

    Здравствуйте. Я слегка запутался в определениях, Гауссовский байесовский классификатор чем отличается от наивного я понимаю, логику наивного классификатора тоже понимаю, но недопонимаю,
    1) в чём разница между наивным вариантом от оптимального байевского классификатора? Лямбдой перед классами? В оптимальном классификаторе мы считаем так-же что образы независимы?
    2) Гауссовский байесовский классификатор стоит использовать, когда мы считаем, что наши объекты распределены нормально в n-мерном пространстве?

    • @selfedu_rus
      @selfedu_rus  Рік тому

      1) в наивном полагаем признаки независимыми (статистически), а в обычном - нет
      2) да, все верно

    • @СергейЧёрный-л7ш
      @СергейЧёрный-л7ш Рік тому

      @@selfedu_rus Так а как вычисляется, какая зависимость между признаками? Или это уже в каждой ситуации смотрим отдельно и сами вычисляем, если есть зависимость и какая? За ответ спасибо)

    • @selfedu_rus
      @selfedu_rus  Рік тому

      @@СергейЧёрный-л7ш ковариационная матрица по признакам это показывает

  • @dubinin_s
    @dubinin_s 2 роки тому +2

    Огромное спасибо за видео.
    Подскажите, пожалуйста, в начале 3-й минуты в формуле плотности распределения после второго знака равно, как получить множитель перед произведением одномерных плотностей распределения?
    И ещё, если представить что признаки не зависимы, то этого множителя не будет? Останется только произведение одномерных плотностей?

    • @selfedu_rus
      @selfedu_rus  2 роки тому

      Множитель будет в любом случае, но при оптимизации его можно отбросить он ни на что не влияет, поэтому я его особо не объяснял. А так, нам нужно посчитать ковариационную матрицу и вычислить определитель для нее. При независимых признаках ковариационная матрица становится диагональной с дисперсиями по главной диагонали.

    • @dubinin_s
      @dubinin_s 2 роки тому

      @@selfedu_rus я ещё больше запутался. Просто из формулы получается, что е^(...) = произведению одномерных плотностей распределения?
      Подскажите, прав я или нет, если x = {x1, x2, ...} и х1, x2, ... независимы, то p(x|y) = П р(хi |y)?

    • @selfedu_rus
      @selfedu_rus  2 роки тому

      @@dubinin_s да, но перед каждой экспонентой стоит множитель (1/sqrt(2pi*sigma)

    • @dubinin_s
      @dubinin_s 2 роки тому

      @@selfedu_rus но в формуле перед произведением одномерных распределений плотностей тоже такой же множитель и если их сократить, то получится, что експонента равна произведению распределений плотностей, вот что не понимаю.

    • @selfedu_rus
      @selfedu_rus  2 роки тому

      @@dubinin_s что то я вас не понимаю, как я представляю:
      a1*exp(x1) * a2*exp(x2) = a1*a2 * exp(x1+x2)
      где сокращение?

  • @СарматПересветов
    @СарматПересветов 10 місяців тому +1

    здесь можно черпать информацию не только из видио, но и из коментариев))

  • @ДенисЩербина-щ9к

    Добрый день, хотел бы уточнить правильно ли я понимаю и задать вопрос. По сути Гауссовский байесовский классификатор под капотом работает как PCA(то есть переход в пространство такого же размера, но с ортогональными осями), а дальше просто обычный Наивный байесовский классификатор? Но только при условии, что все признаки распределены нормально.
    А если допустим не все признаки подчиняются нормальному закону? то можем ли мы просто для этого признака подставить его ПРВ - т.е. p(x | y) в формулу и по классике в формуле взять ln , но уже для ненормального ПРВ?

  • @konstantinlisitsa8443
    @konstantinlisitsa8443 2 роки тому

    Скажите пожалуйста, почему отсутствие корреляции означает независимость гауссовских случайных величин?

    • @selfedu_rus
      @selfedu_rus  2 роки тому +1

      В этом случае ковариационная матрица получается диагональной и многомерная гауссовская ПРВ распадается на произведение соответствующих одномерных, а это уже в свою очередь означает статистическую независимость величин.

    • @konstantinlisitsa8443
      @konstantinlisitsa8443 2 роки тому

      @@selfedu_rus логично! ) Спасибо!