На 1:36 в ковариационной матрице я так понял на каждой позиции должно быть не (xi-my), а индивидуальное мат.ожидание для соответствующего признака: (x1-m1y), (x2-m2y) и т.д. А в общем виде было бы = E [ (x-my)*(x-my).T ] На 7:15 когда берем логарифм от множителя перед экспонентой, то почему степень -1/2 выносим, а 2*pi внутри ln просто убираем? Мало влияет?
1. У нас здесь мат ожидание общее для всех компонент вектора x, поэтому не зависит от индекса. Если есть более точная информация по мат ожиданию, то да, учитываем их с индексом, как вы и написали. 2. Все константы в алгоритме максимума правдоподобия (когда берем максимум ПРВ и определяем класс) можно отбросить, т.к. они не влияют на конечный результат.
@@selfedu_rus 1. Не понял про _общее_ мат.ожидание для всех компонент (признаков). Нельзя же взять общее мат.ожидание от роста в метрах и веса в граммах... На 1:35 my=[my1...myn] - это вектор, а следом в ков.матрице из каждого признака вычитается весь вектор my... В программе все правильно - из каждой выборки в x1 (x1[0], x1[1]) вычитается соответствующее значение из вектора mm1. 2. Про коэффициент понял, но возник вопрос про множитель -1/2. :) В формуле для p(x|y) в знаменателе (2*pi*detEy)^(n/2), но тогда выносимый из логарифма множитель будет -n/2. Подозреваю, что там степень n относится только к корню из 2*pi, а определитель ков.матрицы просто под корнем. Для независимых признаков он уже сам является произведением дисперсий.
@@selfedu_rus Я так и понял. Просто в видео в раскрытой ков.матрице из каждого x1...xn вычитаются просто my без соответствующих индексов признаков. И еще хочу уточнить формулу p(x|y) - там в знаменателе det(Ey) явно не должен быть под степенью n/2, а только под корнем. Ведь detE - уже произведение из n дисперсий (в случае независимых признаков).
вопрос, когда мы формулу p(x|y) преобразуем через логарифм один из множителей ( 1 / (2 * pi * det(сигма))**(n/2) ) преобразуется в множитель (-0.5 * ln( det(сигма)) мне вот не понятно, каким образом делается это преобразование??? куда у нас подевалась степень n/2 и число pi и так далее???
Здравствуйте. Я слегка запутался в определениях, Гауссовский байесовский классификатор чем отличается от наивного я понимаю, логику наивного классификатора тоже понимаю, но недопонимаю, 1) в чём разница между наивным вариантом от оптимального байевского классификатора? Лямбдой перед классами? В оптимальном классификаторе мы считаем так-же что образы независимы? 2) Гауссовский байесовский классификатор стоит использовать, когда мы считаем, что наши объекты распределены нормально в n-мерном пространстве?
@@selfedu_rus Так а как вычисляется, какая зависимость между признаками? Или это уже в каждой ситуации смотрим отдельно и сами вычисляем, если есть зависимость и какая? За ответ спасибо)
Огромное спасибо за видео. Подскажите, пожалуйста, в начале 3-й минуты в формуле плотности распределения после второго знака равно, как получить множитель перед произведением одномерных плотностей распределения? И ещё, если представить что признаки не зависимы, то этого множителя не будет? Останется только произведение одномерных плотностей?
Множитель будет в любом случае, но при оптимизации его можно отбросить он ни на что не влияет, поэтому я его особо не объяснял. А так, нам нужно посчитать ковариационную матрицу и вычислить определитель для нее. При независимых признаках ковариационная матрица становится диагональной с дисперсиями по главной диагонали.
@@selfedu_rus я ещё больше запутался. Просто из формулы получается, что е^(...) = произведению одномерных плотностей распределения? Подскажите, прав я или нет, если x = {x1, x2, ...} и х1, x2, ... независимы, то p(x|y) = П р(хi |y)?
@@selfedu_rus но в формуле перед произведением одномерных распределений плотностей тоже такой же множитель и если их сократить, то получится, что експонента равна произведению распределений плотностей, вот что не понимаю.
Добрый день, хотел бы уточнить правильно ли я понимаю и задать вопрос. По сути Гауссовский байесовский классификатор под капотом работает как PCA(то есть переход в пространство такого же размера, но с ортогональными осями), а дальше просто обычный Наивный байесовский классификатор? Но только при условии, что все признаки распределены нормально. А если допустим не все признаки подчиняются нормальному закону? то можем ли мы просто для этого признака подставить его ПРВ - т.е. p(x | y) в формулу и по классике в формуле взять ln , но уже для ненормального ПРВ?
В этом случае ковариационная матрица получается диагональной и многомерная гауссовская ПРВ распадается на произведение соответствующих одномерных, а это уже в свою очередь означает статистическую независимость величин.
Спасибо за такие уроки. Я тоже хотел в Data since, пока не понял, что этому нужно посвятить очень много времени.
25 лайков!!!!!!!!!!!!!!!!!!!!!!!!!!! это заслуживает миллионов
👍👍👍👍👍
На 1:36 в ковариационной матрице я так понял на каждой позиции должно быть не (xi-my), а индивидуальное мат.ожидание для соответствующего признака: (x1-m1y), (x2-m2y) и т.д. А в общем виде было бы = E [ (x-my)*(x-my).T ]
На 7:15 когда берем логарифм от множителя перед экспонентой, то почему степень -1/2 выносим, а 2*pi внутри ln просто убираем? Мало влияет?
1. У нас здесь мат ожидание общее для всех компонент вектора x, поэтому не зависит от индекса. Если есть более точная информация по мат ожиданию, то да, учитываем их с индексом, как вы и написали.
2. Все константы в алгоритме максимума правдоподобия (когда берем максимум ПРВ и определяем класс) можно отбросить, т.к. они не влияют на конечный результат.
@@selfedu_rus 1. Не понял про _общее_ мат.ожидание для всех компонент (признаков). Нельзя же взять общее мат.ожидание от роста в метрах и веса в граммах... На 1:35 my=[my1...myn] - это вектор, а следом в ков.матрице из каждого признака вычитается весь вектор my... В программе все правильно - из каждой выборки в x1 (x1[0], x1[1]) вычитается соответствующее значение из вектора mm1.
2. Про коэффициент понял, но возник вопрос про множитель -1/2. :) В формуле для p(x|y) в знаменателе (2*pi*detEy)^(n/2), но тогда выносимый из логарифма множитель будет -n/2. Подозреваю, что там степень n относится только к корню из 2*pi, а определитель ков.матрицы просто под корнем. Для независимых признаков он уже сам является произведением дисперсий.
@@YbisZX да, я имел ввиду для всех образов, а не признаков, т.е. мы для каждого столбца (признака) в обучающей выборке вычисляем единое МО
@@selfedu_rus Я так и понял. Просто в видео в раскрытой ков.матрице из каждого x1...xn вычитаются просто my без соответствующих индексов признаков.
И еще хочу уточнить формулу p(x|y) - там в знаменателе det(Ey) явно не должен быть под степенью n/2, а только под корнем. Ведь detE - уже произведение из n дисперсий (в случае независимых признаков).
вопрос, когда мы формулу p(x|y) преобразуем через логарифм один из множителей ( 1 / (2 * pi * det(сигма))**(n/2) ) преобразуется в множитель (-0.5 * ln( det(сигма)) мне вот не понятно, каким образом делается это преобразование??? куда у нас подевалась степень n/2 и число pi и так далее???
Здравствуйте. Я слегка запутался в определениях, Гауссовский байесовский классификатор чем отличается от наивного я понимаю, логику наивного классификатора тоже понимаю, но недопонимаю,
1) в чём разница между наивным вариантом от оптимального байевского классификатора? Лямбдой перед классами? В оптимальном классификаторе мы считаем так-же что образы независимы?
2) Гауссовский байесовский классификатор стоит использовать, когда мы считаем, что наши объекты распределены нормально в n-мерном пространстве?
1) в наивном полагаем признаки независимыми (статистически), а в обычном - нет
2) да, все верно
@@selfedu_rus Так а как вычисляется, какая зависимость между признаками? Или это уже в каждой ситуации смотрим отдельно и сами вычисляем, если есть зависимость и какая? За ответ спасибо)
@@СергейЧёрный-л7ш ковариационная матрица по признакам это показывает
Огромное спасибо за видео.
Подскажите, пожалуйста, в начале 3-й минуты в формуле плотности распределения после второго знака равно, как получить множитель перед произведением одномерных плотностей распределения?
И ещё, если представить что признаки не зависимы, то этого множителя не будет? Останется только произведение одномерных плотностей?
Множитель будет в любом случае, но при оптимизации его можно отбросить он ни на что не влияет, поэтому я его особо не объяснял. А так, нам нужно посчитать ковариационную матрицу и вычислить определитель для нее. При независимых признаках ковариационная матрица становится диагональной с дисперсиями по главной диагонали.
@@selfedu_rus я ещё больше запутался. Просто из формулы получается, что е^(...) = произведению одномерных плотностей распределения?
Подскажите, прав я или нет, если x = {x1, x2, ...} и х1, x2, ... независимы, то p(x|y) = П р(хi |y)?
@@dubinin_s да, но перед каждой экспонентой стоит множитель (1/sqrt(2pi*sigma)
@@selfedu_rus но в формуле перед произведением одномерных распределений плотностей тоже такой же множитель и если их сократить, то получится, что експонента равна произведению распределений плотностей, вот что не понимаю.
@@dubinin_s что то я вас не понимаю, как я представляю:
a1*exp(x1) * a2*exp(x2) = a1*a2 * exp(x1+x2)
где сокращение?
здесь можно черпать информацию не только из видио, но и из коментариев))
Добрый день, хотел бы уточнить правильно ли я понимаю и задать вопрос. По сути Гауссовский байесовский классификатор под капотом работает как PCA(то есть переход в пространство такого же размера, но с ортогональными осями), а дальше просто обычный Наивный байесовский классификатор? Но только при условии, что все признаки распределены нормально.
А если допустим не все признаки подчиняются нормальному закону? то можем ли мы просто для этого признака подставить его ПРВ - т.е. p(x | y) в формулу и по классике в формуле взять ln , но уже для ненормального ПРВ?
Совершенно верно!
Скажите пожалуйста, почему отсутствие корреляции означает независимость гауссовских случайных величин?
В этом случае ковариационная матрица получается диагональной и многомерная гауссовская ПРВ распадается на произведение соответствующих одномерных, а это уже в свою очередь означает статистическую независимость величин.
@@selfedu_rus логично! ) Спасибо!