A.7.37 Метод главных компонент (PCA) | линейная алгебра + теория вероятностей = анализ данных

dUdVstud

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 29 вер 2024
#dudvstud #математиканапальцах #войтивайти
Телеграм: t.me/dudvstud
Плейлисты, литература, помощь проекту и прочее: dudvstud.wixsi...
Станьте спонсором канала, и вы получите доступ к эксклюзивным бонусам. Подробнее:
/ @dudvstud9081
Урок подготовлен при поддержке меценатов Evgeny Zychkov и PROFESSIONAL!
А вот и применение линейной алгебры для анализа данных. Берем спектральное разложение матриц, добавляем щепотку теории вероятностей и получаем метод главных компонент - мощнейший инструмент анализа данных. Главные компоненты позволяют ортогонализировать данные, определять истинное количество степеней свободы (осей) в данных, сжимать данные, отображать на пространства меньшей размерности и т.д.

КОМЕНТАРІ • 54

@olbyk690 2 роки тому ⁺²
Прямо по названию видео сразу огромное спасибо за ваш труд. Было бы очень круто посмотреть видео по дискриминантному анализу (LDA)
@dudvstud9081 2 роки тому ⁺¹
Спасибо за отзыв! :)
@kiryl_pl5613 Місяць тому ⁺¹
Здравствуйте, а чтобы понять эту лекцию что надо изучить, очень интересно, но откуда берутся какие функции выражения - не понятно... Может есть видео, курсы
@robasti6826 Рік тому ⁺¹
Отличное видео
@dudvstud9081 Рік тому
Спасибо за отзыв :)
@angryworm80 2 роки тому ⁺⁴
с 1-го раза …жесть! понял отрывками, надо будет пересматривать. И наверно так несколько итераций…
@dudvstud9081 2 роки тому
Уверен, что все получится! Ну, в смысле понять. Спрашивайте в комментах непонятные моменты!
@angryworm80 2 роки тому ⁺¹
@@dudvstud9081 Идея в целом и конечная цель - понятны. Теоретический вывод в плане пошагового понимания…ну очень тяжелый. Детектив просто…. Но главный вопрос - как это делать с конкретным датасетом? Какие методы в Python и в каких библиотеках есть? Как интерпретировать результаты этих методов? Однако, сама идея - блестящая и это 100% нужно осваивать. Как грится … потихоньку освоим
@dudvstud9081 2 роки тому ⁺¹
@@angryworm80 мы к этому придём со временем, к конкретным методам в питоне. Не зря же программирование параллельно затеяли... Хотя идёт все медленнее, чем я предполагал...
@angryworm80 2 роки тому ⁺³
@@dudvstud9081 пусть чуть медленнее, чем планировалось, зато не страдает качество материала 👍🏻 все очень подробно и основательно.
@dudvstud9081 2 роки тому ⁺¹
@@angryworm80 Спасибо!
@Bioplastic-x5g 6 днів тому ⁺¹
Зашел, посмотреть, как получается матрица нагрузок и матрица оценок из исходной матрицы, так и не дождался
@dudvstud9081 5 днів тому
Матрицы нагрузок и оценок никто и не обещал в этом видео :)
@СергейЧёрный-л7ш Рік тому ⁺¹
Здравствуйте. Можно вопрос? Я не очень понял суть отношения Рэлея. Это типо умозаключение такое, или конструкция для чего? Я понял что мы искали дисперсию, и пришли к формуле отношения Рэлея, но суть этого, что это, для чего, я не понял. Для чего эта конструкция нужна? Можно в двух словах мне объяснить?)
2) В отношении Рэлея мы произвольный вектор умножаем на транспонированную матрицу собственных векторов, то-есть наш произвольный вектор скалярно умножается на каждый собственный вектор, правильно я понял?
@dudvstud9081 Рік тому
Отношение Релея - это такая специальная операция между матрицей и вектором. Отношение Рэлея используется для разных задач. Самое наглядное применение: выполняя это отношение между заданной матрицей и произвольными векторами, мы будем получать значения в диапазоне от минимально до максимального собственного значения матрицы. Мы отношения Релея просто коснулись в процессе поиска собственных значений.
@СергейЧёрный-л7ш Рік тому ⁺¹
@@dudvstud9081 Спасибо)
@anzarsh 5 місяців тому
При нахождении собственных значений ковариационной матрицы мы будем получать характеристический многочлен степени m . В реальных задачах такой полином решается численно методом Лобачевского-Греффе?
@dudvstud9081 5 місяців тому
Лобачевского-Греффе метод универсальный, поэтому можно его применять. Но эффективнее будет через сингулярное разложение, я думаю.
@dudvstud9081 5 місяців тому
Но если совсем по взрослому... pdf.sciencedirectassets.com/271503/1-s2.0-S0898122100X0377X/1-s2.0-S0898122104901101/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjELr%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLWVhc3QtMSJHMEUCIHUlVLNVUCAMJH%2B7%2F5wo2t9OKm0IxgaDb8q72tWv%2Blm%2BAiEAqYI5avJMWhB5tK5jfCrrWie1N3mc0AcvHKfDczD0pccquwUI8%2F%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FARAFGgwwNTkwMDM1NDY4NjUiDA8Jew96NAjTNG%2FFvCqPBZ%2FWXhcl%2BHMxGUZj07daAqqQVPRiST7b2DonGZJxcTVHxiA%2BcUL42lHBL6cIXfeQo9EFoqVhHQtGhYkpq60oUf%2Fs3CVo1eExu7Cimd%2F7H0nz%2F8M%2FBV79RUjWUtY5iNduLmOPM5DY0yUOmMDCH7ltYGSCJGgICyMCu7JfGyvkjmSYwF6IuaUJIGqq%2Fwcw91eKH9BGjbtOQufpxghd2aDKD0jp2h%2FG3OvZf8cv290r3yi4ATujKS0sbg2Uw4t7rd2BZEDYmm6cQgUWqprl4moiteKD%2F5gAOfNlhaQM%2BDeo%2BZQiKg0byv8ZL%2Bg1IkQ1e7NDwVn4vM6eLN%2Fo46wcMSx56eXzAxywEXNcnSVjYGH07MNSP%2B3pajpWngJ0HM8GPGH6KlKODbsL0KNly3FwynFsUwCYJCaevEw963ALscUOaNld4UzkjNezELuHbfdhN9MDsB8altzp50a9kX8hAfY7stGQgON%2FzENnkarakvondM%2B3FgYX%2B26F%2B8DqO7mMIKXBM%2FxtmGdlu8hDk52Utl8JDWQymoLdHOe9sZX%2FC6Cs88rkAgG8WjouLEOJ7H21Ln60uwg9DYoip2fEjIJuGyDzbg53AtsAyUfp%2BE3prgMWSVm7V5hai9viXffbzt7AKEfoPcAtFyTW8mwHeawMUXHiUx9hq9Lu1WlRMHdwsFuAu5MSJFBF5Cg9%2FZBjt0rCnZJT7xQIMdwxLJvj%2Ba5KP7GawaRs21eQoigk4c%2B%2BdSHzx%2FaVB2Vy3JinZiK6ypbNaQMJvMerXt0gJSRCFKhlcE0G5%2FHry3EIaxv6drR4onwYk6BcmC8jwdlBy9sQ9g49o5FVsqGW1vAZziPNP0ShPwpSWeQL%2Fd%2FKDli8QOwp1vLcgk4wlr2FsQY6sQFMzptDJER9RWNTThFOQRWCJqrsr%2FozhFf5VbfxIgWFtflFagsNE1ZTp%2FEtUAMsdtkfbLO3rALPdnCU5riIdpt7qX05%2BM29xeUHuYvo6jZ2nXHzqMmdZm%2BqpxNRsWuluwmd%2BMKTlDZHlk4eaqzJm5KZROrlOLWxDOqkTLTQKwPpL2xbtjHpgFlq6lj9x4XgI%2B6Rt9Bsjhs7rlY9piVENwwm%2BXX%2Byf7Kx79whQej7RAkuyM%3D&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Date=20240418T192142Z&X-Amz-SignedHeaders=host&X-Amz-Expires=300&X-Amz-Credential=ASIAQ3PHCVTYVSWUKUYK%2F20240418%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Signature=7f86705571effdb7a85a69c0a06894d829d2bc2ae4d7572b0004e020929338c6&hash=28751ebbfa8d19a43fc343b009bb9f5ae34188d0662aa02cd28700fa2e8e04f8&host=68042c943591013ac2b2430a89b270f6af2c76d8dfd086a07176afe7c76c2c61&pii=S0898122104901101&tid=spdf-9c346db9-e4c2-4a97-b05e-99191256e7bd&sid=eaa75aa94d55c04bee09aa111ed844e3418fgxrqb&type=client&tsoh=d3d3LnNjaWVuY2VkaXJlY3QuY29t&ua=1d0359515256525b045d&rr=876704f9c8840e66&cc=ge
@anzarsh 5 місяців тому ⁺¹
@@dudvstud9081 нейронная сеть для вычисления собственных векторов симметричных матриц, интересненько)
@dudvstud9081 5 місяців тому
@@anzarsh Не знаю, есть и такое где-то на практике :) Но думаю, скоро все будет исключительно на нейросетях...
@angryworm80 Рік тому ⁺¹
Не в качестве рекламы, а как доп. материал … мне очень помогло уловить интуицию про собственные значения и собственные вектора вот это видео ua-cam.com/video/PFDu9oVAE-g/v-deo.html
@dudvstud9081 Рік тому
Спасибо, посмотрю!
@kkh1965 6 місяців тому ⁺²
Пока не могу оценить для себя пользу просмотра сюжета. Возможно, она есть. Однако мозаичная запись автором хода рассуждений изрядно раздражает. Мы всё же следим визуально за доской. Предполагается, что зритель не специалист, посему логика рассуждений должна быть видна и в записях.
@dudvstud9081 6 місяців тому ⁺²
Спасибо! Я оценил Ваш комментарий как полезный! :)
@СолодушкинСвятослав 2 місяці тому ⁺¹
Спасибо, коллега! Ваши лекции можно рекомендовать студентам. Хорошая подача материала.
Маленькая поправочка. Правильно говорить "Представляет собой", а не "Представляет из себя"
@dudvstud9081 2 місяці тому
Спасибо! Насчет поправки - постараюсь запомнить и говорить грамотно!
@applepixlife9286 Місяць тому
50:04 насколько я понял,вы имеете ввиду что макисмальное значение будет достигаться тогда,когда наш вектор будет полностью совпадать с направлением вектора базиса,у которого максимальное собственное значение(лямбда). Иными словами вектор должен равнять нулю по всем координатам,кроме одной,которая является базисом с самым большим собственным значением. Но почему именно этот вариант считается макимальной дисперсией? Почему к примеру самым большим не считается вариант,где вектор имеет не нулевые координаты по всем осям и в итоге дисперсия будет равнять сумме его нормированных координат умноженных на все собственные значения базисов?
@Denis-17 11 місяців тому ⁺²
Спасибо за урок. Очень понятно объяснили. Было бы интересно узнать от вас про матричное дифференцирование.
@gospodin_uretra 2 роки тому ⁺⁴
Мужик, спасибо тебе огромное. Я довольно давно ищу нормальное объяснение метода главных компонент, но нигде не мог найти: 1) почему ковариационная матрица используется? 2) причём тут собственные вектора? Было бы круто увидеть этот видос в виде статьи на хабре
@dudvstud9081 2 роки тому ⁺¹
Спасибо! Про статью - хорошая идея! :)
@angryworm80 2 роки тому ⁺³
Пересмотрел, осознал! 👍🏻 Класс!!! Теперь интуитивно понятно, как можно оптимизировать обучение модели и снизить вычислительную «цену» обучения модели Про категориальные данные - имеется ввиду OHE чтоб их преобразовать в цифру?
@dudvstud9081 2 роки тому
Спасибо за отзыв! :) Про категориальные - да, чтобы преобразовать в цифру.
@АндрейКосарев-ъ6ц Рік тому
40:21 не очень понял, когда мы объявили базис нормированным?
@dudvstud9081 Рік тому
на 39:45 :) В силу симметричности матрицы имеем полное юридическое право полагать ее собственные вектора ортонормированными
@4u4beck Рік тому ⁺¹
Вы сказали что при спектральном разложении мы можем располагать собственные значения как угодно а разве их произвольное расположение не нарушит структуру единичной матрицы собственных значений и не нарушит умножение на собственные вектора?
@dudvstud9081 Рік тому ⁺¹
Если мы соответствующим образом переставим собственные вектора - то не нарушит
@КаналСупермастерА 2 роки тому ⁺¹
Агонь!
@anzarsh 5 місяців тому ⁺¹
Бомбический урок конечно)
@dudvstud9081 5 місяців тому
Спасибо за Ваши отзывы!
@VladyslavHadzhykhanov Рік тому ⁺¹
1. Подскажите, пожалуйста, какие видео из курса разобрать, чтобы понять, что происходит в течение восьми минут после 38
:08?
2. Таймкод -- 1:00:00. Правильно ли я понимаю, что все собственные числа ковариационной матрицы больше, либо равны 0? Если да, то почему? И именно поэтому при подсчете объясненной дисперсии для первых N компонент мы не навешиваем везде модули?
P.S. Заранее спасибо :)
@dudvstud9081 Рік тому
Спасибо за отзыв!
1) уточните, что именно Вам непонятно?
2( Да, собственные значения ковариационной матрицы не отрицательны.
@VladyslavHadzhykhanov Рік тому
@@dudvstud9081
1) Все преобразования до 38 минуты довольно ясны. Наверное основной затык -- это переход от (E^(-1) @ v) ^(T) и подобных выражений в суммы по e_j. Вот после этого я поплыл и уловил только сам вывод о том, что главные компоненты -- это собственные векторы ковариационной матрицы. Ну и про связь объясненной дисперсии с собственными числами этой матрицы))
2) Можете, пожалуйста, уточнить, почему так?
@VladyslavHadzhykhanov Рік тому ⁺¹
@@dudvstud9081 И еще наверное фундаментальный вопрос: как мы делаем выводы о том, что я написал ранее по формуле, которая на 44:00?
@dudvstud9081 Рік тому
@@VladyslavHadzhykhanov По поводу неотрицательность собственных векторов ковариационный матрицы: пока придется просто поверить и смотреть дальше :)
А вот в этом видео все станет понятно:
ua-cam.com/video/oYT50KIi4Sw/v-deo.html
@dudvstud9081 Рік тому
@@VladyslavHadzhykhanov По поводу преобразований начиная с 38:00:
E^-1v - это представление м в базисе собственных векторов как сумма по j vi*ej (38:50),
подставляем эжту сумму всесто E^-1v
Вспоминаем свойство ортонормированности базиса собственных векторов (40:29)
На основании этого свойства упрощаем выражение: убираем заведомо нулевые слагаемые (41:40)
Выносим лямбды за сколбки (43:00)
Обнаруживаем, что у нас записано отношение длины вектора к его модулю (44:50)
Обнаруживаем по формулам, что любой вектор в базисе собственных векторов ковариационной матрицы оказывается на поверхности сферы (47:00)
Даем геометрическую интерпретацию собственным векторам (48:30)
@ИванЕвдокимов-л6ь Рік тому
Огромное спасибо за ваши труды! Я с этого видео получил нереальное наслаждение - 2 дня трудов и я наконец-то увидел на практике первые плоды долгого изучения вышмата) А по возникшему вопросу про расстояния и сжатость данных вдоль второстепенных компонент я получил ответ сразу в следующем видео про расстояние Махаланобиса - вы прям читаете мысли)
@dudvstud9081 Рік тому
Спасибо и Вам за отзывы!
@user-ch4mf2xi1d 2 роки тому ⁺¹
Жесть какая-то. Вроде понятно, а вроде и каша в голове 😫🤥
@dudvstud9081 2 роки тому
Если что-то конкретное смущает - пишите. Будем разбираться.
@user-ch4mf2xi1d 2 роки тому ⁺¹
@@dudvstud9081 нет, я просто бегу впереди паровоза, полагаю) отсутствие последовательности 🙂
@dudvstud9081 2 роки тому
@@user-ch4mf2xi1d ай, ну там же цифры есть в названиях :)

Наступне

Автоматичне відтворення