A.7.37 Метод главных компонент (PCA) | линейная алгебра + теория вероятностей = анализ данных
Вставка
- Опубліковано 29 вер 2024
- #dudvstud #математиканапальцах #войтивайти
Телеграм: t.me/dudvstud
Плейлисты, литература, помощь проекту и прочее: dudvstud.wixsi...
Станьте спонсором канала, и вы получите доступ к эксклюзивным бонусам. Подробнее:
/ @dudvstud9081
Урок подготовлен при поддержке меценатов Evgeny Zychkov и PROFESSIONAL!
А вот и применение линейной алгебры для анализа данных. Берем спектральное разложение матриц, добавляем щепотку теории вероятностей и получаем метод главных компонент - мощнейший инструмент анализа данных. Главные компоненты позволяют ортогонализировать данные, определять истинное количество степеней свободы (осей) в данных, сжимать данные, отображать на пространства меньшей размерности и т.д.
Прямо по названию видео сразу огромное спасибо за ваш труд. Было бы очень круто посмотреть видео по дискриминантному анализу (LDA)
Спасибо за отзыв! :)
Здравствуйте, а чтобы понять эту лекцию что надо изучить, очень интересно, но откуда берутся какие функции выражения - не понятно... Может есть видео, курсы
Отличное видео
Спасибо за отзыв :)
с 1-го раза …жесть! понял отрывками, надо будет пересматривать. И наверно так несколько итераций…
Уверен, что все получится! Ну, в смысле понять. Спрашивайте в комментах непонятные моменты!
@@dudvstud9081 Идея в целом и конечная цель - понятны. Теоретический вывод в плане пошагового понимания…ну очень тяжелый. Детектив просто…. Но главный вопрос - как это делать с конкретным датасетом? Какие методы в Python и в каких библиотеках есть? Как интерпретировать результаты этих методов? Однако, сама идея - блестящая и это 100% нужно осваивать. Как грится … потихоньку освоим
@@angryworm80 мы к этому придём со временем, к конкретным методам в питоне. Не зря же программирование параллельно затеяли... Хотя идёт все медленнее, чем я предполагал...
@@dudvstud9081 пусть чуть медленнее, чем планировалось, зато не страдает качество материала 👍🏻 все очень подробно и основательно.
@@angryworm80 Спасибо!
Зашел, посмотреть, как получается матрица нагрузок и матрица оценок из исходной матрицы, так и не дождался
Матрицы нагрузок и оценок никто и не обещал в этом видео :)
Здравствуйте. Можно вопрос? Я не очень понял суть отношения Рэлея. Это типо умозаключение такое, или конструкция для чего? Я понял что мы искали дисперсию, и пришли к формуле отношения Рэлея, но суть этого, что это, для чего, я не понял. Для чего эта конструкция нужна? Можно в двух словах мне объяснить?)
2) В отношении Рэлея мы произвольный вектор умножаем на транспонированную матрицу собственных векторов, то-есть наш произвольный вектор скалярно умножается на каждый собственный вектор, правильно я понял?
Отношение Релея - это такая специальная операция между матрицей и вектором. Отношение Рэлея используется для разных задач. Самое наглядное применение: выполняя это отношение между заданной матрицей и произвольными векторами, мы будем получать значения в диапазоне от минимально до максимального собственного значения матрицы. Мы отношения Релея просто коснулись в процессе поиска собственных значений.
@@dudvstud9081 Спасибо)
При нахождении собственных значений ковариационной матрицы мы будем получать характеристический многочлен степени m . В реальных задачах такой полином решается численно методом Лобачевского-Греффе?
Лобачевского-Греффе метод универсальный, поэтому можно его применять. Но эффективнее будет через сингулярное разложение, я думаю.
Но если совсем по взрослому... pdf.sciencedirectassets.com/271503/1-s2.0-S0898122100X0377X/1-s2.0-S0898122104901101/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjELr%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLWVhc3QtMSJHMEUCIHUlVLNVUCAMJH%2B7%2F5wo2t9OKm0IxgaDb8q72tWv%2Blm%2BAiEAqYI5avJMWhB5tK5jfCrrWie1N3mc0AcvHKfDczD0pccquwUI8%2F%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FARAFGgwwNTkwMDM1NDY4NjUiDA8Jew96NAjTNG%2FFvCqPBZ%2FWXhcl%2BHMxGUZj07daAqqQVPRiST7b2DonGZJxcTVHxiA%2BcUL42lHBL6cIXfeQo9EFoqVhHQtGhYkpq60oUf%2Fs3CVo1eExu7Cimd%2F7H0nz%2F8M%2FBV79RUjWUtY5iNduLmOPM5DY0yUOmMDCH7ltYGSCJGgICyMCu7JfGyvkjmSYwF6IuaUJIGqq%2Fwcw91eKH9BGjbtOQufpxghd2aDKD0jp2h%2FG3OvZf8cv290r3yi4ATujKS0sbg2Uw4t7rd2BZEDYmm6cQgUWqprl4moiteKD%2F5gAOfNlhaQM%2BDeo%2BZQiKg0byv8ZL%2Bg1IkQ1e7NDwVn4vM6eLN%2Fo46wcMSx56eXzAxywEXNcnSVjYGH07MNSP%2B3pajpWngJ0HM8GPGH6KlKODbsL0KNly3FwynFsUwCYJCaevEw963ALscUOaNld4UzkjNezELuHbfdhN9MDsB8altzp50a9kX8hAfY7stGQgON%2FzENnkarakvondM%2B3FgYX%2B26F%2B8DqO7mMIKXBM%2FxtmGdlu8hDk52Utl8JDWQymoLdHOe9sZX%2FC6Cs88rkAgG8WjouLEOJ7H21Ln60uwg9DYoip2fEjIJuGyDzbg53AtsAyUfp%2BE3prgMWSVm7V5hai9viXffbzt7AKEfoPcAtFyTW8mwHeawMUXHiUx9hq9Lu1WlRMHdwsFuAu5MSJFBF5Cg9%2FZBjt0rCnZJT7xQIMdwxLJvj%2Ba5KP7GawaRs21eQoigk4c%2B%2BdSHzx%2FaVB2Vy3JinZiK6ypbNaQMJvMerXt0gJSRCFKhlcE0G5%2FHry3EIaxv6drR4onwYk6BcmC8jwdlBy9sQ9g49o5FVsqGW1vAZziPNP0ShPwpSWeQL%2Fd%2FKDli8QOwp1vLcgk4wlr2FsQY6sQFMzptDJER9RWNTThFOQRWCJqrsr%2FozhFf5VbfxIgWFtflFagsNE1ZTp%2FEtUAMsdtkfbLO3rALPdnCU5riIdpt7qX05%2BM29xeUHuYvo6jZ2nXHzqMmdZm%2BqpxNRsWuluwmd%2BMKTlDZHlk4eaqzJm5KZROrlOLWxDOqkTLTQKwPpL2xbtjHpgFlq6lj9x4XgI%2B6Rt9Bsjhs7rlY9piVENwwm%2BXX%2Byf7Kx79whQej7RAkuyM%3D&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Date=20240418T192142Z&X-Amz-SignedHeaders=host&X-Amz-Expires=300&X-Amz-Credential=ASIAQ3PHCVTYVSWUKUYK%2F20240418%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Signature=7f86705571effdb7a85a69c0a06894d829d2bc2ae4d7572b0004e020929338c6&hash=28751ebbfa8d19a43fc343b009bb9f5ae34188d0662aa02cd28700fa2e8e04f8&host=68042c943591013ac2b2430a89b270f6af2c76d8dfd086a07176afe7c76c2c61&pii=S0898122104901101&tid=spdf-9c346db9-e4c2-4a97-b05e-99191256e7bd&sid=eaa75aa94d55c04bee09aa111ed844e3418fgxrqb&type=client&tsoh=d3d3LnNjaWVuY2VkaXJlY3QuY29t&ua=1d0359515256525b045d&rr=876704f9c8840e66&cc=ge
@@dudvstud9081 нейронная сеть для вычисления собственных векторов симметричных матриц, интересненько)
@@anzarsh Не знаю, есть и такое где-то на практике :) Но думаю, скоро все будет исключительно на нейросетях...
Не в качестве рекламы, а как доп. материал … мне очень помогло уловить интуицию про собственные значения и собственные вектора вот это видео ua-cam.com/video/PFDu9oVAE-g/v-deo.html
Спасибо, посмотрю!
Пока не могу оценить для себя пользу просмотра сюжета. Возможно, она есть. Однако мозаичная запись автором хода рассуждений изрядно раздражает. Мы всё же следим визуально за доской. Предполагается, что зритель не специалист, посему логика рассуждений должна быть видна и в записях.
Спасибо! Я оценил Ваш комментарий как полезный! :)
Спасибо, коллега! Ваши лекции можно рекомендовать студентам. Хорошая подача материала.
Маленькая поправочка. Правильно говорить "Представляет собой", а не "Представляет из себя"
Спасибо! Насчет поправки - постараюсь запомнить и говорить грамотно!
50:04 насколько я понял,вы имеете ввиду что макисмальное значение будет достигаться тогда,когда наш вектор будет полностью совпадать с направлением вектора базиса,у которого максимальное собственное значение(лямбда). Иными словами вектор должен равнять нулю по всем координатам,кроме одной,которая является базисом с самым большим собственным значением. Но почему именно этот вариант считается макимальной дисперсией? Почему к примеру самым большим не считается вариант,где вектор имеет не нулевые координаты по всем осям и в итоге дисперсия будет равнять сумме его нормированных координат умноженных на все собственные значения базисов?
Спасибо за урок. Очень понятно объяснили. Было бы интересно узнать от вас про матричное дифференцирование.
Мужик, спасибо тебе огромное. Я довольно давно ищу нормальное объяснение метода главных компонент, но нигде не мог найти: 1) почему ковариационная матрица используется? 2) причём тут собственные вектора? Было бы круто увидеть этот видос в виде статьи на хабре
Спасибо! Про статью - хорошая идея! :)
Пересмотрел, осознал! 👍🏻 Класс!!! Теперь интуитивно понятно, как можно оптимизировать обучение модели и снизить вычислительную «цену» обучения модели Про категориальные данные - имеется ввиду OHE чтоб их преобразовать в цифру?
Спасибо за отзыв! :) Про категориальные - да, чтобы преобразовать в цифру.
40:21 не очень понял, когда мы объявили базис нормированным?
на 39:45 :) В силу симметричности матрицы имеем полное юридическое право полагать ее собственные вектора ортонормированными
Вы сказали что при спектральном разложении мы можем располагать собственные значения как угодно а разве их произвольное расположение не нарушит структуру единичной матрицы собственных значений и не нарушит умножение на собственные вектора?
Если мы соответствующим образом переставим собственные вектора - то не нарушит
Агонь!
Бомбический урок конечно)
Спасибо за Ваши отзывы!
1. Подскажите, пожалуйста, какие видео из курса разобрать, чтобы понять, что происходит в течение восьми минут после 38
:08?
2. Таймкод -- 1:00:00. Правильно ли я понимаю, что все собственные числа ковариационной матрицы больше, либо равны 0? Если да, то почему? И именно поэтому при подсчете объясненной дисперсии для первых N компонент мы не навешиваем везде модули?
P.S. Заранее спасибо :)
Спасибо за отзыв!
1) уточните, что именно Вам непонятно?
2( Да, собственные значения ковариационной матрицы не отрицательны.
@@dudvstud9081
1) Все преобразования до 38 минуты довольно ясны. Наверное основной затык -- это переход от (E^(-1) @ v) ^(T) и подобных выражений в суммы по e_j. Вот после этого я поплыл и уловил только сам вывод о том, что главные компоненты -- это собственные векторы ковариационной матрицы. Ну и про связь объясненной дисперсии с собственными числами этой матрицы))
2) Можете, пожалуйста, уточнить, почему так?
@@dudvstud9081 И еще наверное фундаментальный вопрос: как мы делаем выводы о том, что я написал ранее по формуле, которая на 44:00?
@@VladyslavHadzhykhanov По поводу неотрицательность собственных векторов ковариационный матрицы: пока придется просто поверить и смотреть дальше :)
А вот в этом видео все станет понятно:
ua-cam.com/video/oYT50KIi4Sw/v-deo.html
@@VladyslavHadzhykhanov По поводу преобразований начиная с 38:00:
E^-1v - это представление м в базисе собственных векторов как сумма по j vi*ej (38:50),
подставляем эжту сумму всесто E^-1v
Вспоминаем свойство ортонормированности базиса собственных векторов (40:29)
На основании этого свойства упрощаем выражение: убираем заведомо нулевые слагаемые (41:40)
Выносим лямбды за сколбки (43:00)
Обнаруживаем, что у нас записано отношение длины вектора к его модулю (44:50)
Обнаруживаем по формулам, что любой вектор в базисе собственных векторов ковариационной матрицы оказывается на поверхности сферы (47:00)
Даем геометрическую интерпретацию собственным векторам (48:30)
Огромное спасибо за ваши труды! Я с этого видео получил нереальное наслаждение - 2 дня трудов и я наконец-то увидел на практике первые плоды долгого изучения вышмата) А по возникшему вопросу про расстояния и сжатость данных вдоль второстепенных компонент я получил ответ сразу в следующем видео про расстояние Махаланобиса - вы прям читаете мысли)
Спасибо и Вам за отзывы!
Жесть какая-то. Вроде понятно, а вроде и каша в голове 😫🤥
Если что-то конкретное смущает - пишите. Будем разбираться.
@@dudvstud9081 нет, я просто бегу впереди паровоза, полагаю) отсутствие последовательности 🙂
@@user-ch4mf2xi1d ай, ну там же цифры есть в названиях :)