#19. Введение в метод опорных векторов (SVM) | Машинное обучение
Вставка
- Опубліковано 11 кві 2022
- Вывод метода опорных векторов (Support Vector Machine - SVM) для линейно разделимого и линейно неразделимого случаев.
Инфо-сайт: proproprogs.ru/ml
Телеграм-канал: t.me/machine_learning_selfedu
Большое спасибо за подготовленные материалы, под каждым видео не буду писать благодарности, но знайте, про себя каждый день благодарю вас за помощь в обучении) Манера подачи и плотность полезной информации одни из лучших на русскоязычном пространстве
присоединяюсь
Вы святой человек! 😂 целый день искала хорошее объяснение svm но все недопонимала до конца как он выводится, спасибо что создали это видео!
Огромное спасибо! Прохожу курс лекций по ML от ШАД яндекса, вы отлично объяснили то, что я не понял у них.
Супер! Даже я поняла, спасибо большое!
Огромное спасибо за понятное и наглядное объяснение.
Судя по формулам, то с какой стороны на решение проблемы не посмотри все сводится к выбору функции потерь и регуляризации.
Да, верно. Пока все разнообразие алгоритмов можно воспринимать именно так!
Харош мужик
@selfedu В целом понятно, но есть вопросы:
5:10 - Почему направление вектора (xp-xm) будет совпадать с w? И далее ты про угол между ними говоришь. Как я понял, это задача стоит настроить w близко к этому.
6:50 - Разве ширина полосы безразмерна? Сам же пишешь, ширина это |xp-xm|*cos(a), проекция вектора dx на w. Размерность у нее - единицы x. Мы делим на |w| как раз чтобы оставить из скалярного произведения только ширину (в размерности признаков).
8:40 - Как подбираются граничные образы и альфа? На каждом шаге ищутся ближайшие к линии образы, замеряется дистанция d, тогда a=1/d?
14:25 - Как задаются кси_i и куда они исчезли из формулы? Если приравняли 0, то получили формулу для линейно разделимого случая? А иначе срезы не по 0, а по кси_i?
1. Да, совпадает, т.к. направление векторов идет в сторону класса с меткой +1.
2. Здесь да, мы избавляемся только от размера w, но не x, согласен, хотя потом, расстояния между этими векторами также нормируем, поэтому, в целом, не критично.
3. Скорее всего, внутрь sc-learn не заглядывал, как в нем это реализовано не скажу, но как вариант ваш подход вполне возможен.
4. Не совсем это понял, т.к. в видео четко об этом говорится. Мы рассматриваем минимальные значения кси, чтобы минимизировать первое неравенство, и отсюда получаем кусочно-линейную их зависимость от двух других параметров w и b. Все.
@@selfedu_rus 1. А, то есть направление векторов "совпадает" не в смысле точно, а в смысле - направлены в сторону того же класса.
4. Я просто понял будто кси_i изначально как-то задаются, а имеется в виду, что они допускаются как некие степени свободы, которые в итоге выражаются и минимизируются срезами (1-Mi)+
@@YbisZX 1. Да, в одну сторону (острый угол). 4. Да, кси - это оптимизируемые параметры
👍👍👍👍👍
А можем b, добавить в вектор омега(новая строка) а в X-ах добавить столбец единиц, ведь уравнение гиперплоскости не изменится (умножением двух матриц), и так минизировать длинну омеги?
Здравствуйте!! Хотелось бы узнать будете ли вы в proproprogs выкладывать объяснение как с нейросетью(ютуб ролик + документ)?
да, буду после формирования всего курса
На 9-40 в формуле не пропущена w около x(-)?
доставляет интонация) будто автор задумал затроллить зрителя и радуется в предвкушении))
Не до конца понимаю. На 8:00 определяем Mi=yi*a(xi)=y(-b), хотя функция a была определена как знаковая до этого с областью определения {-1;+1}.
При вычислении отступа мы берем только скалярное произведение без знаковой функции.
Привет. Спасибо.
У меня вопрос: видел, у вас канал на RuTube завёлся. А туда весь свой контент переносить планируете?
Думаю, нет. Гиблый сервис ) Залил все на VK.
@@selfedu_rus И еще вопрос. Будете ли продолжать выкладывать видео на UA-cam?
думаю, да
почему мы используем индекс Т у ориентации гиперплоскости, это когда связано с транспонированием?
да, здесь T - это знак транспонирования
@@selfedu_rus для чего здесь нужен знак транспонирования, это разве не просто прямая?
В других материалах везде вижу L=2/||w||, без квадрата. Всё же непонятно, почему у вас двойная как нормировка?
мы далее все равно расстояние до граничных элементов нормируем к 1, поэтому 1 и 1^2 одно и то же
Не очень понятна равносильность при замене 2 нормы в знаменателе на её квадрат, ведь по сути после этого это максимизируемое выражение уже не проекция на единичный вектор
да, это разные метрики, но главное, что мы нормируем вектор w, а единицы потом получаем выбором параметра alfa
@@selfedu_rus Можете объяснить как работает нормирование отступа? Классы же на фиксированном расстоянии друг от друга, как мы можем умножением на константу сделать отступ единичным? Мы разве сдвигаем классы к прямой?
@@girrra1233 нет, у нас есть два ближайших к разделяющей линии класса, эта линия точно по центру, значит, расстояния до них одинаковы, пусть равны d. Число d не равно 1, нормируем: a = M/d.
@@selfedu_rus Верно ли я понял, что в реальности с расстоянием ничего не происходит, мы просто нормируем весовой вектор так, чтобы чисто вычислительно получать единичку? Просто для математического удобства?
@@girrra1233 совершенно верно! вся разница в чем мерить: в попугаях или удавах ))
Вопрос, а почему нельзя для определения ширины полосы просто сделать так L = 2*|W| ??? так как я понимаю вектор W идет от разделяющей гиперплоскости (центра полосы) перпендикулярно, до границы разделяюшей полосы. и следовательно, мы просто умножаем длину вектора W на 2 (хотя можно даже и не умножать на 2, так как нам не важно по сути само значение, а важно лишь найти наибольшую полосу). P.S. проверял на случайных данных на чертеже и все в точности сходится, как при использовании вашей формулы, так и той что я предложил, только вычислений меньше.
тогда сама длина |W| не будет иметь значения, т.е. коэффициенты можно увеличивать или уменьшать до бесконечности?
Я понял в чем дело, спасибо!