Лекция 2.4: Градиентный спуск.
Вставка
- Опубліковано 12 чер 2024
- Занятие ведёт Григорий Лелейтнер.
Ссылки на все части:
1. • Лекция 2.1: Линейная р...
2. • Лекция 2.2: LogLoss.
3. • Лекция 2.3: Логистичес...
5. • Лекция 2.5: Регуляриза...
6. • Лекция 2.6: Нормализация.
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_learning_school_news
Официальный сайт: dls.samcs.ru/ru/
Официальная группа ВК: dlschool_mipt
Github-репозиторий: github.com/DLSchool/dlschool
Поддержать канал можно на Boosty: boosty.to/deeplearningschool
ФПМИ МФТИ
Официальный сайт: mipt.ru/education/departments...
Магистратура: mipt.ru/education/departments...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/education/departments...
Другие записи курсов от Лектория ФИВТ вы можете найти на канале / @stfpmi
объяснил суть производной и для чего она лучше чем учителя в школе и преподы в универе
11:20 Почему внутри суммы (сигма большая) не ставите скобки? Ведь вычитаемое входит в сумму и суммируется по i. А у вас оно отпадает от суммы.
Здравствуйте, откуда на
11:40
взялось x_ij?
На этом слайте "Градиентный спуск для логистической регрессии" 10:59 (ua-cam.com/video/YWr3S1IqnlQ/v-deo.html) все в порядке со знаками?
Не могу понять вычисление шага (5:19). В чем математически смысл изменения переменной функции именно на величину производной при такой переменной умноженной на learning rate? Почему надо делать именно такое изменение? Понятно, что это сдвигает переменную x в нужную сторону, постепенно уменьшая или увеличивая его, но почему именно так, в чем его смысл? Это как из расстояния вычесть скорость. Правильно ли я понимаю, что learning rate можно рассматривать как время?
Ты нашёл ответ на свой вопрос?
А то я тоже не понял
Не, это надо, чтобы у тебя величина, которую ты вычитаешь, тоже уменьшалась. В минимуме у тебя производная будет стремиться к нулю, значит и величина, которую ты вычитаешь, тоже будет стремиться к нулю. Таким образом ты быстрее найдешь минимум и уменьшается вероятность перескочить этот самый минимум.
Формально можно и константу вычитать, но, как я уже выше написал, это полная херня
вроде бы логистическую регрессию считают от софтмакса и там получится просто разность
Да, это для дискретных систем. В непрерывных именно таким образом считается. Просто это надо знать, чтобы понимать как переход осуществляется.