Лекция. Градиентная оптимизация в Deep Learning

Поділитися
Вставка
  • Опубліковано 22 гру 2024

КОМЕНТАРІ • 21

  • @Zeyn_77
    @Zeyn_77 9 місяців тому +3

    Дай бог здоровья лектору и долгих лет жизни, что б больше лекций слушать его. Благодаря нему смог разобраться в нейронных сетях

  • @НатальяЛинде-ф9ч
    @НатальяЛинде-ф9ч 5 місяців тому +1

    Радослав, у Вас одна из самых лучших подач материала! Спасибо большое за лекцию! ☺☺

  • @vadimosipov2147
    @vadimosipov2147 4 роки тому +15

    Так как рассказывает Радослав, стоит многим поучиться ) Однако слушая лекции все время ловлю себя на мысли про понятие Стохастический градиентный спуск, батчи.
    У Радослава, когда упоминается Стохастический спуск - тут нужно смотреть какой он делится по одному или нескольким элементам, а батч - это случайная подвыборка объектов,
    У Andrew Ng, когда упоминается Стохастический спуск - это всегда про один элемент, батч - это все объекты, минибатч - случайная подвыборка из батча.

  • @ingarssallminah2472
    @ingarssallminah2472 4 роки тому +7

    Отличный лектор!!!!

  • @АндрейКениг-б6д
    @АндрейКениг-б6д 8 місяців тому

    хорошая лекция, спасибо

  • @Genialbonehead
    @Genialbonehead 4 роки тому +3

    Большое спасибо, прекрасная лекция

  • @nikitatjeeey6248
    @nikitatjeeey6248 2 роки тому

    благодарю, хорошая лекция, доступно и понятно!

  • @ilnaz007
    @ilnaz007 4 роки тому +1

    Отличная лекция

  • @Superflywheel
    @Superflywheel Рік тому

    Наиболее оптимальным методом 😂👍

  • @nikolaikrot8516
    @nikolaikrot8516 4 роки тому +3

    хорошая лекция. для лучшего понимания слушал ее на скорости 0.85.

  • @yanfors1224
    @yanfors1224 4 роки тому +4

    А можно, пожалуйста, объяснение шутки про lr в ADAM (константу Карпатова)?

  • @yuriyovsyannikov6511
    @yuriyovsyannikov6511 Місяць тому

    Функция сигмоиды f(a) = 1 / 1 + e^-1, разве нет?

  • @ekaterinaivanova3816
    @ekaterinaivanova3816 2 роки тому

    16:31 Кажется, потерялась константа в формуле для значения признака с импульсом Нестерова. Роу - это же какой-то гиперпараметр?

    • @vitaly1085
      @vitaly1085 2 роки тому

      Седня разбирался сам с этим, как я понял это импульс p=m*v (где m масса, v скорость) тогда если дальше в формулу подставить получится Ek кинетическая энергия m*v*v без константы 1/2

  • @ЕвгенияЕлизейко
    @ЕвгенияЕлизейко Місяць тому

    Вставлю сюда один хороший комментарий к слайду момента Нестерова:
    В первой написано:
    x[t+1]=x[t]−α(ρv[t]+∇f(x[t])) - то есть, возьми накопленный момент, прибавь к нему текущий градиент в точке x[t] и на полученную сумму, помноженную на альфу, отступи от точки x[t] назад. Во второй написано: x[t+1]=(x[t]+ρv[t])−α∇f(x[t]+ρv[t])) - то есть, сначала от текущей точки x[t] отступи на накопленный момент и получи новую точку x[t]+ρv[t], а потом в ней посчитай градиент и отступи на него с минус альфой. То есть, ровно то, что нарисовано на картинках.

  • @Grivitaka
    @Grivitaka 4 роки тому

    Мой уровень не такой крутой. Но можно видео сделать про результат моделей: почему результат модели не стремится к цели, но Loss все меньше и меньше. В идеале должен результат модели равняться цели? Какие параметры для линейного слоя если inp_x=[50], кол-во тестовых выборок около 500, цели 0,1,2. Сколько эпох рекомендуется и как выбрать их кол-во? Много перечитал и пересмотрел всяких обучалок, но конкретно никто ничего не говорит...

  • @eugeneporter3650
    @eugeneporter3650 3 роки тому

    А почему sgd остановился на вершине седла?

    • @dartsidious90
      @dartsidious90 Рік тому +2

      Потому что поймал локальный минимум и не может выбраться из него

  • @АндрейКениг-б6д
    @АндрейКениг-б6д 8 місяців тому

    22:50 знаменатель д.б. под корнем

  • @etherealdream4136
    @etherealdream4136 2 роки тому +1

    дед объясняет мемы)