Глубинное обучение. Оптимизация для глубинного обучения. Школа анализа данных, Яндекс

Поділитися
Вставка
  • Опубліковано 15 лис 2021
  • Рассматриваются основные алгоритмы для оптимизации функций потерь в глубинном обучении, а именно стохастический пакетный градиентный спуск и его модификации. Особое внимание уделяется градиентному спуску с моментом. Обсуждается так же пакетная нормализация (batch normalization).
  • Наука та технологія

КОМЕНТАРІ • 1

  • @b0rsch95
    @b0rsch95 2 роки тому

    очень необычный подход, на 01:03:20, перед объяснением того как работает BN ввести другой слой и назвать его "toy BN", подразумевая что студенты уже знают что такое BN. Не представляю как без знания того что делает BN понять как под знаком суммы оказались w_2 и w_1. Имхо, как минимум нужно оговориться, что нормируются не входы В СЕТЬ, а входы В ТЕКУЩИЙ СЛОЙ. ну и не очень ясно, какое отношение эта выдуманная функция w1*w2*w3*w4 имеет к реальным задачам. Для вашей функции у нас, конечно, получилось что разница между весами в 5 порядков нам не помешала, но к реальности, как мне кажется, это не имеет никакого отношения. Но спасибо за попытку придумать объяснение лучше чем то, что BN просто почему-то работает и дать какую-то интуицию.