Лекция. Функции активации в RNN
Вставка
- Опубліковано 10 лют 2025
- Занятие ведёт Татьяна Гайнцева.
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_lear...
Официальный сайт: dls.samcs.ru/ru/
Официальная группа ВК: dlschoo...
Github-репозиторий: github.com/DLS...
Поддержать канал можно на Boosty: boosty.to/deep...
ФПМИ МФТИ
Официальный сайт: mipt.ru/educat...
Магистратура: mipt.ru/educat...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/educat...
Спасибо за лекцию. Скажите, пожалуйста, нет ли случайно опечатки на формулах 17:29? Такое ощущение, что reverse ht должен зависеть от h(t+1). А на формулах зависимость h(t-1) как для forward, так и для reverse случая. Или можно ещё заменить внутри конкатинирования один из h(t) на h(T-t), где T это количество токенов в инпуте
А где следующее видео про LSTM, GRU?
ua-cam.com/video/2a_7SmTNrJA/v-deo.html
ua-cam.com/video/2a_7SmTNrJA/v-deo.html
ua-cam.com/video/2a_7SmTNrJA/v-deo.html
@valeryzimmerman4018 Спасибо за оперативный ответ
12:50
А что если для решения проблемы затухания сигнала для последних слов (или любых последовательных сигналов) связать не только соседние слои, но и гораздо более дальние слои, либо вообще все.
Приведу пример на базе вашего примера: a cat mat. По дэфолту рекуррентные слои свяжут слои h1(a) и h2(cat), потом h2(cat) и h3(mat). Я же предлагаю связать h1 ни с чем, h2 с h1, h3 с h1 и h2. Гипотетический h4, соответственно связать с h1, h2 и h3. По идее тогда память сохранится на гораздо больший промежуток времени.
В варианте решением "бидирекшеон" затухание пропадет только лишь в конце условного длинного предложения. Если скорость затухания будет достаточно большой то такой метод не даст эффекта в самом центре предложение. Те нейронная сеть не будет знать что там в центре предложения.
Положительная обратная связь, как в эксп средней, берется процент от входного сигнала и оставшийся процент от предыдущего выхода,напр x*0.1+xold*0.9, а обр распр ошибки как обычно, только приращение весов меньше
Следующее видео все ещё не нашлось..))
ua-cam.com/video/2a_7SmTNrJA/v-deo.html&t
ua-cam.com/video/2a_7SmTNrJA/v-deo.html
ua-cam.com/video/2a_7SmTNrJA/v-deo.html