Лекция. Архитектура Transformer. Введение, Transformer Encoder

Поділитися
Вставка
  • Опубліковано 10 січ 2025

КОМЕНТАРІ • 31

  • @idaklimanova9913
    @idaklimanova9913 6 місяців тому +2

    Татьяна, огромная благодарность вам и всей команде. Невероятный материал!!

  • @jookovjook
    @jookovjook 9 місяців тому +3

    Очень крутое объяснение энкодера! Спасибо 🙏

    • @DeepLearningSchool
      @DeepLearningSchool  9 місяців тому

      да, спасибо за замечание, это опечатка(

  • @jookovjook
    @jookovjook 9 місяців тому +5

    В 16:51 при подсчете σ_i выражение (x^e_j - μ_i) должно быть в квадрате. Нет?

    • @w01fer86
      @w01fer86 9 місяців тому

      Ага, без квадрата эта сумма просто 0 будет)

    • @sun_rise_23
      @sun_rise_23 2 дні тому

      ага, тоже заметил.
      плюс 10:07 сумма после софтмакс не равна 1.
      но это все мелочи, Татьяна очень приятная ведущая и материал преподносится очень хорошо и понятно.

  • @shadowmachine777
    @shadowmachine777 2 місяці тому +1

    "Дай знать где ты находишься!.."

  • @94SERP
    @94SERP 9 місяців тому

    10:17 сумма вероятностей после Softmax 1.1

  • @ЮрийМаркин-е6ц
    @ЮрийМаркин-е6ц 9 місяців тому

    Не очень понятно пояснение, почему нельзя использовать One Hot Encoding позиции (30:01). Поясните, пожалуйста. То, что по памяти неэффективно для больших входов в целом понятно.

    • @DeepLearningSchool
      @DeepLearningSchool  9 місяців тому +1

      как минимум потому, что one-hot encoding требует, чтобы векторы были длины количества элементов. Т.е. если у вас в последовательности n токенов, то чтобы закодировать их места one-hot векторами, нужны векторы длины минимум n. А мы хотим, чтобы position encodings суммировались с нашими векторами эмбеддингов

  • @kolhoz1656
    @kolhoz1656 2 місяці тому

    Как найти градиенты для query, key и value? Если есть ссылки, где подробно расписано формулы их нахождения дайте пожалуйста знать. Или если знаете, прошу подробно расписать. В машинном обучение я новичок, пожалуйста не бейте

  • @Ksorz
    @Ksorz 9 місяців тому

    Про какую дополнительную статью идет речь? 34:07
    Что-то я не вижу ее на Степике

    • @DeepLearningSchool
      @DeepLearningSchool  9 місяців тому +1

      Добавим, вчера не успели, извините

    • @Ksorz
      @Ksorz 9 місяців тому

      Спасибо :) @@DeepLearningSchool

    • @ЮрийМаркин-е6ц
      @ЮрийМаркин-е6ц 9 місяців тому

      @@Ksorz подскажите, о каком курсе степика идет речь? немедленно присоединюсь)

    • @mi-cher
      @mi-cher 9 місяців тому

      @@ЮрийМаркин-е6ц "Deep Learning (семестр 2, весна 2024)". Ссылки Ютуб режет

    • @DeepLearningSchool
      @DeepLearningSchool  9 місяців тому

      @@ЮрийМаркин-е6ц вот: stepik.org/course/196142/syllabus

  • @justaseeker5530
    @justaseeker5530 8 місяців тому +1

    На слайде "Идея Transformer" доброе утро переведено, как good night

  • @АлександрКамышников-х8д

    не совсем понял - мы складываем вектор внимания а с соответствующим эмбеддингом... но у них же размерности разные. эмбеддинг может быть длиной в несколько сотен значений ,а вектор внимания в данном случае ,содержит всего 4 значения... как мы их складываем?

    • @ЮрийМаркин-е6ц
      @ЮрийМаркин-е6ц 9 місяців тому

      Почему вы решили, что вектор внимания содержит 4 значения? Это не так. Размерности векторов внимания и эмбеддинга одинаковые.

    • @АлександрКамышников-х8д
      @АлександрКамышников-х8д 9 місяців тому

      @@ЮрийМаркин-е6ц спасибо, я наверно не правильно понял. Надо пересмотреть ролик

  • @deadmorose4741
    @deadmorose4741 9 місяців тому

    А где предыдущая лекция про голый attention?

    • @DeepLearningSchool
      @DeepLearningSchool  9 місяців тому +1

      вот: ua-cam.com/video/Fki-Xe3CGg8/v-deo.htmlfeature=shared

  • @sb9185
    @sb9185 7 місяців тому

    Зачем нужен FC layer ?

    • @no-user-found
      @no-user-found Місяць тому

      Затем, зачем и всегда - пытается уловить зависимости и внести нелинейности. Компе того между первым fc и последним fc пространство расширяется в разы для поиска этих сложных зависимостей, а с последнего fc и его нелинейности выходит опять размерность эмбединга

  • @palevas
    @palevas 9 місяців тому

    Яндекс даже раньше самого Гугла выкатил трансформер для перевода

  • @hazeovich4530
    @hazeovich4530 9 місяців тому

    Из этого видео узнал больше про DL чем за семестр в унике. Привет из ДВФУ🤡

  • @dead-maxim
    @dead-maxim 9 місяців тому

    Может кто-нить объяснить, как из токенов получаются ембеддинги?

    • @Ksorz
      @Ksorz 9 місяців тому +1

      Это было в первой лекции курса (ua-cam.com/video/WbtQzAvhnRI/v-deo.html - Word2Vec, GloVe, FastText). Там был довольно подробный разбор и мы обучали эмбеддинги самостоятельно. Однако потом всё это заменил один единственный слой в нейросети, который что-то там внутри себя делает с токенами и получаются эмбеддинги. Действительно, тут нам особо не объясняли, как теперь это работает, но полагаю, внутри этого слоя что-то подобное

    • @sun_rise_23
      @sun_rise_23 2 дні тому

      @@Ksorz скорее всего это предрассчитанные дефолтные эмбеддинги. Берутся из словаря, либо, что по сути равнозначно, получается перемножением на матрицу ( размерностью размер эмбединга на размер словаря)