Полная история GPT, блок 2.3: GPT-3 и Sparse Attention | Котенков Игорь

Поділитися
Вставка
  • Опубліковано 19 жов 2024
  • Ссылка на слайды: 1drv.ms/p/s!Al...
    Телеграм-канал автора: t.me/seealloch...

КОМЕНТАРІ • 16

  • @user-ey2vv1dl3n
    @user-ey2vv1dl3n 8 місяців тому +7

    Круто! Мой любимый сериал)))) Спасибо хозяин Сиолошной!)))

  • @АлександрВальвачев-я6ъ

    Фактически это уникальный курс. Книгу Вам надо писать. Спасибо.

  • @АлексейЕвгеньевич-л7у
    @АлексейЕвгеньевич-л7у 8 місяців тому

    Огромное спасибо автору! Вы делаете великую и полезную работу!

  • @avanttechno
    @avanttechno 8 місяців тому +3

    Огромное спасибо! Очень полезный и понятный цикл лекций.

    • @user---------
      @user--------- 7 місяців тому

      Если вам понятно объясните например почему размер банча стал 3.4млн?

  • @Andrey__R
    @Andrey__R 8 місяців тому +3

    Огонь!!

  • @ПавелБережной-ц3г
    @ПавелБережной-ц3г 8 місяців тому +1

    Самое классное в этом курсе то, что даже понимая не все, общая суть все равно улавливается. Еще раз спасибо, курс очень крутой

    • @user---------
      @user--------- 7 місяців тому

      Вся суть этого курса - что-то там как-будто понимаешь, но ничего не понимаешь, все верно )))))))

  • @sargisvardanian
    @sargisvardanian 8 місяців тому +1

    Я на одном дыхании сюда дошел, а мне к дипломной готовиться 😢

  • @StanislavMasharsky
    @StanislavMasharsky 8 місяців тому +5

    Примерно на 38:00 говорится, что можно посмотреть разборы, но не приводятся ссылки.
    Я погуглил за вас ©
    Reformer: ua-cam.com/video/i4H0kjxrias/v-deo.html
    Longformer: ua-cam.com/video/_8KNb5iqblE/v-deo.html
    Linformer: ua-cam.com/video/-_2AF9Lhweo/v-deo.html
    Performer: ua-cam.com/video/xJrKIPwVwGM/v-deo.html

  • @fcz1488
    @fcz1488 Місяць тому

    28:30
    простите, если не прав, но будто бы стрелочки у A должны быть наоборот?
    если взять конкретный пример:
    i = 1500, l = 50, тогда A^1 должно падать на 0, 50, 100, .. 1450 - это больше похоже на правую картинку
    при тех же i и l у нас должна быть какая-то непрерывная последовательность в A^2, что вроде как больше похоже на левую..
    или где в рассуждениях ошибка?

    • @stalkermustang
      @stalkermustang  Місяць тому

      Привет
      при i=1500, l = 50, получаем выражение "ищем j такие что целочисленное деление j на 50 равно 30"
      это позиции 1500, 1501...1549. Это A^1, непрерывный кусочек маски, без прореживаний.
      С этими же константами для A^2:
      "ищем j такие что остаток от деления на l попадает в какой-то отрезок целочисленной прямой"
      тут как раз будет периодичность, каждые сколько-то шагов это условие будет выполняться. Если t = 48, то получаем:
      48, 49, 50, 98, 99, 100, ...
      получаются зубчики.

    • @fcz1488
      @fcz1488 Місяць тому

      @@stalkermustang а, там именно что целочисленное деление. да, тогда все верно, спасибо!

  • @tech_priestess_channel
    @tech_priestess_channel 7 місяців тому

    Было бы, конечно, неплохо сделать звук погромче

  • @maximmalyshev4581
    @maximmalyshev4581 8 місяців тому

    11:26
    там сумма 101% получается - это из-за округления доли каждого датасета до целого числа?

    • @stalkermustang
      @stalkermustang  8 місяців тому

      ага. Скрин из оригинальной статьи про гпт3)