Igor Kotenkov
Igor Kotenkov
  • 12
  • 116 032

Відео

Полная история GPT, блок 2.4: Метрики и неожиданные навыки GPT-3 | Котенков Игорь
Переглядів 2,1 тис.8 місяців тому
Ссылка на слайды: 1drv.ms/p/s!AlnN0aqNwShsmAtH787Zid5Q2JWy?e=FIun46 Телеграм-канал автора: t.me/seeallochnaya
Полная история GPT, блок 2.3: GPT-3 и Sparse Attention | Котенков Игорь
Переглядів 2,4 тис.8 місяців тому
Ссылка на слайды: 1drv.ms/p/s!AlnN0aqNwShsmAtH787Zid5Q2JWy?e=FIun46 Телеграм-канал автора: t.me/seeallochnaya
Полная история GPT, блок 2.2: Последствия релиза GPT-2 | Котенков Игорь
Переглядів 1,6 тис.8 місяців тому
Ссылка на слайды: 1drv.ms/p/s!AlnN0aqNwShsmAtH787Zid5Q2JWy?e=FIun46 Телеграм-канал автора: t.me/seeallochnaya
Полная история GPT, блок 2.1: GPT-2 | Котенков Игорь
Переглядів 3,5 тис.8 місяців тому
Ссылка на слайды: 1drv.ms/p/s!AlnN0aqNwShsmAtH787Zid5Q2JWy?e=FIun46 Телеграм-канал автора: t.me/seeallochnaya
Полная история GPT, блок 1.3: GPT-1 | Котенков Игорь
Переглядів 4,2 тис.8 місяців тому
ВАЖНО! Этот мини-курс является частью другого курса, поэтому предполагает наличие некоторой базы. Пререквизиты: - базовое знание ML (как учится нейронная сеть, что такое лосс, как валидировать модель) - понимание концепции эмбеддинга (на уровне работы с текстовыми моделями вроде Word2Vec. Можно ознакомиться тут: habr.com/ru/articles/446530/) - понимание архитектуры трансформера (на уровне просм...
Полная история GPT, блок 1.2: Sentiment Neuron, или понимают ли нейронки эмоции | Котенков Игорь
Переглядів 3,7 тис.8 місяців тому
ВАЖНО! Этот мини-курс является частью другого курса, поэтому предполагает наличие некоторой базы. Пререквизиты: - базовое знание ML (как учится нейронная сеть, что такое лосс, как валидировать модель) - понимание концепции эмбеддинга (на уровне работы с текстовыми моделями вроде Word2Vec. Можно ознакомиться тут: habr.com/ru/articles/446530/) - понимание архитектуры трансформера (на уровне просм...
Полная история GPT, блок 1.1: Предсказание - это сжатие | Котенков Игорь
Переглядів 12 тис.8 місяців тому
ВАЖНО! Этот мини-курс является частью другого курса, поэтому предполагает наличие некоторой базы. Пререквизиты: - базовое знание ML (как учится нейронная сеть, что такое лосс, как валидировать модель) - понимание концепции эмбеддинга (на уровне работы с текстовыми моделями вроде Word2Vec. Можно ознакомиться тут: habr.com/ru/articles/446530/) - понимание архитектуры трансформера (на уровне просм...
Opportunities in AI for Practitioners (a lecture for Global CIO Conference) | Igor Kotenkov
Переглядів 3,3 тис.10 місяців тому
Slides: 1drv.ms/p/s!AlnN0aqNwShsl1FKvt4pZ52iBsQ8?e=WcV4XC My Telegram channel (Russian): t.me/seeallochnaya Links from the presentation: 1) github.blog/2023-06-27-the-economic-impact-of-the-ai-powered-developer-lifecycle-and-lessons-from-github-copilot/ 2) papers.ssrn.com/sol3/papers.cfm?abstract_id=4375268 3) www.science.org/doi/10.1126/science.adh2586 4) papers.ssrn.com/sol3/papers.cfm?abstra...
What's next for OpenAI? | SuperAlignment | Igor Kotenkov, Lecture in Russian
Переглядів 13 тис.Рік тому
Ссылка на презентацию: 1drv.ms/p/s!AlnN0aqNwShslxRizBwXClLYDHHe Мой телеграм канал: t.me/seeallochnaya Список всех моих образовательных материалов, статей, лекций итд: t.me/seeallochnaya/3 В этом докладе мы разберемся, что такое SuperAlignment, почему он так интересен исследователям из OpenAI, и что они будут делать для того, чтобы решить проблему. Всего мы рассмотрим 8 направлений, в рамках ко...
RLHF Intro: from Zero to Aligned Intelligent Systems | Igor Kotenkov
Переглядів 12 тис.Рік тому
Ссылка на презентацию: 1drv.ms/p/s!AlnN0aqNwShslWtiuDJOR_qt3Urn Мой телеграм канал: t.me/seeallochnaya Список всех моих образовательных материалов, статей, лекций итд: t.me/seeallochnaya/3 Перед вами - обзорная-лекция блока Instruct Models Датафеста 2023го года. В ней рассказано о проблемах в мире машинного обучения, о несоответствии функций для оптимизации и реальных задач, для которых модели ...
Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian)
Переглядів 54 тис.Рік тому
Ссылка на презентацию: 1drv.ms/p/s!AlnN0aqNwShslRdcd7-WsY9oUm50 Мой телеграм канал: t.me/seeallochnaya Список всех моих образовательных материалов, статей, лекций итд: t.me/seeallochnaya/3 В этой вводной лекции о трансформерах мы рассмотрим базовые понятия, алгоритмы и методы, используемые в современных языковых моделях. Мы начнем с базовых знаний о NLP, поговорим про концепцию векторов и эмбед...

КОМЕНТАРІ

  • @onamixt
    @onamixt 11 днів тому

    Спасибо! Даёшь третий модуль

  • @onamixt
    @onamixt 13 днів тому

    Спасибо!

  • @onamixt
    @onamixt 13 днів тому

    Спасибо!

  • @onamixt
    @onamixt 14 днів тому

    50:49 Неясно, каким образом нейронка поняла, что "it_" связано с "animal", если в masked self-attention токены слева (из прошлго) не могут "обращать внимание" на токены справа ("из будущего" ). Иными словами, трансформер в данном случаем пытается сделать предсказание для куска "The animal didn't cross the street because it". Такой кусок даже для человека будет двусмысленным

  • @onamixt
    @onamixt 14 днів тому

    Ссылки для более глубокого/детального понимания трансформеров (на английском): ua-cam.com/play/PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ.html ua-cam.com/play/PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi.html ua-cam.com/video/KV5gbOmHbjU/v-deo.html&ab_channel=NeelNanda

  • @tanercoder1915
    @tanercoder1915 25 днів тому

    Пришел со статьи на хабре

  • @testcloud3404
    @testcloud3404 Місяць тому

    ппц просто - объяснять ГО на примере крестиков/ноликов крестики/нолики решены полностью (лет 70 уже как) и выбор ходя делается от победного результата (с конца дерева решений), а в ГО самое интересное это именно оценочная функция

  • @JCSirorezka
    @JCSirorezka Місяць тому

    👏👏👏

  • @fcz1488
    @fcz1488 Місяць тому

    28:30 простите, если не прав, но будто бы стрелочки у A должны быть наоборот? если взять конкретный пример: i = 1500, l = 50, тогда A^1 должно падать на 0, 50, 100, .. 1450 - это больше похоже на правую картинку при тех же i и l у нас должна быть какая-то непрерывная последовательность в A^2, что вроде как больше похоже на левую.. или где в рассуждениях ошибка?

    • @stalkermustang
      @stalkermustang Місяць тому

      Привет при i=1500, l = 50, получаем выражение "ищем j такие что целочисленное деление j на 50 равно 30" это позиции 1500, 1501...1549. Это A^1, непрерывный кусочек маски, без прореживаний. С этими же константами для A^2: "ищем j такие что остаток от деления на l попадает в какой-то отрезок целочисленной прямой" тут как раз будет периодичность, каждые сколько-то шагов это условие будет выполняться. Если t = 48, то получаем: 48, 49, 50, 98, 99, 100, ... получаются зубчики.

    • @fcz1488
      @fcz1488 Місяць тому

      @@stalkermustang а, там именно что целочисленное деление. да, тогда все верно, спасибо!

  • @АлександрВальвачев-я6ъ

    Внушает! Спасибо.

  • @АлександрВальвачев-я6ъ

    Фактически это уникальный курс. Книгу Вам надо писать. Спасибо.

  • @АлександрВальвачев-я6ъ

    Очень качественно. И интересно. Спасибо.

  • @fcz1488
    @fcz1488 2 місяці тому

    круто конечно) хотелось бы понять, не выучила ли лстмка тупо все отзывы - там же столько же параметров, сколько отзывов.. хотя то, что при этом она сама проэцирует все на 1 всего лишь нейрон удивляет!

    • @stalkermustang
      @stalkermustang 2 місяці тому

      там 1 эпоха, ни один отзыв не повторялся смысл не в качестве а в зашивании всей важной фичи в 1 нейрон -> мы можем это проверить в двух направлениях (изменить инпуты и смотреть на фичу / изменить фичу и смотреть на аутпуты), и если оно работает на любых текстах схожего домена, то тут о переобучении речи и не идёт

  • @PavelSelivanov-dd8os
    @PavelSelivanov-dd8os 2 місяці тому

    Спасибо за материал!

  • @fcz1488
    @fcz1488 2 місяці тому

    заранее пардон, если это разбиралось, но наверное присоединюсь к вопросу о суперкомпьютерах: а в чем, собственно смысл было считать энтропию на первом и передавать его на второй, почему не посчитать сразу все на втором? суперкомпьютеры же не могут учиться на разных текстах, иначе придется передавать веса, а не лоссы?

    • @stalkermustang
      @stalkermustang 2 місяці тому

      Копирую ответ: чтобы посчитать её справа, нужно чтобы справа оказался текст. Утверждение таково, что по ходу обучения модели передаваемый текст будет занимать больше места, чем передача энтропии. Это не верно для первых итераций, когда трансформер работает около-случайно, но верно с какого-то шага обучения. Поскольку модель ОЧЕНЬ хорошо предсказывает текст, то нужно будет передать крайне мало бит по сравнению с оригинальным текстом (да, даже если его сжимать) Да, не могут учиться на разных текстах, иначе нужно передавать веса, что очень затратно (много гигабайт). Поэтому они должны учиться на одном и том же - но на правом-то компьютере этого текста нет.

    • @fcz1488
      @fcz1488 2 місяці тому

      @@stalkermustang теперь понятно, спасибо!

  • @sergeysosnovski162
    @sergeysosnovski162 2 місяці тому

    Спасибо за лекцию. Надо бы её переделать, добавить в 2 раза больше информации, условия эксперимента с суперкомпьютерами. Если для обоих серверов условия одинаковы, какой смысл передавать энтропию Z слева направо, проще посчитать её справа. И вообще, побольше физического смысла, что такое p1+z1 ? Вижу кучу восторженных возгласов от людей, который мало что поняли или посмотрели первые 5 минут. Повторюсь - спасибо за лекцию. Уважаю автора !

    • @stalkermustang
      @stalkermustang 2 місяці тому

      чтобы посчитать её справа, нужно чтобы справа оказался текст. Утверждение таково, что по ходу обучения модели передаваемый текст будет занимать больше места, чем передача энтропии. Это не верно для первых итераций, когда трансформер работает около-случайно, но верно с какого-то шага обучения. Поскольку модель ОЧЕНЬ хорошо предсказывает текст, то нужно будет передать крайне мало бит по сравнению с оригинальным текстом (да, даже если его сжимать)

    • @kindyak7
      @kindyak7 Місяць тому

      Если я правильно понял, предлагается с компьютера 1 на компьютер 2 передать файл для инициализации модели. А обученные веса как будут переданы на компьютер 2? Ведь случайная модель не будет обеспечивать низкую энтропию (скорее всего энтропия будет максимально возможной) Или я что-то упускаю, и мы таким методом можем параллельно обучать модель на компьютере 2, поддерживая веса в синхронном виде?

    • @kindyak7
      @kindyak7 Місяць тому

      Вопрос кажется снят. Как я понял, идея учить из параллельно. Как замечали в другом комментарии, на практике скорее всего проще и быстрее обученную модель на компьютер 2 передать. Которая сразу будет на все токены давать лучшее сжатие. Хотя это зависит от степени сжатия, и верно только с какого-то значения степени сжатия

    • @stalkermustang
      @stalkermustang Місяць тому

      ​@@kindyak7 Да, идея учить параллельно. На втором компьютере датасет получается прогоном той же модели, что и на первом (они же инициилизированы одинаково?), но с восстановлением датасета - см. с 28:50 как восстановили текущий батч (из предсказаний модели + кодирования энтропии) - сделали на нём backward pass и обновили веса, как и на первом компьютере. Итого у нас снова модели одинаковые. === > на практике скорее всего проще и быстрее обученную модель на компьютер 2 передать да, но тут же пример не о передаче модели, а о передачи данных. Модель - это просто часть инструмента компрессии. Причём рассматривается случай, что данных очень много. Можно загуглить, например, что у Amazon есть настолько крупные клиенты в облаке, что им быстрее оказалось перевести фурами часть стоек датацентра с дисками, а не передавать это по интернету. Это как пример того, что на огромных масштабах передача данных может быть и дорогой, и очень времязатратной) на самом деле схожая модель присутствует в современных архиваторах - просто они учат оооооочень маленькую модель, и, наверное (тут моя догадка) они сначала учат на всём, а потом кодируют, причём, можно переобучиться даже на конкретный набор данных. На Hutter Prize, который упоминается в ролике, если что, топовое решение (емнип без учёта ресурсов) - на трансформерах :)

  • @АлександрВальвачев-я6ъ

    Великолепно.

  • @Perfffffffect
    @Perfffffffect 2 місяці тому

    А на 58:22 нет ошибки в инициализированных матрицах, которые мы перемножаем? А размером 100 на 300 и B размером 100 на 300. Должно же быть (100, 300) * (300, 100).

    • @stalkermustang
      @stalkermustang 2 місяці тому

      поскольку это случайные матрицы, то разницы нет - это же просто примемер. Для соблюдения шейпов в операции делется транспонирование (A @ B.T)

  • @АнтонРаченко-ш7с
    @АнтонРаченко-ш7с 4 місяці тому

    Игорь, спасибо за лекцию! Крайне полезный материал, с отличной подачей! Каждый раз обращаюсь к твоей лекции, перед собесами на секцию NLP) Было бы очень здорово, если бы появились таймкоды. Спасибо!

  • @BrainUniverse
    @BrainUniverse 4 місяці тому

    Порекомендуйте видео где на пальцах объяснено как "обучают" матрицы q,k,v у трансформера

    • @stalkermustang
      @stalkermustang 3 місяці тому

      Боюсь, такого нет. Можно смотреть на объяснение обучения Linear (Dense) layer, и потом от него переходить к расчётам q,k,v, как каждая цифра в них меняется из-за того или иного градиента.

    • @BrainUniverse
      @BrainUniverse 3 місяці тому

      @@stalkermustang вот по linear layer как раз всё понятно, а по матрицам q,k,l - ни капли. И в видео об этом ни слова. Понятно, что они обучаются схожим образом, но вот что на вход подаётся и на выходе ожидается при обучении - нет.

  • @azatnv
    @azatnv 5 місяців тому

    Классно! Такие лекции популяризируют ресерч и открывают путь для развития в этой области

  • @veirtichannel
    @veirtichannel 5 місяців тому

    ББПЕ база.

  • @nauseouscustody1440
    @nauseouscustody1440 5 місяців тому

    Если в общем, то Reward Model это продвинутая loss функция, а Hf (human feedback) это продвинутая функция активации? Или не так?

  • @несквикспивом-ц8и
    @несквикспивом-ц8и 6 місяців тому

    1:18:53

  • @АлександрАгапов-н5к
    @АлександрАгапов-н5к 6 місяців тому

    Большое спасибо!

  • @elenamartynova8068
    @elenamartynova8068 6 місяців тому

    Человек - это животное, разве нет?)

  • @cosmonaut380
    @cosmonaut380 6 місяців тому

    Спасибо за потрясающий цикл лекций, да еще и на русском, да еще и бесплатно.

  • @MikhailZhokhov
    @MikhailZhokhov 6 місяців тому

    Оооооочень ждем продолжение

  • @arrancartruecoding8541
    @arrancartruecoding8541 7 місяців тому

    Если мы на LLM генерируем положительный отзыв, то нам нужно создать и использовать Embedding на положительный сентимен? Получается, что тренировка Embedding - это поиск нужного нейрона?

  • @arrancartruecoding8541
    @arrancartruecoding8541 7 місяців тому

    Очень подробно и доступно! Когда начал работать с LLM я понял, что это самый эффективный способ хранения информации, но объяснить друзьям простыми словами почему я не мог. Спасибо!

  • @eskenderqrm8041
    @eskenderqrm8041 7 місяців тому

    Лекция 🔥

  • @alexanderbakhrakh
    @alexanderbakhrakh 7 місяців тому

    с дорогой и собакой проще пример чем те два на английском. Кто кого благодарит из двух девушек - тут уже нужна логика, а собака и дорога - разные сущности.

  • @MikhailZhokhov
    @MikhailZhokhov 7 місяців тому

    Это просто потрясающе! Очень интересно

  • @TheAltamontboy
    @TheAltamontboy 7 місяців тому

    Игорь, большое спасибо за такие подробные разборы статей, очень помогает посмотреть на работу с разных сторон

  • @kuliev.vitaly
    @kuliev.vitaly 7 місяців тому

    Отличная лекция! Интересно узнать про актуальные нейросети.

  • @user---------
    @user--------- 7 місяців тому

    Спасибо за курс, в целом интересно, пару лекций даже было понятно на 60%...... Не планируется ли версия этого курса для тупых? Вы не поверите, но нас много, больше чем официально считается (все просто делают вид, что умные такие как вы)......

    • @stalkermustang
      @stalkermustang 7 місяців тому

      нет, у курса есть пререквизиты, в рамках которых он действует (см. описание первой лекции).

    • @user---------
      @user--------- 7 місяців тому

      @@stalkermustang ну статьи на Хабре у вас намного более понятны для широкой аудитории :)

  • @user---------
    @user--------- 7 місяців тому

    Кажется первый ролик из этого мини-курса который почти весь понятен.

  • @Bkloped
    @Bkloped 7 місяців тому

    Спасибо огромное, очень круто

  • @high_fly_bird
    @high_fly_bird 7 місяців тому

    Прекрасный курс, спасибо Игорю! Столько плюсов! Во-первых, курс на русском. Во-вторых, курс на прекрасном русском - слушать лектора приятно, все логические ударения, паузы, интонационные выделения соблюдены. А в-третьих, выжимка в 40 минутах очень полезная и прикладная. Спасибо ещё раз! Мы это ценим.

  • @user---------
    @user--------- 7 місяців тому

    А есть тоже самое, но для тупых? Я конечно понимаю, что тут все очень умные и с первого просмотра все поняли, но есть тупые вроде меня, которым требуется объяснить все детали, а не только упоминать их как факт. Подскажете плиз?

  • @user---------
    @user--------- 7 місяців тому

    Совсем не понятно что значит "появился нейрон, который понимает хороший отзыв или плохой". Как именно он появился? Как он "выглядит" и где он находится? Почему именно этот "нейрон" имеет значение? Почему он один? Там же может быть "100 нейронов" которые делают эти оценки. И тд. Очень туманно и не раскрыты все [ВАЖНЫЕ] детали. Может быть подскажете где почитать?

    • @dmitryp1257
      @dmitryp1257 7 місяців тому

      Исходная mLSTM выдаёт вектор некоторой размерности. В этом векторе всегда один и тот же элемент отвечает за тональность текста, и классификатор тональности можно строить только на значениях этого элемента. То есть, приходит в классификатор последовательность из N чисел, а мы берём из этих чисел одно, и по нему определяем, плохой отзыв или хороший.

    • @user---------
      @user--------- 7 місяців тому

      @@dmitryp1257 откуда эти данные? Можно первоисточник плз. Я впервые слышу что можно точно определить конкретный элемент вектора отвечающий за тональность.

  • @user---------
    @user--------- 7 місяців тому

    Если честно ниxpeна не понятно 😢 На Хабре вы понятнее пишете (для неопытных воробьев)

  • @tech_priestess_channel
    @tech_priestess_channel 7 місяців тому

    НО РЕБЯТА ИЗ OPENAI ОШИБЛИСЬ!

  • @llyamels
    @llyamels 7 місяців тому

    21:50 Скример

  • @tech_priestess_channel
    @tech_priestess_channel 7 місяців тому

    Было бы, конечно, неплохо сделать звук погромче

  • @tech_priestess_channel
    @tech_priestess_channel 7 місяців тому

    Хороший видосян

  • @tech_priestess_channel
    @tech_priestess_channel 7 місяців тому

    1. Будешь как-нибудь рассказывать про "BERT Rediscovers the Classical NLP Pipeline" и другие статьи в этом направлении? Раз уж ты затронул тему важности 1го слоя GPT. 2. Где юпитер ноутбук с фокусом по удалению последних слоев GPT?

    • @stalkermustang
      @stalkermustang 7 місяців тому

      Про берт не буду (мы же про гпт говорим), ноутбука нет - можно самим закодить за 5 минут.

  • @consilx2985
    @consilx2985 7 місяців тому

    прив, как думаешь 3д индустрии скоро пизда настанет ?

    • @user---------
      @user--------- 7 місяців тому

      Скоро всем индустриям 3.14зда настанет, очевидно. Кожаные мешки станут не нужны, но жрать то хотеть будут, тем более от безделья!

  • @artoemkozlov
    @artoemkozlov 8 місяців тому

    Спасибо за видео! А есть какая-то интуиция почему на 7:20 zero-shot acc для обоих датасетов лучше чем one-shot? С дивана кажется, что один пример лучше чем ничего, но в результате выглядит что это только мешает модели, вне зависимости от ее размера.

    • @stalkermustang
      @stalkermustang 8 місяців тому

      Привет, неа, и в статье не видел объяснения. Если бы речь шла про более поздние модели, то начал бы рассуждать про трейдофф между in context learning abilities и instruction following (помню, где-то читал, что улучшая одно ухудшается второе), но тут же чисто LLMка без тюна.

  • @dstepan76
    @dstepan76 8 місяців тому

    Спасибо! Но перформанс не улучшается, он беттерится :)