Открытая лекция по Efficient Attention

Поділитися
Вставка
  • Опубліковано 6 лип 2024
  • #deeplearning #nlp #llm #ai
    Обсудим быстрые механизмы внимания с точки зрения простых инженерных решений.
    Без математики тоже не обойдётся, но объясним всё простым языком и ответим на все вопросы, которые возникнут.
    Наш курс "Ускорение нейросетей": deepschool.ru/speedup
    Лекцию проведёт Саша Гончаренко:
    - CTO стартапа по ускорению моделей enot.ai
    - автор статей, в том числе про low-power/precision вычисления
    - спикер конференций (NAS, трансформеры, инференс на смартфоне)
    - хэдлайнер нашего курса по ускорению
    Саша расскажет про:
    - Group Query Attention - сделаем KV-кеш поменьше.
    - Pattern Attention - простой способ сократить вычисления с помощью паттерна
    - Linear Attention - ряд Тейлора is all you need

КОМЕНТАРІ •