[LLM] InfiniGen: Efficient Generative Inference of LLMs with Dynamic KV Cache Management (OSDI 2024)

Поділитися
Вставка
  • Опубліковано 7 лют 2025
  • 서울대학교 데이터사이언스대학원
    2024.10.05 논문세미나
    InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management (OSDI 2024)
    무단 전재, 재배포 및 이용 (AI 학습 포함) 금지.
    Prohibition of unauthorized reproduction, redistribution, and use of AI learning.
    Vrew를 사용하여 제작된 영상입니다

КОМЕНТАРІ •