[LLM] InfiniGen: Efficient Generative Inference of LLMs with Dynamic KV Cache Management (OSDI 2024)
Вставка
- Опубліковано 7 лют 2025
- 서울대학교 데이터사이언스대학원
2024.10.05 논문세미나
InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management (OSDI 2024)
무단 전재, 재배포 및 이용 (AI 학습 포함) 금지.
Prohibition of unauthorized reproduction, redistribution, and use of AI learning.
Vrew를 사용하여 제작된 영상입니다