LLMOps: Quantizar modelos e Inferencia con ONNX Generative Runtime
Вставка
- Опубліковано 3 лип 2024
- En este video vamos a ver como instalar el onnx runtime con soporte GPU para hacer inferencia con Modelos Generativos. Usaremos un modelo Phi3-mini-4k cuantizadoa a 4int y lurgo transformaremos un Phi3-mini-128k a 4int con el runtime onnx
Notebook:
github.com/olonok69/LLM_Noteb... - Наука та технологія