LLMOps: Quantizar modelos e Inferencia con ONNX Generative Runtime

Поділитися
Вставка
  • Опубліковано 3 лип 2024
  • En este video vamos a ver como instalar el onnx runtime con soporte GPU para hacer inferencia con Modelos Generativos. Usaremos un modelo Phi3-mini-4k cuantizadoa a 4int y lurgo transformaremos un Phi3-mini-128k a 4int con el runtime onnx
    Notebook:
    github.com/olonok69/LLM_Noteb...
  • Наука та технологія

КОМЕНТАРІ •