Serving Large Language Models with KubeRay on TPUs

Lessons From Fine-Tuning Llama-2

Deploying Many Models Efficiently with Ray Serve

Рождение Немецкой Легенды - Mercedes 190E 2.3-16

Сестра обхитрила!

The evil clown plays a prank on the angel

Enabling Cost-Efficient LLM Serving with Ray Serve

Anyscale

Переглядів 6 486

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 9 січ 2025

КОМЕНТАРІ • 4

@elephantum 6 місяців тому ⁺⁴
It should be noted, that since this talk, Anyscale deprecated Ray LLM and now recommend vLLM
@_nitingoyal_ 2 місяці тому
vLLM requires Ray Serve to provide distributed inference.
@yukewang3164 9 місяців тому ⁺³
awesome talk, with useful insights!
@MrEmbrance 5 місяців тому
no thanks

Наступне

Автоматичне відтворення

Serving Large Language Models with KubeRay on TPUs

Serving Large Language Models with KubeRay on TPUs

Lessons From Fine-Tuning Llama-2

Lessons From Fine-Tuning Llama-2

Deploying Many Models Efficiently with Ray Serve

Deploying Many Models Efficiently with Ray Serve

Рождение Немецкой Легенды - Mercedes 190E 2.3-16

Рождение Немецкой Легенды - Mercedes 190E 2.3-16

Сестра обхитрила!

Сестра обхитрила!

The evil clown plays a prank on the angel

The evil clown plays a prank on the angel

СКОЛЬКО ИХ...?! #Shorts #Глент

СКОЛЬКО ИХ...?! #Shorts #Глент

Fast LLM Serving with vLLM and PagedAttention

Fast LLM Serving with vLLM and PagedAttention

KubeRay: A Ray cluster management solution on Kubernetes

KubeRay: A Ray cluster management solution on Kubernetes

Understanding the LLM Inference Workload - Mark Moyou, NVIDIA

Understanding the LLM Inference Workload - Mark Moyou, NVIDIA

Exploring the Latency/Throughput & Cost Space for LLM Inference // Timothée Lacroix // CTO Mistral

Exploring the Latency/Throughput & Cost Space for LLM Inference // Timothée Lacroix // CTO Mistral

Modernizing DoorDash Model Serving Platform with Ray Serve

Modernizing DoorDash Model Serving Platform with Ray Serve

What Makes Large Language Models Expensive?

What Makes Large Language Models Expensive?

Accelerating LLM Inference with vLLM

Accelerating LLM Inference with vLLM

Perplexity AI: How We Built the World's Best LLM-Powered Search Engine in 6 Months, w/ Less Than $4M

Perplexity AI: How We Built the World's Best LLM-Powered Search Engine in 6 Months, w/ Less Than $4M

Making your Enterprise GenAI Ready and GenAI Enterprise Ready

Making your Enterprise GenAI Ready and GenAI Enterprise Ready

СОЛДАТ КНДР: ВТЕЧА/ВІЙНА В УКРАЇНІ/10 РОКІВ ШПИГУВАВ У ПІВНІЧНІЙ КОРЕЇ/ТОРГУЮТЬ НАРКОТИКАМИ І ЗБРОЄЮ

СОЛДАТ КНДР: ВТЕЧА/ВІЙНА В УКРАЇНІ/10 РОКІВ ШПИГУВАВ У ПІВНІЧНІЙ КОРЕЇ/ТОРГУЮТЬ НАРКОТИКАМИ І ЗБРОЄЮ

The Security Guard Fell Into The Trap Of The Beauty #still #parkour #funny#skate

The Security Guard Fell Into The Trap Of The Beauty #still #parkour #funny#skate

To Brawl AND BEYOND!

To Brawl AND BEYOND!

Пилот обманул смерть ракета пролетела рядом с ним #shorts

Пилот обманул смерть ракета пролетела рядом с ним #shorts

Заява ЗАЛУЖНОГО ШОКУВАЛА увесь СВІТ😱ТРЕТЯ СВІТОВА ВІЙНА ПОЧАЛАСЬ?

Заява ЗАЛУЖНОГО ШОКУВАЛА увесь СВІТ😱ТРЕТЯ СВІТОВА ВІЙНА ПОЧАЛАСЬ?

МАФИЯ в РЕАЛЬНОЙ ЖИЗНИ: Дубровский, Позов, Мамикс, Катя Клэп, Егорик, Кадрол, Столяров, Масленников

МАФИЯ в РЕАЛЬНОЙ ЖИЗНИ: Дубровский, Позов, Мамикс, Катя Клэп, Егорик, Кадрол, Столяров, Масленников

⚡КОРЕЙЦІ ПРОТИ росіянок

⚡КОРЕЙЦІ ПРОТИ росіянок

Кирилл Набутов. Арестович в Кремле, кто взорвал командующего в Москве, война России с НАТО

Кирилл Набутов. Арестович в Кремле, кто взорвал командующего в Москве, война России с НАТО