USENIX ATC '24 - Cost-Efficient Large Language Model Serving for Multi-turn Conversations with...

USENIX ATC '24 - PUZZLE: Efficiently Aligning Large Language Models through Light-Weight Context...

USENIX ATC '24 - Harmonizing Efficiency and Practicability: Optimizing Resource Utilization in...

🤯ЗАБИЛИ В САМОЕ ВЫСОКОЕ КОЛЬЦО В МИРЕ🏀 #shorts #баскетбол

Легендарный «Цезарь» (легион «Свобода России»). Отставка Путина, захват Харькова и Днепра

"Вони мене заставили розмовляти російською мовою": староста села про катування #shorts

USENIX ATC '24 - Power-aware Deep Learning Model Serving with μ-Serve

USENIX

Переглядів 143

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 11 вер 2024
Power-aware Deep Learning Model Serving with μ-Serve
Haoran Qiu, Weichao Mao, Archit Patke, and Shengkun Cui, University of Illinois Urbana-Champaign; Saurabh Jha, Chen Wang, and Hubertus Franke, IBM Research; Zbigniew Kalbarczyk, Tamer Başar, and Ravishankar K. Iyer, University of Illinois Urbana-Champaign
With the increasing popularity of large deep learning model-serving workloads, there is a pressing need to reduce the energy consumption of a model-serving cluster while maintaining satisfied throughput or model-serving latency requirements. Model multiplexing approaches such as model parallelism, model placement, replication, and batching aim to optimize the model-serving performance. However, they fall short of leveraging the GPU frequency scaling opportunity for power saving. In this paper, we demonstrate (1) the benefits of GPU frequency scaling in power saving for model serving; and (2) the necessity for co-design and optimization of fine-grained model multiplexing and GPU frequency scaling. We explore the co-design space and present a novel power-aware model-serving system, µ-Serve. µ-Serve is a model-serving framework that optimizes the power consumption and model serving latency/throughput of serving multiple ML models efficiently in a homogeneous GPU cluster. Evaluation results on production workloads show that µ-Serve achieves 1.2-2.6× power saving by dynamic GPU frequency scaling (up to 61% reduction) without SLO attainment violations.
View the full ATC '24 program at www.usenix.org...

КОМЕНТАРІ •

Наступне

Автоматичне відтворення

USENIX ATC '24 - Cost-Efficient Large Language Model Serving for Multi-turn Conversations with...

USENIX ATC '24 - Cost-Efficient Large Language Model Serving for Multi-turn Conversations with...

USENIX ATC '24 - PUZZLE: Efficiently Aligning Large Language Models through Light-Weight Context...

USENIX ATC '24 - PUZZLE: Efficiently Aligning Large Language Models through Light-Weight Context...

USENIX ATC '24 - Harmonizing Efficiency and Practicability: Optimizing Resource Utilization in...

USENIX ATC '24 - Harmonizing Efficiency and Practicability: Optimizing Resource Utilization in...

🤯ЗАБИЛИ В САМОЕ ВЫСОКОЕ КОЛЬЦО В МИРЕ🏀 #shorts #баскетбол

🤯ЗАБИЛИ В САМОЕ ВЫСОКОЕ КОЛЬЦО В МИРЕ🏀 #shorts #баскетбол

Легендарный «Цезарь» (легион «Свобода России»). Отставка Путина, захват Харькова и Днепра

Легендарный «Цезарь» (легион «Свобода России»). Отставка Путина, захват Харькова и Днепра

"Вони мене заставили розмовляти російською мовою": староста села про катування #shorts

"Вони мене заставили розмовляти російською мовою": староста села про катування #shorts

Знімальна група «Донбас Реалії» потрапила під обстріл під час зйомок військових на Донеччині

Знімальна група «Донбас Реалії» потрапила під обстріл під час зйомок військових на Донеччині

USENIX ATC '24 - StreamBox: A Lightweight GPU SandBox for Serverless Inference Workflow

USENIX ATC '24 - StreamBox: A Lightweight GPU SandBox for Serverless Inference Workflow

An Extensive Deep Dive Into Researching BitVM2

An Extensive Deep Dive Into Researching BitVM2

MIT Introduction to Deep Learning | 6.S191

MIT Introduction to Deep Learning | 6.S191

USENIX ATC '24 - ScalaAFA: Constructing User-Space All-Flash Array Engine with Holistic Designs

USENIX ATC '24 - ScalaAFA: Constructing User-Space All-Flash Array Engine with Holistic Designs

USENIX ATC '24 - ZMS: Zone Abstraction for Mobile Flash Storage

USENIX ATC '24 - ZMS: Zone Abstraction for Mobile Flash Storage

USENIX ATC '24 - Starburst: A Cost-aware Scheduler for Hybrid Cloud

USENIX ATC '24 - Starburst: A Cost-aware Scheduler for Hybrid Cloud

What is Granite?

What is Granite?

USENIX ATC '24 - FastCommit: resource-efficient, performant and cost-effective file system...

USENIX ATC '24 - FastCommit: resource-efficient, performant and cost-effective file system...

Possible End of Humanity from AI? Geoffrey Hinton at MIT Technology Review's EmTech Digital

Possible End of Humanity from AI? Geoffrey Hinton at MIT Technology Review's EmTech Digital

ОБМЕНЯЛА КВИНКУ НА…😱(смотрите до конца😂)#роблокс #игры #смешное #интересное #квинка

ОБМЕНЯЛА КВИНКУ НА…😱(смотрите до конца😂)#роблокс #игры #смешное #интересное #квинка

Роднянский - когда и как заканчивать войну / вДудь

Роднянский – когда и как заканчивать войну / вДудь

skibidi toilet 77 (part 4)

skibidi toilet 77 (part 4)

Жизнь ТАРАКАНА (смешное видео, юмор, приколы, поржать)

Жизнь ТАРАКАНА (смешное видео, юмор, приколы, поржать)

Главная суперспособность армейских муравьев и пляжные упогебии

Главная суперспособность армейских муравьев и пляжные упогебии

Я уговариваю своего друга попробовать чипсы Лава Лава

Я уговариваю своего друга попробовать чипсы Лава Лава

У вас там какие таланты ?😂

У вас там какие таланты ?😂

СОБАКА ВЕРНУЛА ТАБАЛАПКИ😱#shorts

СОБАКА ВЕРНУЛА ТАБАЛАПКИ😱#shorts