Is Your GPU Really Working Efficiently in the Data Center? N Ways to Imp... Xiao Zhang & Wu Ying Jun

Sit Back and Relax with Fault Awareness and Robust Instant Recovery for... - Fanshi Zhang & Kebe Liu

Unlocking Local LLMs with Quantization - Marc Sun, Hugging Face

💥ОРБАН наказав вимкнути Зеленського з ефіру після цих слів! У Будапешті скандал! / ДЖИГУН

⚡5 МИНУТ НАЗАД! ТРАМП СДЕЛАЛ ПЕРВОЕ ЗАЯВЛЕНИЕ ПОСЛЕ ПОБЕДЫ! ЧТО БУДЕ ДАЛЬШЕ?

Главная суперспособность армейских муравьев и пляжные упогебии

Sit Back and Relax with Fault Awareness and Robust Instant Recovery for... Fanshi Zhang & Kebe Liu

The Linux Foundation

Переглядів 21

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 8 лис 2024
Don't miss out! Join us at our upcoming conference: Open Source Summit + AI_Dev: Open Source GenAI & ML Summit in Tokyo from October 28-29, 2024. Connect with peers as the community gathers to further the education and advancement of open source and GenAI. Learn more at events.linuxfo...
Sit Back and Relax with Fault Awareness and Robust Instant Recovery for Large Scale AI Workloads | 坐和放宽，了解大规模 AI 负载场景下的故障感知和健壮的快速故障恢复 - Fanshi Zhang & Kebe Liu, DaoCloud
The fault tolerance during train, fine-tuning, and even inferencing is crucial to modern AI workloads when it happens on large scale, with loads of GPU clusters. For training and fine-tuning tasks, failure of GPUs, storages, any hardware issues often cause the extending the training time to weeks and even months significantly. For inferencing, when massive loads of requests income, if one of the inferencing servers went faulty, we need a policy and scheduler to perform mitigation to transfer the workloads fast and efficiently. In this talk, We will introduce a series of mechanism we have designed to help Kubernetes clusters and workloads itself to locate, diagnostic the root cause, schedule and perform mitigation when it comes to any of hardware or CUDA API call failures to reduce the overall operating challenges. But the possibilities will not stop here, the fault awareness and mitigation scheduler will help any of the workloads to mitigate during failures.
在大规模GPU集群上进行训练、微调甚至推理时的容错性对现代人工智能工作负载至关重要。对于训练和微调任务，GPU、存储等硬件故障经常会导致训练时间延长至数周甚至数月。对于推理任务，当大量请求涌入时，如果其中一个推理服务器出现故障，我们需要一种策略和调度程序来快速高效地转移工作负载。在本次演讲中，我们将介绍一系列我们设计的机制，帮助Kubernetes集群和工作负载本身定位、诊断根本原因，并在硬件或CUDA API调用失败时进行调度和执行缓解，以减少整体运营挑战。但可能性不会止步于此，故障感知和缓解调度程序将帮助任何工作负载在故障期间进行缓解。

КОМЕНТАРІ •

Наступне

Автоматичне відтворення

Is Your GPU Really Working Efficiently in the Data Center? N Ways to Imp... Xiao Zhang & Wu Ying Jun

Is Your GPU Really Working Efficiently in the Data Center? N Ways to Imp... Xiao Zhang & Wu Ying Jun

Sit Back and Relax with Fault Awareness and Robust Instant Recovery for... - Fanshi Zhang & Kebe Liu

Sit Back and Relax with Fault Awareness and Robust Instant Recovery for... - Fanshi Zhang & Kebe Liu

Unlocking Local LLMs with Quantization - Marc Sun, Hugging Face

Unlocking Local LLMs with Quantization - Marc Sun, Hugging Face

💥ОРБАН наказав вимкнути Зеленського з ефіру після цих слів! У Будапешті скандал! / ДЖИГУН

💥ОРБАН наказав вимкнути Зеленського з ефіру після цих слів! У Будапешті скандал! / ДЖИГУН

⚡5 МИНУТ НАЗАД! ТРАМП СДЕЛАЛ ПЕРВОЕ ЗАЯВЛЕНИЕ ПОСЛЕ ПОБЕДЫ! ЧТО БУДЕ ДАЛЬШЕ?

⚡5 МИНУТ НАЗАД! ТРАМП СДЕЛАЛ ПЕРВОЕ ЗАЯВЛЕНИЕ ПОСЛЕ ПОБЕДЫ! ЧТО БУДЕ ДАЛЬШЕ?

Главная суперспособность армейских муравьев и пляжные упогебии

Главная суперспособность армейских муравьев и пляжные упогебии

Интересный поединок

Интересный поединок

Improving Bpftrace Reliability - Daniel Xu, Meta

Improving Bpftrace Reliability - Daniel Xu, Meta

Will AI help you deliver great software?

Will AI help you deliver great software?

A Next-generation IoT Platform for Edge AI Apps Leveraging Se...- Munehiro Shimomura & Kenji Shimizu

A Next-generation IoT Platform for Edge AI Apps Leveraging Se...- Munehiro Shimomura & Kenji Shimizu

Politics, policies & power: John Mearsheimer’s blunt analysis | Centre Stage

Politics, policies & power: John Mearsheimer’s blunt analysis | Centre Stage

Think Fast, Talk Smart: Communication Techniques

Think Fast, Talk Smart: Communication Techniques

Exploring CXL Memory: Configuration and Emulation - Yasunori Goto, Fsas Technologies Inc.

Exploring CXL Memory: Configuration and Emulation - Yasunori Goto, Fsas Technologies Inc.

Optimize Your AI Cloud Infrastructure: A Hardware Perspective - Liang Yan, CoreWeave

Optimize Your AI Cloud Infrastructure: A Hardware Perspective - Liang Yan, CoreWeave

Contributing to KernelCI for Better Testing and Collaboration - Arisu Tachibana, Cybertrust Japan Co

Contributing to KernelCI for Better Testing and Collaboration - Arisu Tachibana, Cybertrust Japan Co

Hannes Mühleisen - Data Wrangling [for Python or R] Like a Boss With DuckDB

Hannes Mühleisen - Data Wrangling [for Python or R] Like a Boss With DuckDB

👀Пропозиція від військового #війна #мобілізація #зсу #тцк #повістки

👀Пропозиція від військового #війна #мобілізація #зсу #тцк #повістки

ДИЗЕЛЬ ШОУ 2024 💙 152 ВИПУСК 💛💐 ВЕЛИКА ПРЕМ'ЄРА 🌷 від 01.11.2024

ДИЗЕЛЬ ШОУ 2024 💙 152 ВИПУСК 💛💐 ВЕЛИКА ПРЕМ'ЄРА 🌷 від 01.11.2024

Интересный поединок

Интересный поединок

🔴ЗСУ ЖОРСТОКО ПОМСТИЛИСЬ! СПЕЦНАЗ РФ - РОЗНЕСЛИ В ХЛАМ! КОРЕЙЦІВ ВЖЕ ПАКУЮТЬ У ЧОРНІ ПАКЕТИ!

🔴ЗСУ ЖОРСТОКО ПОМСТИЛИСЬ! СПЕЦНАЗ РФ – РОЗНЕСЛИ В ХЛАМ! КОРЕЙЦІВ ВЖЕ ПАКУЮТЬ У ЧОРНІ ПАКЕТИ!

Речь Дональда Трампа по итогам выборов: «беспрецедентный и мощный мандат», «золотой век Америки»

Речь Дональда Трампа по итогам выборов: «беспрецедентный и мощный мандат», «золотой век Америки»

ПРЕМ'ЄРА! Неймовірний серіал! РЕВАНШ. 13 серія

ПРЕМ'ЄРА! Неймовірний серіал! РЕВАНШ. 13 серія

😱 ТРАМП НЕ СТРИМАЄ ОБІЦЯНКУ! Неочікуване ПРОРОЦТВО | Валерій Шатилович @shatilovich_valery

😱 ТРАМП НЕ СТРИМАЄ ОБІЦЯНКУ! Неочікуване ПРОРОЦТВО | Валерій Шатилович @shatilovich_valery

Главная суперспособность армейских муравьев и пляжные упогебии

Главная суперспособность армейских муравьев и пляжные упогебии