Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.

Виталий Кулиев

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 18 гру 2024

КОМЕНТАРІ •

@alexgri1699 2 місяці тому ⁺²
Спасибо. Много инфы из первых рук. Сегодня это очень ценно. Буду дальше следить за реализациями проектов.
@IT_psychopath 5 місяців тому ⁺⁴
железный лайк! я как раз про это спрашивал. огромное спасибо!
@NSGromov 5 місяців тому ⁺⁴
Спасибо за полезный контент
@kuliev.vitaly 5 місяців тому ⁺²
Спасибо. Перезапустил - заработало
@toster8240 5 місяців тому ⁺²
Спасибо! Очень интересное видео, ждём продолжения!
@tomskaya-ql7vm Місяць тому ⁺¹
А подскажите, есть ли смысл собрать двухпроцессорную систему на зионах совсем без видеокарты, зато ОЗУ напихать от души, скажем 256 гб? Понимаю, что генерация токенов на цпу довольно медленная, но зато в 256гб озу влезут даже очень жирные модельки, а не только 3 Лама. Или там эту память запараллелить, типа 256 по планкам, в системе 64 гб, зато быстро. По моему еще не родили видеокарту на такое количество ОЗУ, а если и будет, то стоить будет как Боинг. Китайские матеря с зионами на кучу ядер неплохо себя показывают.
Не у всех есть бюджет на видеокарты, а подобная система может не только Llm запускать, но и банально работать с видео и данными. У меня есть два 3060, на маленьких модельках они хороши, но лама 3 уже нет. По меньшей мере без квантизации, а с квантизацией она гонит пургу.
@kuliev.vitaly Місяць тому
работать будет, но медленно. Все упрется в пропускную способность памяти. Рекомендую посмотреть в сторону платных сервисов по апи, если нет требований к конфиденциальности данных.
@antonchechenev7078 2 місяці тому ⁺²
Сумаризовал видео:
1. **Цель:** Построить домашний компьютер для запуска нейросетей, в частности, Lama 70b (7 млрд параметров).
2. **Требования к видеопамяти:** Lama 70b требует 38 ГБ видеопамяти, что означает необходимость двух видеокарт по 24 ГБ (например, RTX 3090, 3090 Ti, 4090).
3. **Тестирование конфигурации:** Рекомендуется протестировать выбранную конфигурацию в облачных сервисах (например, ers Cloud) с несколькими видеокартами для оценки производительности.
4. **Варианты аренды сервера в ers Cloud:**
- Почасовая аренда: удобна для быстрого тестирования конкретной конфигурации (например, две RTX 3090 для Lama 70b).
- Ежемесячная аренда: выгоднее при длительном использовании. Стоимость примерной аренды сервера с двумя RTX 3090 составляет около 64 000 рублей в месяц.
5. **Дополнительные расходы:**
- Аренда диска (например, 160 ГБ): около 320 рублей в месяц.
6. **Корпус для видеокарт:** Из-за габаритов RTX 3090/4090 не подходит стандартный системный блок. Рекомендуется использовать каркас для майнеров с райзерами PCI Express 4.0 (рекомендуемая длина - 20 см).
7. **Подключение видеокарт к материнской плате:**
- Используйте райзеры x16 для максимальной пропускной способности.
- Убедитесь, что версия PCI Express на райзере и материнской плате поддерживает вашу видеокарту (в данном случае - 4.0).
8. **Процессор:** Не играет ключевой роли в работе нейросетей, так как вычисления выполняются на видеокартах. Достаточно процессора с минимальным количеством ядер (1-2) для управления сервером и передачей данных.
9. **Оперативная память:** 128 ГБ не требуется для Lama 70b, можно использовать меньшее количество. Скорость оперативной памяти не сильно влияет на производительность.
10. **Диск:** SSD диск предпочтительнее для быстрой загрузки весов нейросети (первый запуск может занимать 10-20 секунд). HDD также возможен, но первый запуск будет медленнее.
11. **Блок питания:** Мощный блок питания (например, Sonic на 1300 Вт) необходим для трех видеокарт RTX 3090 Ti с заниженными Power лимитами (300 Вт).
@tkavelli 5 місяців тому ⁺³
Благодарю, действительно интересный, пожалуй и уникальный контент =) - вопрос - сказано "у меня 2 карты" - а на видео 3, потому что используется менее урезанная версия 70 б модели которая занимает больше врам? если уже есть 4090, 3090 хватит для того чтобы с дополненным объемом запускать всё и проблем от разницы поколений не будет?
@kuliev.vitaly 5 місяців тому
Планировал на 3х запускать, но столкнулся с багом и запускаю на двух. На третьей карте ллама 8б пока работает.
@kuliev.vitaly 5 місяців тому ⁺¹
Карты разных поколений одновременно не запускал. Скорость будет ограничена слабой картой и по стоимости такая сборка проигрывает одинаковым картам.
@PurpleGmod 5 місяців тому
А можно ли использовать оперативную память компьютера, а не видеокарты? Понятно что медленнее будет, но сама возможность есть? Карта 3090, ОЗУ 128Гб.
@tkavelli 5 місяців тому
@@PurpleGmod по идее да но там ужасная скорость. Может я что то не так настроил но у меня 70б модель отвечала просто думая минутами.
@kuliev.vitaly 5 місяців тому ⁺¹
Можно. Будет медленне примерно в 10 раз, чем на видеокарте
@waxboy6331 5 місяців тому ⁺²
Отличное видео. Большое спасибо. Подскажите пожалуйста , почему нельзя использовать оперативную память ПК?
@kuliev.vitaly 5 місяців тому
Можно, но у нее на порядок меньшая пропускная способность. Например, LMstudio может часть модели в оперативке считать. Для хорошей производительности вся модель должна помещаться в видеопамяти.
@dolotube 2 місяці тому ⁺¹
Как измеряется "хорошая производительность"? Это "максимум из доступного" или "достаточно для решения наличных задач"?
И чем аргументирован ответ "на порядок"? В зависимости от архитектуры модели, типа задач и узких мест в железе разница может составлять от 2-3 раз до 20-30. Очень не всегда на порядок, зачастую это "в несколько раз" и иногда "не существенно". Ведь в данном ролике речь про инференс, а не про обучение. При этом цена железа со стеком из дорогих видеокарт легко улетает вверх на несколько порядков при сравнении с бытовой связкой девятого Райзена и формальной 3060.
Да, если для предприятия, то можно расщедриться на топовые решения, там окупится экономия человеко-часов, и важно спокойствие пользователей. Но если для себя лично, чтобы попробовать и прикинуть свои желания, то лучше идти именно на вариант с обычной оперативкой, а не вкладывать тысячи долларов в обогрев квартиры видюшками.
@ПавелПопов-э6г 3 місяці тому ⁺¹
Здравствуйте! Отличное видео, спасибо за полезную информацию. У меня есть вопрос: возможно ли дообучить модель LLaMA 3.1 8B на GPU NVIDIA 3090 с 32 ГБ ОЗУ без применения квантизации, но с использованием LoRA ? И если я приобрету вторую 3090 и увеличу объем ОЗУ до 64 ГБ, смогу ли я провести полное обучение модели без квантизации и LoRA? Буду признателен за ответ. Спасибо!
@kuliev.vitaly 3 місяці тому
Скорее всего не получится. В fp16 на 3090 помещается впритык для инференса. Насчет двух видеокарт не знаю - нужно пробовать.
Можешь снять на несколько часов карту с нужным объемом памяти и на ней натренировать.
@sebariart 5 місяців тому ⁺²
09:27
Пробовали видеокарты андервольтить?
@sebariart 5 місяців тому ⁺¹
Спасибо за полезный контент
@kuliev.vitaly 5 місяців тому
Пока нет.
@The2427666 17 днів тому
Как можно использовать смр 50 в качестве ускормтелей нейросети?
@kuliev.vitaly 16 днів тому
можно
@rybiizhir 3 місяці тому
Круто, какой программой пользуешься для вывода глаз? Где-то слышал что есть софт который маскирует движение зрачков.
@kuliev.vitaly 3 місяці тому ⁺¹
Никакой) при съемке в камеру смотрю, потом монтаж идет.
@Werviop 3 місяці тому
Здравствуйте Виталий, подскажите пожалуйста какую материнскую карту c процессором вы используете ?
@kuliev.vitaly 3 місяці тому ⁺¹
Следующее видео будет на эту тему. Перешел на EPYC платформу.
@dolotube 2 місяці тому
@@kuliev.vitaly После этого видео на данном канале вышло уже несколько новых, но они не похожи на рассказ про EPYC. Он еще в планах?
@kuliev.vitaly 2 місяці тому
Сегодня вечером публикация
@kuliev.vitaly 2 місяці тому ⁺¹
ua-cam.com/video/IEku7Dm9VEk/v-deo.html
@дикий-ь2с 4 місяці тому ⁺¹
Здравствуйте, что лучше взять одну 4090 или две 3070 ti super для разворачивания LLM и обучения?
@kuliev.vitaly 4 місяці тому
3070ti всего 8гб памяти имеет. Рекомендую выбирать из 3090, 3090ти, 4090. У них 24гб памяти
@дикий-ь2с 4 місяці тому
@@kuliev.vitaly извините, 4070 ti super или 4090. 2 двух 4070 ti super будет 32 Гб ОЗУ.
@kuliev.vitaly 4 місяці тому
За эти деньги лучше взять две 3090/3090ti. У них будет 48гб памяти
@дикий-ь2с 4 місяці тому
@@kuliev.vitaly спасибо!
@ElenaElena-st1mg 5 місяців тому ⁺¹
подскажите, пожалуйста, какой ноутбук asus лучше купить для нейросетей создания?
@kuliev.vitaly 5 місяців тому ⁺²
любой на rtx 4090
@nikolaydd6219 5 місяців тому
@@kuliev.vitaly или с 3090 но 4090 мощней её почти в 2 раза
@kuliev.vitaly 5 місяців тому
3090 нет мобильной версии. 3080ti только, но в ней памяти меньше.
@Alexandr_Ogorodnik 4 місяці тому ⁺¹
Здравствуйте, видео через нейронку сделали ?
@kuliev.vitaly 4 місяці тому
нет
@Alexandr_Ogorodnik 4 місяці тому
@@kuliev.vitaly такое ощущение , что хайген, видимо показалось
@ГаэльРин 5 місяців тому ⁺¹
Подойдут ли старые карты tesla p40?
@kuliev.vitaly 5 місяців тому ⁺¹
Да подходят. Только у них compute capability уже старое, поэтому возможно не весь софт будет поддерживаться ими. P40 В сравнении с 3090 ti выглядит хуже - памяти столько же, но в 2 раза меньше пропускная способность, чип раза в 2 слабже, устаревшая архитектура. При этом она дешевле.
@Nikita-g1d 5 місяців тому
Правильно ли я понимаю, что если внешние видеокарты подключать даже через современные Thunderbolt 4 или TGX интерфейсы скорость будет значительно меньше чем таким способом как в этом видео? Или это не имеет значения т.к. все вычисления происходят на видеокартах, а на выходе только результат?
@kuliev.vitaly 5 місяців тому
Скорость будет ниже, но не сильно.
@Metalbender777 5 місяців тому
Здравствуйте Виталий, можно ли связать это видео с вашим прошлым видео о цифровом производстве?
@kuliev.vitaly 5 місяців тому
Добрый день. Можно, но очень косвенно
@Metalbender777 5 місяців тому
@@kuliev.vitaly Спасибо за ответ, меня очень интересует практическая сторона вопроса. Но в сфере LLM, я полный профан
@vitall789 3 місяці тому
Я правильно понимаю, что НЕ для обучения, а только для использования достаточно одну курта 3090 ?
@kuliev.vitaly 3 місяці тому
зависит от модели. 8б на одной запустится, 70б минимум две.
@vitall789 3 місяці тому
@@kuliev.vitaly GGUF Llama3.1 80B 8bit вроде 24GB VRAM пишет что должна встать!
@Япохожнакота 21 день тому ⁺¹
По цене 1 RTX4090 можно взять 4 RTX4060ti с 16 гб это будет 64 гб против 24. В топовых видюхах для нейронок нет смысла.
@kuliev.vitaly 19 днів тому
Оверхед на синхронизацию данных будет между 4 видеокартами. В десктопную материнку не воткнешь 4 видеокарты, нужно на серверную переходить и это дороже. Лучше 2 3090 взять.
@theNotLogo 4 місяці тому
ест вот такая относительно дешевая сборка но с внушительным количеством ядер ЦП, запуститься ли 70B?
Блок питания: ATX 800W Bronze 1st player DK Premium
Материнская плата: LGA2011v3x2 Huananzhi X99-F8D PLUS 8xDDR4 3xPCI
Процессор: LGA2011v3 Intel Xeon E5-2699v3 18/36 DDR4 3.8Hz 145W x2
Кулер процессорный: башенный 2011 (6 трубок) 4pin AVC6 x2
Оперативная память: DDR4 ECC 16GB 2133MHz x4
Накопитель: NVME 1TB Lexar NM620
Видеокарта: AMD RX6900XT 16GB GDDR6 Asus
@kuliev.vitaly 4 місяці тому
Можно запустить лламу 70б с квантизацией 4 бита на процессоре. Будет выдавать ориентировочно 2-3 токена в секунду. Все упрется в скорость оперативки. Я сейчас готовлю видео про свой сервер на epyc. Там будет сравнимая скорость
@vrabosh 5 місяців тому
А если собрать максимальную сборку для cpu+ram, то какая будет производительность?
@kuliev.vitaly 5 місяців тому
Зависит от скорости памяти и процессора. В лучшем случае 8-12 канальная память последнего поколения и топовый серверный процессор по скорости будут приближаться к 1-2 видеокартам.
@vrabosh 5 місяців тому
@@kuliev.vitaly больше интересно, то что за недороже 150к собрать можно. То что дороже, мне кажется через год будет в разы дешнвле такая мощность.
Например на 14900k + 128gb 6000mhz, какие скорости будут?
@kuliev.vitaly 5 місяців тому ⁺¹
1-2 токена в секунду будет на лламе 70б. Чуть меньше я получаю на 3950x 128гб, который в видео показан. Для сравнения на двух 3090ti выдает выше 20токенов в секунду и поддерживает несколько запросов одновремменно.
@vrabosh 5 місяців тому
@@kuliev.vitaly 1 токен - это одно слово? Если так, то это норм.
@kuliev.vitaly 5 місяців тому ⁺¹
чуть меньше. несколько букв. загугли например openai токенезатор
@timurotube 2 місяці тому ⁺¹
Спасибо за видео 👍👌

Наступне

Автоматичне відтворення

Топ советов по выбору видеокарты для машинного обучения и инференса нейросетей(LLM)?