Большой тест видеокарт для инференса Llama 3 70b 8b. RTX 4090 3090 A100 H100...

Виталий Кулиев

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 18 гру 2024

КОМЕНТАРІ • 65

@РамильАхмедов-м6ъ 3 місяці тому ⁺²
Просто 10/10. Продолжайте, Виталий. Такой контент нам нужен
@VLfrog 4 місяці тому ⁺²
Дружище, продолжайте!
@Azantys-w6h 5 місяців тому ⁺³
Классный тест получился. Скоро магистерская по ИИ и на ваш канал я пожалуй подпишусь). Удачи в развитии проекта.
@sebariart 6 місяців тому ⁺³
С Обновками)
@kuliev.vitaly 6 місяців тому
Спасибо)
@stanislavk5609 6 місяців тому ⁺²
Отличная работа!
@ПавелМинич 6 місяців тому ⁺¹
Огромное спасибо за огромный труд! Можно еще добавить к тестам мониторинг загрузки процов по потокам, для разных архитектур, а также загрузка оперативки в зависимости от количества запросов. Интересно оптимальное сочетание проц-гпу-оператива для разных задач.
@kuliev.vitaly 6 місяців тому
Процессор и оперативка минимально используются. Все вычисления идут на видеокарте и данные между картами по pcie передаются.
@СашаБло-и6о 6 днів тому
@@kuliev.vitaly смотря при какой конфигурации. люди, которые запускают нейронки в быту, как например я, могут сталкиваться с разными вещами)
я запускаю дома на ollama L3.3-MS-Evayale-70B-GGUF:Q4_K_M просто для генерации текста. Конфиг компа: rtx 4060 8gb ,12th Gen i5-12400F оперативка ddr4 80,0 ГБ. Запрос через Open Web Ui. Работаю с текстом 25000 знаков. Текст загружается, я так понимаю сначала до отказа в GPU, потом занимает около 40 гигов оперативки и скачет 82-90% процессор. Ну что-то там включено еще типа броузера с условными 10-ю окнами и по мелочам.
Что я хочу сказать - большинство людей именно так и используют нейронки и обзор вот этих бытовых кофигураций вызвал бы определенный интерес в массах, учитывая бытовую сборку и самый низкий порог вхождения.
@ПетяПетрович-з5м 6 місяців тому ⁺²
Спасибо
@loyscan 10 днів тому ⁺¹
Виталий, добрый день! Вы можете сделать похожий тест с моделями для кодинга, такими как например deepseek coder v2 lite или codestral ?
@kuliev.vitaly 8 днів тому
Тесты скорости сильно зависят от размера модели. Посмотрите тесты нейронок схожего размера. Возможно, в следующих видео протестирую другие нейронки.
@IT_psychopath 6 місяців тому ⁺²
Вииталий, а можно еще видос по сборке вашего варианта ПК. что как подбирали, как собрали все в кучу и остальное. мне не сложно собрать свой ПК, сто раз собирал. НО! пока соберешь то что надо до кучи в плане разгребешься что брать а что нет,ю что подойдет а что нет.. было бы шикарно такое видео как по мне. я сам разраб, FullStack, Python хорошо знаю пишу на нем очень давно и темой ИИ периодический интересуюсь как хобби.😁 у вас превосходные видео!
большое спасибо за ваши труды!
@kuliev.vitaly 6 місяців тому ⁺¹
Да планирую записать видео о сборке сервера.
@МичилЕгоров-п3ц 4 місяці тому ⁺¹
А какой инструмент для сервинга llm вы использовали для тестов? vllm?
@kuliev.vitaly 4 місяці тому
да
@astroiLL2010 6 місяців тому ⁺¹
Спасибо за обзор и тесты. Теперь понятно как выбирать. Буду изучать таблицы, считать что выгоднее.
Пока юзаю RTX3060-12Gb (купленную на Авито у дизайнера) на XEON 22 ядра, 190Гб оперативки.
Думал в какую сторону расширяться. Купить игровую видюху мощнее, профкарту или проще арендовать?
Аренда создаёт гибкость в работе, если работаешь из разных мест и нет заморочек с оборудованием.
Если используешь самосборный сервер, то кроме траты на покупку оборудования, надо делать VPN в свою сеть, да и трата электроэнергии, нагрев, деградация оборудования. И устаревание.
Ну все как было когда-то с майнингом. ASICS или аренда мощностей?
Всё-таки думаю, что когда эта видюха перестанет справляться с моими задачами (а похоже к этому идёт), перейду на аренду.
Спасибо за обзор.
@kuliev.vitaly 6 місяців тому
Я решил, что лучше иметь свое железо и всегда иметь к нему доступ. Можешь попробовать использовать мое апи к ллама 70б. Пока нагрузка маленькая предоставляю всем его бесплатно.
rus-gpt.com/
@astroiLL2010 6 місяців тому
@@kuliev.vitaly Пока использую ollama run llama3:8b и оболочку WEB-UI с удаленным доступом к компу через VPN. Ну и другие модели, что помещаются в видяху. Попробую твой доступ, спасибо.
@СашаБло-и6о 6 днів тому
@@astroiLL2010 не подскажите, каким путем пошли в плане ПО по удаленному доступу?
@astroiLL2010 6 днів тому
@@СашаБло-и6оЯ линуксоид, поэтому поднял сервер ВПН, при подключении издалека к своему серверу попадаю в свою сеть. Дальше браузером подключаюсь к web-ui и прочим сервисам. Например сейчас я ещё запустил ComfyUI c Flux и Stable Diffusion.
Правда сейчас возникают некоторые проблемы с ВПН. Ищу лучший, чтобы *композор не мешал.
@FotonPC 6 місяців тому ⁺²
Возможны ли тесты 2080ti с модификацией на 22гб? Также, пожалуй при выборе 3090\3090ti надо учитывать надежность карт (память с обратной стороны у 3090)
@kuliev.vitaly 6 місяців тому ⁺³
У меня нет 2080ti с такой модификацией. Да есть такая проблема у 3090. Еще они начали продаваться на пару лет раньше, чем 3090ti и застали эпоху майнинга. 3090ti сейчас более перспективны - лучше немного доплатить и ее взять.
@loyscan 10 днів тому ⁺¹
А ключики для тестов больше не раздаёте?)
@kuliev.vitaly 8 днів тому
Проект оказался маловостребован. Попробуйте fireworks - они дают тестовый доступ
@loyscan 8 днів тому
@@kuliev.vitaly спасибо, попробую!
@IT_psychopath 6 місяців тому ⁺¹
Виталий, а что с сервисом? будут ламы в народ? мне по тестить надо ламу3 для бота.. арпи надо.. ищу. как скоро свое запустите?
@kuliev.vitaly 6 місяців тому ⁺²
rus-gpt.com/
Сервис запущен в тестовом режиме. Есть 70b и 8b версии лламы-3. Пока можно использовать бесплатно. Планирую более детальное видео записать.
@mux8717 6 місяців тому ⁺¹
Подскажите, а каким образом память видеокарт на Вашем сервере суммируется?
Используется мостик NVLink ?
@kuliev.vitaly 6 місяців тому ⁺⁶
nvlink не используется. В задаче инференса он мало полезен. Все данные передаются по pcie x8 gen4. Нейросеть запускается в режиме tensor parallel. Видео с деталями сборки сервера будет одно из ближайших.
@adammartin7477 6 місяців тому ⁺¹
Коллеги, у меня простой вопрос.
Для учебы и работы,
нужна платформа уровня обработки взаимодействия с `codestral 22b`, со скоростью - не менее 100 токенов в секунду.
Комбинация "железа":
* две rtx-2080ti через nvlink,
* intel 13700kf
Какую материнку выбрать?
* как пример ASUS PRIME Z790-P D4
взлетит комбинация?
@kuliev.vitaly 6 місяців тому
Должно заработать. Nvlink в задаче инференса мало влияет на производительность. Можно по PCI e подключить
@kuliev.vitaly 6 місяців тому ⁺¹
Если важна скорость могу рекомендовать карту 3090/4090. Она быстрее должна работать.
@aleksandrephatsatsia4530 4 місяці тому ⁺¹
could you please explain what worker is? can you have multiple worker on single gpu?
@kuliev.vitaly 4 місяці тому ⁺¹
That is client worker. It makes parallel requests to llm service. Llm service can process multiple requests simultaneously.
@aleksandrephatsatsia4530 4 місяці тому
@@kuliev.vitaly so it means if i have single rtx 4090 i can run 60 workers in parallel and get those results?
@kuliev.vitaly 4 місяці тому ⁺¹
Yes you can run 8b model on 4090 and make multiple requests to it.
@aleksandrephatsatsia4530 4 місяці тому
Thanks vitaly, it improves the performance so much! could you please suggest some open source libraries that do it easily?
@kuliev.vitaly 4 місяці тому ⁺¹
I use 'vllm' in docker.
@Nikita-g1d 6 місяців тому
Виталий, что ты думаешь про использование внешних видеокарт через порт oculink (как здесь ua-cam.com/video/lkMdvoY-xWo/v-deo.html) или usb4, в идеале хотелось бы тест нейронок с внешними видеокартами?
@kuliev.vitaly 6 місяців тому
Схема рабочая и подходит для подключения к ноутбуку мощной карты. Сам я ее не тестировал, так как использую полноценный системник для инференса.
@Nikita-g1d 6 місяців тому
@@kuliev.vitalyинтересно не получится ли, что в некоторых случаях обучения или даже применения нейронок будет невозможно задействовать внешнюю карту и всё будет запускаться на встроенной?
@kuliev.vitaly 6 місяців тому ⁺¹
можно выбирать нужную карту в задачах обучения и инференса.
@StaLenin 5 місяців тому ⁺¹
Я вот не пойму, можно ли для Llama 3 70b 8b будет использовать 4060 или 4070? Бюджет ограничен, а хотелось бы попробовать что это такое, Есть вариант купить 4060Ти 16 гб за 37000 и 4070 12гб за 44000, какая лучше будет, или никакая не пойдет?
@kuliev.vitaly 5 місяців тому ⁺¹
Можешь попробовать по апи на моем сайте rus-gpt.com/
Также есть открытые чаты для доступа к ламе.
@StaLenin 5 місяців тому
@@kuliev.vitaly Спасибо, но какую видеокарту можно взять до 50 тыс?
@kuliev.vitaly 5 місяців тому
Бери у которой памяти больше - это приоритет для запуска нейросетей. Лучше всего, если сможешь 3090 бу найти в этом бюджете. Если нет, то бери 4060ти на 16гб
@KorneevZakhar 5 місяців тому
А у меня вопрос появился, все почему-то используют nvidia для запуска нейросеток, а на amd вообще не запустится или будет сильно хуже работать? Просто карточки с аналогичным объёмом памяти стоят в 2 раза дешевле вот и решил поинтересоваться)
@kuliev.vitaly 5 місяців тому ⁺¹
Карты амд не имеют тензорных ядер. Практически вся тренировка идет на видеокартах нвидиа. Практически весь софт ориентируется на поддержку технологии cuda от nvidia. В последнее время поддержка амд карт улучшается и ряд задач можно делать на амд картах.
@KorneevZakhar 5 місяців тому
@@kuliev.vitaly Спасибо, за ответ! Тогда посижу пока на своей 3080) Мне для запуска локально codegemma:7b хватает, а там посмотрим ,как пойдёт)
@vitall789 3 місяці тому
@@KorneevZakhar Ждем конкуренции на видео потому что цены космические, да и ламу бы подтянуть, а то как-то слабенькая в сравнении с основными конкурентами даже 405B
@qefyr 2 місяці тому
Серьезные задачи на картах АМуДе никто не будет в здравом уме запускать.
@MikeMike-zf9up 6 місяців тому
Вы уверены, что у обоих карт pci x8? На чипсетах для амд под am4 я только asus pro art видел, чтобы второй слот выдавал тоже х8.
@kuliev.vitaly 6 місяців тому ⁺⁴
Да. Две карты x8 подключены, третья по x4. Это можно посмотреть в свойствах карты. Платформа ам4, чипсет x570.
@MikeMike-zf9up 6 місяців тому
@@kuliev.vitaly здорово! Спасибо за ответ!
@crypto.hirurg 5 місяців тому
Как с вами связаться?
@kuliev.vitaly 5 місяців тому
t.me/kulievvitaly
@Rassvet5 6 місяців тому ⁺¹
Модели llama3 плохо дружат с русским языком, даже если в системном промте прописать мол пиши всегда на русском, все равно проскакивают английские слова там где это не уместно, что с этим делать? Модели на хагинфейсе дообученные на русских датасетах работают очень криво
@kuliev.vitaly 6 місяців тому
Встречал проблемы с русским при использование квантизации. 70b awq, которая тестируется в этом видео работает корректно с русским.
@АзатИмаев-ь4п 6 місяців тому
Я сам использовал Saiga в huggyface видел, но мало ее использовал
@kuliev.vitaly 6 місяців тому ⁺¹
зафайнтюненные версии ламы на другой язык или длинный контекст могут показывать плохие результаты. оригинальная версия с системным промптом должна хорошо отрабатывать
@astroiLL2010 6 місяців тому ⁺¹
Что приводит к мысли (меня во всяком случае убедило окончательно), что надо применять английский.
Пока не появятся нормальные прокси-транслейт для того, чтобы писать на родном языке, прокси-транслейт переводил (адекватно) на английский, подавал в модель и ответ пройдя через прокси выдавал обратно на родном языке. Чтобы переводом занималась не каждая модель как она худо-бедно может, а специальная, которая идеально под это заточена. Технически это реализовать вроде уже не сложно. А пока дуолингво нам всем в помощь.
@karatemoscow 5 місяців тому
сколько вы потратили денег на тестирование?
@kuliev.vitaly 5 місяців тому
Примерно 3000 рублей. Почасовая аренда всех этих серверов.

Наступне

Автоматичне відтворення

Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.