Большой тест видеокарт для инференса Llama 3 70b 8b. RTX 4090 3090 A100 H100...

Поділитися
Вставка
  • Опубліковано 18 гру 2024

КОМЕНТАРІ • 65

  • @РамильАхмедов-м6ъ
    @РамильАхмедов-м6ъ 3 місяці тому +2

    Просто 10/10. Продолжайте, Виталий. Такой контент нам нужен

  • @VLfrog
    @VLfrog 4 місяці тому +2

    Дружище, продолжайте!

  • @Azantys-w6h
    @Azantys-w6h 5 місяців тому +3

    Классный тест получился. Скоро магистерская по ИИ и на ваш канал я пожалуй подпишусь). Удачи в развитии проекта.

  • @sebariart
    @sebariart 6 місяців тому +3

    С Обновками)

  • @stanislavk5609
    @stanislavk5609 6 місяців тому +2

    Отличная работа!

  • @ПавелМинич
    @ПавелМинич 6 місяців тому +1

    Огромное спасибо за огромный труд! Можно еще добавить к тестам мониторинг загрузки процов по потокам, для разных архитектур, а также загрузка оперативки в зависимости от количества запросов. Интересно оптимальное сочетание проц-гпу-оператива для разных задач.

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому

      Процессор и оперативка минимально используются. Все вычисления идут на видеокарте и данные между картами по pcie передаются.

    • @СашаБло-и6о
      @СашаБло-и6о 6 днів тому

      @@kuliev.vitaly смотря при какой конфигурации. люди, которые запускают нейронки в быту, как например я, могут сталкиваться с разными вещами)
      я запускаю дома на ollama L3.3-MS-Evayale-70B-GGUF:Q4_K_M просто для генерации текста. Конфиг компа: rtx 4060 8gb ,12th Gen i5-12400F оперативка ddr4 80,0 ГБ. Запрос через Open Web Ui. Работаю с текстом 25000 знаков. Текст загружается, я так понимаю сначала до отказа в GPU, потом занимает около 40 гигов оперативки и скачет 82-90% процессор. Ну что-то там включено еще типа броузера с условными 10-ю окнами и по мелочам.
      Что я хочу сказать - большинство людей именно так и используют нейронки и обзор вот этих бытовых кофигураций вызвал бы определенный интерес в массах, учитывая бытовую сборку и самый низкий порог вхождения.

  • @ПетяПетрович-з5м
    @ПетяПетрович-з5м 6 місяців тому +2

    Спасибо

  • @loyscan
    @loyscan 10 днів тому +1

    Виталий, добрый день! Вы можете сделать похожий тест с моделями для кодинга, такими как например deepseek coder v2 lite или codestral ?

    • @kuliev.vitaly
      @kuliev.vitaly  8 днів тому

      Тесты скорости сильно зависят от размера модели. Посмотрите тесты нейронок схожего размера. Возможно, в следующих видео протестирую другие нейронки.

  • @IT_psychopath
    @IT_psychopath 6 місяців тому +2

    Вииталий, а можно еще видос по сборке вашего варианта ПК. что как подбирали, как собрали все в кучу и остальное. мне не сложно собрать свой ПК, сто раз собирал. НО! пока соберешь то что надо до кучи в плане разгребешься что брать а что нет,ю что подойдет а что нет.. было бы шикарно такое видео как по мне. я сам разраб, FullStack, Python хорошо знаю пишу на нем очень давно и темой ИИ периодический интересуюсь как хобби.😁 у вас превосходные видео!
    большое спасибо за ваши труды!

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому +1

      Да планирую записать видео о сборке сервера.

  • @МичилЕгоров-п3ц
    @МичилЕгоров-п3ц 4 місяці тому +1

    А какой инструмент для сервинга llm вы использовали для тестов? vllm?

  • @astroiLL2010
    @astroiLL2010 6 місяців тому +1

    Спасибо за обзор и тесты. Теперь понятно как выбирать. Буду изучать таблицы, считать что выгоднее.
    Пока юзаю RTX3060-12Gb (купленную на Авито у дизайнера) на XEON 22 ядра, 190Гб оперативки.
    Думал в какую сторону расширяться. Купить игровую видюху мощнее, профкарту или проще арендовать?
    Аренда создаёт гибкость в работе, если работаешь из разных мест и нет заморочек с оборудованием.
    Если используешь самосборный сервер, то кроме траты на покупку оборудования, надо делать VPN в свою сеть, да и трата электроэнергии, нагрев, деградация оборудования. И устаревание.
    Ну все как было когда-то с майнингом. ASICS или аренда мощностей?
    Всё-таки думаю, что когда эта видюха перестанет справляться с моими задачами (а похоже к этому идёт), перейду на аренду.
    Спасибо за обзор.

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому

      Я решил, что лучше иметь свое железо и всегда иметь к нему доступ. Можешь попробовать использовать мое апи к ллама 70б. Пока нагрузка маленькая предоставляю всем его бесплатно.
      rus-gpt.com/

    • @astroiLL2010
      @astroiLL2010 6 місяців тому

      @@kuliev.vitaly Пока использую ollama run llama3:8b и оболочку WEB-UI с удаленным доступом к компу через VPN. Ну и другие модели, что помещаются в видяху. Попробую твой доступ, спасибо.

    • @СашаБло-и6о
      @СашаБло-и6о 6 днів тому

      @@astroiLL2010 не подскажите, каким путем пошли в плане ПО по удаленному доступу?

    • @astroiLL2010
      @astroiLL2010 6 днів тому

      ​@@СашаБло-и6оЯ линуксоид, поэтому поднял сервер ВПН, при подключении издалека к своему серверу попадаю в свою сеть. Дальше браузером подключаюсь к web-ui и прочим сервисам. Например сейчас я ещё запустил ComfyUI c Flux и Stable Diffusion.
      Правда сейчас возникают некоторые проблемы с ВПН. Ищу лучший, чтобы *композор не мешал.

  • @FotonPC
    @FotonPC 6 місяців тому +2

    Возможны ли тесты 2080ti с модификацией на 22гб? Также, пожалуй при выборе 3090\3090ti надо учитывать надежность карт (память с обратной стороны у 3090)

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому +3

      У меня нет 2080ti с такой модификацией. Да есть такая проблема у 3090. Еще они начали продаваться на пару лет раньше, чем 3090ti и застали эпоху майнинга. 3090ti сейчас более перспективны - лучше немного доплатить и ее взять.

  • @loyscan
    @loyscan 10 днів тому +1

    А ключики для тестов больше не раздаёте?)

    • @kuliev.vitaly
      @kuliev.vitaly  8 днів тому

      Проект оказался маловостребован. Попробуйте fireworks - они дают тестовый доступ

    • @loyscan
      @loyscan 8 днів тому

      @@kuliev.vitaly спасибо, попробую!

  • @IT_psychopath
    @IT_psychopath 6 місяців тому +1

    Виталий, а что с сервисом? будут ламы в народ? мне по тестить надо ламу3 для бота.. арпи надо.. ищу. как скоро свое запустите?

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому +2

      rus-gpt.com/
      Сервис запущен в тестовом режиме. Есть 70b и 8b версии лламы-3. Пока можно использовать бесплатно. Планирую более детальное видео записать.

  • @mux8717
    @mux8717 6 місяців тому +1

    Подскажите, а каким образом память видеокарт на Вашем сервере суммируется?
    Используется мостик NVLink ?

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому +6

      nvlink не используется. В задаче инференса он мало полезен. Все данные передаются по pcie x8 gen4. Нейросеть запускается в режиме tensor parallel. Видео с деталями сборки сервера будет одно из ближайших.

  • @adammartin7477
    @adammartin7477 6 місяців тому +1

    Коллеги, у меня простой вопрос.
    Для учебы и работы,
    нужна платформа уровня обработки взаимодействия с `codestral 22b`, со скоростью - не менее 100 токенов в секунду.
    Комбинация "железа":
    * две rtx-2080ti через nvlink,
    * intel 13700kf
    Какую материнку выбрать?
    * как пример ASUS PRIME Z790-P D4
    взлетит комбинация?

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому

      Должно заработать. Nvlink в задаче инференса мало влияет на производительность. Можно по PCI e подключить

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому +1

      Если важна скорость могу рекомендовать карту 3090/4090. Она быстрее должна работать.

  • @aleksandrephatsatsia4530
    @aleksandrephatsatsia4530 4 місяці тому +1

    could you please explain what worker is? can you have multiple worker on single gpu?

    • @kuliev.vitaly
      @kuliev.vitaly  4 місяці тому +1

      That is client worker. It makes parallel requests to llm service. Llm service can process multiple requests simultaneously.

    • @aleksandrephatsatsia4530
      @aleksandrephatsatsia4530 4 місяці тому

      @@kuliev.vitaly so it means if i have single rtx 4090 i can run 60 workers in parallel and get those results?

    • @kuliev.vitaly
      @kuliev.vitaly  4 місяці тому +1

      Yes you can run 8b model on 4090 and make multiple requests to it.

    • @aleksandrephatsatsia4530
      @aleksandrephatsatsia4530 4 місяці тому

      Thanks vitaly, it improves the performance so much! could you please suggest some open source libraries that do it easily?

    • @kuliev.vitaly
      @kuliev.vitaly  4 місяці тому +1

      I use 'vllm' in docker.

  • @Nikita-g1d
    @Nikita-g1d 6 місяців тому

    Виталий, что ты думаешь про использование внешних видеокарт через порт oculink (как здесь ua-cam.com/video/lkMdvoY-xWo/v-deo.html) или usb4, в идеале хотелось бы тест нейронок с внешними видеокартами?

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому

      Схема рабочая и подходит для подключения к ноутбуку мощной карты. Сам я ее не тестировал, так как использую полноценный системник для инференса.

    • @Nikita-g1d
      @Nikita-g1d 6 місяців тому

      @@kuliev.vitalyинтересно не получится ли, что в некоторых случаях обучения или даже применения нейронок будет невозможно задействовать внешнюю карту и всё будет запускаться на встроенной?

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому +1

      можно выбирать нужную карту в задачах обучения и инференса.

  • @StaLenin
    @StaLenin 5 місяців тому +1

    Я вот не пойму, можно ли для Llama 3 70b 8b будет использовать 4060 или 4070? Бюджет ограничен, а хотелось бы попробовать что это такое, Есть вариант купить 4060Ти 16 гб за 37000 и 4070 12гб за 44000, какая лучше будет, или никакая не пойдет?

    • @kuliev.vitaly
      @kuliev.vitaly  5 місяців тому +1

      Можешь попробовать по апи на моем сайте rus-gpt.com/
      Также есть открытые чаты для доступа к ламе.

    • @StaLenin
      @StaLenin 5 місяців тому

      @@kuliev.vitaly Спасибо, но какую видеокарту можно взять до 50 тыс?

    • @kuliev.vitaly
      @kuliev.vitaly  5 місяців тому

      Бери у которой памяти больше - это приоритет для запуска нейросетей. Лучше всего, если сможешь 3090 бу найти в этом бюджете. Если нет, то бери 4060ти на 16гб

  • @KorneevZakhar
    @KorneevZakhar 5 місяців тому

    А у меня вопрос появился, все почему-то используют nvidia для запуска нейросеток, а на amd вообще не запустится или будет сильно хуже работать? Просто карточки с аналогичным объёмом памяти стоят в 2 раза дешевле вот и решил поинтересоваться)

    • @kuliev.vitaly
      @kuliev.vitaly  5 місяців тому +1

      Карты амд не имеют тензорных ядер. Практически вся тренировка идет на видеокартах нвидиа. Практически весь софт ориентируется на поддержку технологии cuda от nvidia. В последнее время поддержка амд карт улучшается и ряд задач можно делать на амд картах.

    • @KorneevZakhar
      @KorneevZakhar 5 місяців тому

      @@kuliev.vitaly Спасибо, за ответ! Тогда посижу пока на своей 3080) Мне для запуска локально codegemma:7b хватает, а там посмотрим ,как пойдёт)

    • @vitall789
      @vitall789 3 місяці тому

      @@KorneevZakhar Ждем конкуренции на видео потому что цены космические, да и ламу бы подтянуть, а то как-то слабенькая в сравнении с основными конкурентами даже 405B

    • @qefyr
      @qefyr 2 місяці тому

      Серьезные задачи на картах АМуДе никто не будет в здравом уме запускать.

  • @MikeMike-zf9up
    @MikeMike-zf9up 6 місяців тому

    Вы уверены, что у обоих карт pci x8? На чипсетах для амд под am4 я только asus pro art видел, чтобы второй слот выдавал тоже х8.

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому +4

      Да. Две карты x8 подключены, третья по x4. Это можно посмотреть в свойствах карты. Платформа ам4, чипсет x570.

    • @MikeMike-zf9up
      @MikeMike-zf9up 6 місяців тому

      ​@@kuliev.vitaly здорово! Спасибо за ответ!

  • @crypto.hirurg
    @crypto.hirurg 5 місяців тому

    Как с вами связаться?

  • @Rassvet5
    @Rassvet5 6 місяців тому +1

    Модели llama3 плохо дружат с русским языком, даже если в системном промте прописать мол пиши всегда на русском, все равно проскакивают английские слова там где это не уместно, что с этим делать? Модели на хагинфейсе дообученные на русских датасетах работают очень криво

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому

      Встречал проблемы с русским при использование квантизации. 70b awq, которая тестируется в этом видео работает корректно с русским.

    • @АзатИмаев-ь4п
      @АзатИмаев-ь4п 6 місяців тому

      Я сам использовал Saiga в huggyface видел, но мало ее использовал

    • @kuliev.vitaly
      @kuliev.vitaly  6 місяців тому +1

      зафайнтюненные версии ламы на другой язык или длинный контекст могут показывать плохие результаты. оригинальная версия с системным промптом должна хорошо отрабатывать

    • @astroiLL2010
      @astroiLL2010 6 місяців тому +1

      Что приводит к мысли (меня во всяком случае убедило окончательно), что надо применять английский.
      Пока не появятся нормальные прокси-транслейт для того, чтобы писать на родном языке, прокси-транслейт переводил (адекватно) на английский, подавал в модель и ответ пройдя через прокси выдавал обратно на родном языке. Чтобы переводом занималась не каждая модель как она худо-бедно может, а специальная, которая идеально под это заточена. Технически это реализовать вроде уже не сложно. А пока дуолингво нам всем в помощь.

  • @karatemoscow
    @karatemoscow 5 місяців тому

    сколько вы потратили денег на тестирование?

    • @kuliev.vitaly
      @kuliev.vitaly  5 місяців тому

      Примерно 3000 рублей. Почасовая аренда всех этих серверов.