Огромное спасибо за огромный труд! Можно еще добавить к тестам мониторинг загрузки процов по потокам, для разных архитектур, а также загрузка оперативки в зависимости от количества запросов. Интересно оптимальное сочетание проц-гпу-оператива для разных задач.
@@kuliev.vitaly смотря при какой конфигурации. люди, которые запускают нейронки в быту, как например я, могут сталкиваться с разными вещами) я запускаю дома на ollama L3.3-MS-Evayale-70B-GGUF:Q4_K_M просто для генерации текста. Конфиг компа: rtx 4060 8gb ,12th Gen i5-12400F оперативка ddr4 80,0 ГБ. Запрос через Open Web Ui. Работаю с текстом 25000 знаков. Текст загружается, я так понимаю сначала до отказа в GPU, потом занимает около 40 гигов оперативки и скачет 82-90% процессор. Ну что-то там включено еще типа броузера с условными 10-ю окнами и по мелочам. Что я хочу сказать - большинство людей именно так и используют нейронки и обзор вот этих бытовых кофигураций вызвал бы определенный интерес в массах, учитывая бытовую сборку и самый низкий порог вхождения.
Вииталий, а можно еще видос по сборке вашего варианта ПК. что как подбирали, как собрали все в кучу и остальное. мне не сложно собрать свой ПК, сто раз собирал. НО! пока соберешь то что надо до кучи в плане разгребешься что брать а что нет,ю что подойдет а что нет.. было бы шикарно такое видео как по мне. я сам разраб, FullStack, Python хорошо знаю пишу на нем очень давно и темой ИИ периодический интересуюсь как хобби.😁 у вас превосходные видео! большое спасибо за ваши труды!
Спасибо за обзор и тесты. Теперь понятно как выбирать. Буду изучать таблицы, считать что выгоднее. Пока юзаю RTX3060-12Gb (купленную на Авито у дизайнера) на XEON 22 ядра, 190Гб оперативки. Думал в какую сторону расширяться. Купить игровую видюху мощнее, профкарту или проще арендовать? Аренда создаёт гибкость в работе, если работаешь из разных мест и нет заморочек с оборудованием. Если используешь самосборный сервер, то кроме траты на покупку оборудования, надо делать VPN в свою сеть, да и трата электроэнергии, нагрев, деградация оборудования. И устаревание. Ну все как было когда-то с майнингом. ASICS или аренда мощностей? Всё-таки думаю, что когда эта видюха перестанет справляться с моими задачами (а похоже к этому идёт), перейду на аренду. Спасибо за обзор.
Я решил, что лучше иметь свое железо и всегда иметь к нему доступ. Можешь попробовать использовать мое апи к ллама 70б. Пока нагрузка маленькая предоставляю всем его бесплатно. rus-gpt.com/
@@kuliev.vitaly Пока использую ollama run llama3:8b и оболочку WEB-UI с удаленным доступом к компу через VPN. Ну и другие модели, что помещаются в видяху. Попробую твой доступ, спасибо.
@@СашаБло-и6оЯ линуксоид, поэтому поднял сервер ВПН, при подключении издалека к своему серверу попадаю в свою сеть. Дальше браузером подключаюсь к web-ui и прочим сервисам. Например сейчас я ещё запустил ComfyUI c Flux и Stable Diffusion. Правда сейчас возникают некоторые проблемы с ВПН. Ищу лучший, чтобы *композор не мешал.
Возможны ли тесты 2080ti с модификацией на 22гб? Также, пожалуй при выборе 3090\3090ti надо учитывать надежность карт (память с обратной стороны у 3090)
У меня нет 2080ti с такой модификацией. Да есть такая проблема у 3090. Еще они начали продаваться на пару лет раньше, чем 3090ti и застали эпоху майнинга. 3090ti сейчас более перспективны - лучше немного доплатить и ее взять.
rus-gpt.com/ Сервис запущен в тестовом режиме. Есть 70b и 8b версии лламы-3. Пока можно использовать бесплатно. Планирую более детальное видео записать.
nvlink не используется. В задаче инференса он мало полезен. Все данные передаются по pcie x8 gen4. Нейросеть запускается в режиме tensor parallel. Видео с деталями сборки сервера будет одно из ближайших.
Коллеги, у меня простой вопрос. Для учебы и работы, нужна платформа уровня обработки взаимодействия с `codestral 22b`, со скоростью - не менее 100 токенов в секунду. Комбинация "железа": * две rtx-2080ti через nvlink, * intel 13700kf Какую материнку выбрать? * как пример ASUS PRIME Z790-P D4 взлетит комбинация?
Виталий, что ты думаешь про использование внешних видеокарт через порт oculink (как здесь ua-cam.com/video/lkMdvoY-xWo/v-deo.html) или usb4, в идеале хотелось бы тест нейронок с внешними видеокартами?
@@kuliev.vitalyинтересно не получится ли, что в некоторых случаях обучения или даже применения нейронок будет невозможно задействовать внешнюю карту и всё будет запускаться на встроенной?
Я вот не пойму, можно ли для Llama 3 70b 8b будет использовать 4060 или 4070? Бюджет ограничен, а хотелось бы попробовать что это такое, Есть вариант купить 4060Ти 16 гб за 37000 и 4070 12гб за 44000, какая лучше будет, или никакая не пойдет?
Бери у которой памяти больше - это приоритет для запуска нейросетей. Лучше всего, если сможешь 3090 бу найти в этом бюджете. Если нет, то бери 4060ти на 16гб
А у меня вопрос появился, все почему-то используют nvidia для запуска нейросеток, а на amd вообще не запустится или будет сильно хуже работать? Просто карточки с аналогичным объёмом памяти стоят в 2 раза дешевле вот и решил поинтересоваться)
Карты амд не имеют тензорных ядер. Практически вся тренировка идет на видеокартах нвидиа. Практически весь софт ориентируется на поддержку технологии cuda от nvidia. В последнее время поддержка амд карт улучшается и ряд задач можно делать на амд картах.
@@KorneevZakhar Ждем конкуренции на видео потому что цены космические, да и ламу бы подтянуть, а то как-то слабенькая в сравнении с основными конкурентами даже 405B
Модели llama3 плохо дружат с русским языком, даже если в системном промте прописать мол пиши всегда на русском, все равно проскакивают английские слова там где это не уместно, что с этим делать? Модели на хагинфейсе дообученные на русских датасетах работают очень криво
зафайнтюненные версии ламы на другой язык или длинный контекст могут показывать плохие результаты. оригинальная версия с системным промптом должна хорошо отрабатывать
Что приводит к мысли (меня во всяком случае убедило окончательно), что надо применять английский. Пока не появятся нормальные прокси-транслейт для того, чтобы писать на родном языке, прокси-транслейт переводил (адекватно) на английский, подавал в модель и ответ пройдя через прокси выдавал обратно на родном языке. Чтобы переводом занималась не каждая модель как она худо-бедно может, а специальная, которая идеально под это заточена. Технически это реализовать вроде уже не сложно. А пока дуолингво нам всем в помощь.
Просто 10/10. Продолжайте, Виталий. Такой контент нам нужен
Дружище, продолжайте!
Классный тест получился. Скоро магистерская по ИИ и на ваш канал я пожалуй подпишусь). Удачи в развитии проекта.
С Обновками)
Спасибо)
Отличная работа!
Огромное спасибо за огромный труд! Можно еще добавить к тестам мониторинг загрузки процов по потокам, для разных архитектур, а также загрузка оперативки в зависимости от количества запросов. Интересно оптимальное сочетание проц-гпу-оператива для разных задач.
Процессор и оперативка минимально используются. Все вычисления идут на видеокарте и данные между картами по pcie передаются.
@@kuliev.vitaly смотря при какой конфигурации. люди, которые запускают нейронки в быту, как например я, могут сталкиваться с разными вещами)
я запускаю дома на ollama L3.3-MS-Evayale-70B-GGUF:Q4_K_M просто для генерации текста. Конфиг компа: rtx 4060 8gb ,12th Gen i5-12400F оперативка ddr4 80,0 ГБ. Запрос через Open Web Ui. Работаю с текстом 25000 знаков. Текст загружается, я так понимаю сначала до отказа в GPU, потом занимает около 40 гигов оперативки и скачет 82-90% процессор. Ну что-то там включено еще типа броузера с условными 10-ю окнами и по мелочам.
Что я хочу сказать - большинство людей именно так и используют нейронки и обзор вот этих бытовых кофигураций вызвал бы определенный интерес в массах, учитывая бытовую сборку и самый низкий порог вхождения.
Спасибо
Виталий, добрый день! Вы можете сделать похожий тест с моделями для кодинга, такими как например deepseek coder v2 lite или codestral ?
Тесты скорости сильно зависят от размера модели. Посмотрите тесты нейронок схожего размера. Возможно, в следующих видео протестирую другие нейронки.
Вииталий, а можно еще видос по сборке вашего варианта ПК. что как подбирали, как собрали все в кучу и остальное. мне не сложно собрать свой ПК, сто раз собирал. НО! пока соберешь то что надо до кучи в плане разгребешься что брать а что нет,ю что подойдет а что нет.. было бы шикарно такое видео как по мне. я сам разраб, FullStack, Python хорошо знаю пишу на нем очень давно и темой ИИ периодический интересуюсь как хобби.😁 у вас превосходные видео!
большое спасибо за ваши труды!
Да планирую записать видео о сборке сервера.
А какой инструмент для сервинга llm вы использовали для тестов? vllm?
да
Спасибо за обзор и тесты. Теперь понятно как выбирать. Буду изучать таблицы, считать что выгоднее.
Пока юзаю RTX3060-12Gb (купленную на Авито у дизайнера) на XEON 22 ядра, 190Гб оперативки.
Думал в какую сторону расширяться. Купить игровую видюху мощнее, профкарту или проще арендовать?
Аренда создаёт гибкость в работе, если работаешь из разных мест и нет заморочек с оборудованием.
Если используешь самосборный сервер, то кроме траты на покупку оборудования, надо делать VPN в свою сеть, да и трата электроэнергии, нагрев, деградация оборудования. И устаревание.
Ну все как было когда-то с майнингом. ASICS или аренда мощностей?
Всё-таки думаю, что когда эта видюха перестанет справляться с моими задачами (а похоже к этому идёт), перейду на аренду.
Спасибо за обзор.
Я решил, что лучше иметь свое железо и всегда иметь к нему доступ. Можешь попробовать использовать мое апи к ллама 70б. Пока нагрузка маленькая предоставляю всем его бесплатно.
rus-gpt.com/
@@kuliev.vitaly Пока использую ollama run llama3:8b и оболочку WEB-UI с удаленным доступом к компу через VPN. Ну и другие модели, что помещаются в видяху. Попробую твой доступ, спасибо.
@@astroiLL2010 не подскажите, каким путем пошли в плане ПО по удаленному доступу?
@@СашаБло-и6оЯ линуксоид, поэтому поднял сервер ВПН, при подключении издалека к своему серверу попадаю в свою сеть. Дальше браузером подключаюсь к web-ui и прочим сервисам. Например сейчас я ещё запустил ComfyUI c Flux и Stable Diffusion.
Правда сейчас возникают некоторые проблемы с ВПН. Ищу лучший, чтобы *композор не мешал.
Возможны ли тесты 2080ti с модификацией на 22гб? Также, пожалуй при выборе 3090\3090ti надо учитывать надежность карт (память с обратной стороны у 3090)
У меня нет 2080ti с такой модификацией. Да есть такая проблема у 3090. Еще они начали продаваться на пару лет раньше, чем 3090ti и застали эпоху майнинга. 3090ti сейчас более перспективны - лучше немного доплатить и ее взять.
А ключики для тестов больше не раздаёте?)
Проект оказался маловостребован. Попробуйте fireworks - они дают тестовый доступ
@@kuliev.vitaly спасибо, попробую!
Виталий, а что с сервисом? будут ламы в народ? мне по тестить надо ламу3 для бота.. арпи надо.. ищу. как скоро свое запустите?
rus-gpt.com/
Сервис запущен в тестовом режиме. Есть 70b и 8b версии лламы-3. Пока можно использовать бесплатно. Планирую более детальное видео записать.
Подскажите, а каким образом память видеокарт на Вашем сервере суммируется?
Используется мостик NVLink ?
nvlink не используется. В задаче инференса он мало полезен. Все данные передаются по pcie x8 gen4. Нейросеть запускается в режиме tensor parallel. Видео с деталями сборки сервера будет одно из ближайших.
Коллеги, у меня простой вопрос.
Для учебы и работы,
нужна платформа уровня обработки взаимодействия с `codestral 22b`, со скоростью - не менее 100 токенов в секунду.
Комбинация "железа":
* две rtx-2080ti через nvlink,
* intel 13700kf
Какую материнку выбрать?
* как пример ASUS PRIME Z790-P D4
взлетит комбинация?
Должно заработать. Nvlink в задаче инференса мало влияет на производительность. Можно по PCI e подключить
Если важна скорость могу рекомендовать карту 3090/4090. Она быстрее должна работать.
could you please explain what worker is? can you have multiple worker on single gpu?
That is client worker. It makes parallel requests to llm service. Llm service can process multiple requests simultaneously.
@@kuliev.vitaly so it means if i have single rtx 4090 i can run 60 workers in parallel and get those results?
Yes you can run 8b model on 4090 and make multiple requests to it.
Thanks vitaly, it improves the performance so much! could you please suggest some open source libraries that do it easily?
I use 'vllm' in docker.
Виталий, что ты думаешь про использование внешних видеокарт через порт oculink (как здесь ua-cam.com/video/lkMdvoY-xWo/v-deo.html) или usb4, в идеале хотелось бы тест нейронок с внешними видеокартами?
Схема рабочая и подходит для подключения к ноутбуку мощной карты. Сам я ее не тестировал, так как использую полноценный системник для инференса.
@@kuliev.vitalyинтересно не получится ли, что в некоторых случаях обучения или даже применения нейронок будет невозможно задействовать внешнюю карту и всё будет запускаться на встроенной?
можно выбирать нужную карту в задачах обучения и инференса.
Я вот не пойму, можно ли для Llama 3 70b 8b будет использовать 4060 или 4070? Бюджет ограничен, а хотелось бы попробовать что это такое, Есть вариант купить 4060Ти 16 гб за 37000 и 4070 12гб за 44000, какая лучше будет, или никакая не пойдет?
Можешь попробовать по апи на моем сайте rus-gpt.com/
Также есть открытые чаты для доступа к ламе.
@@kuliev.vitaly Спасибо, но какую видеокарту можно взять до 50 тыс?
Бери у которой памяти больше - это приоритет для запуска нейросетей. Лучше всего, если сможешь 3090 бу найти в этом бюджете. Если нет, то бери 4060ти на 16гб
А у меня вопрос появился, все почему-то используют nvidia для запуска нейросеток, а на amd вообще не запустится или будет сильно хуже работать? Просто карточки с аналогичным объёмом памяти стоят в 2 раза дешевле вот и решил поинтересоваться)
Карты амд не имеют тензорных ядер. Практически вся тренировка идет на видеокартах нвидиа. Практически весь софт ориентируется на поддержку технологии cuda от nvidia. В последнее время поддержка амд карт улучшается и ряд задач можно делать на амд картах.
@@kuliev.vitaly Спасибо, за ответ! Тогда посижу пока на своей 3080) Мне для запуска локально codegemma:7b хватает, а там посмотрим ,как пойдёт)
@@KorneevZakhar Ждем конкуренции на видео потому что цены космические, да и ламу бы подтянуть, а то как-то слабенькая в сравнении с основными конкурентами даже 405B
Серьезные задачи на картах АМуДе никто не будет в здравом уме запускать.
Вы уверены, что у обоих карт pci x8? На чипсетах для амд под am4 я только asus pro art видел, чтобы второй слот выдавал тоже х8.
Да. Две карты x8 подключены, третья по x4. Это можно посмотреть в свойствах карты. Платформа ам4, чипсет x570.
@@kuliev.vitaly здорово! Спасибо за ответ!
Как с вами связаться?
t.me/kulievvitaly
Модели llama3 плохо дружат с русским языком, даже если в системном промте прописать мол пиши всегда на русском, все равно проскакивают английские слова там где это не уместно, что с этим делать? Модели на хагинфейсе дообученные на русских датасетах работают очень криво
Встречал проблемы с русским при использование квантизации. 70b awq, которая тестируется в этом видео работает корректно с русским.
Я сам использовал Saiga в huggyface видел, но мало ее использовал
зафайнтюненные версии ламы на другой язык или длинный контекст могут показывать плохие результаты. оригинальная версия с системным промптом должна хорошо отрабатывать
Что приводит к мысли (меня во всяком случае убедило окончательно), что надо применять английский.
Пока не появятся нормальные прокси-транслейт для того, чтобы писать на родном языке, прокси-транслейт переводил (адекватно) на английский, подавал в модель и ответ пройдя через прокси выдавал обратно на родном языке. Чтобы переводом занималась не каждая модель как она худо-бедно может, а специальная, которая идеально под это заточена. Технически это реализовать вроде уже не сложно. А пока дуолингво нам всем в помощь.
сколько вы потратили денег на тестирование?
Примерно 3000 рублей. Почасовая аренда всех этих серверов.