LMstudio как замена ChatGPT: Saiga Mistral, LLama и другие локальные LLM

Поділитися
Вставка
  • Опубліковано 18 тра 2024
  • Новые видео, статьи и полезности в Telegram: t.me/+AvtWabJB1ms5NmE6
    Скрипты для подключения к локальному серверу + инструкция по их запуску: boosty.to/morinad/posts/3c3f2...
    Наши курсы:
    1) Основы Power BI (бесплатный курс): directprorf.ru/basics?...
    2) Power BI для рекламных отчётов: directprorf.ru/powerbi?...
    3) Из API в Excel и Power BI + коннекторы: directprorf.ru/excel?...
    4) Коннекторы для Маркетплейсов: directprorf.ru/marketplaces?u...
    5) Продвинутый Power Query: directprorf.ru/pro?...
    6) Создание коннекторов в Power Query: directprorf.ru/connectors?utm...
    Все коннекторы mez для Power BI и консультации по ним
    доступны на Boosty по подписке "ПРО": boosty.to/morinad/posts/eb9b9...
    Таймкоды:
    0:00 - Что делать если вы не хотите работать с ChatGPT?
    0:25 - LM studio - удобный инструмент для тестирования LLM
    1:10 - Интерфейс LMstudio
    1:35 - Удобный поиск больших языковых моделей
    2:41 - Quantization - как выбрать и скачать подходящую версию
    4:10 - ChatGPT внутри LMstudio
    5:07 - Разворачиваем локальный сервер для своих программ
    5:54 - Как програмно обратиться к локальной модели
    6:45 - Тестируем Saiga Mistral на примере SQL
    7:57 - Сравниваем Saiga с ChatGPT
    8:20 - Просим Saiga Mistral и ChatGPT написать 3 слогана
    9:50 - История про бизнес-коуча от LLM
    10:30 - Проблемы со скоростью в локальных LLM
    12:08 - Работа с Llama - проблема с русским языком
    12:37 - Таймаут ожидания в функциях обращения к local LLM
    13:06 - Функция Power Query для обращения к локальной модели
    14:04 - Итоги: мне не понравилась ни одна opensource модель
    14:57 - Модели от крупных компаний пока выигрывают у opensource моделей
    Другие интересные видео:
    Запрос к API GPT3 и ChatGPT: • Запрос к API GPT3 и Ch...
    API ChatGPT пишет код сайта: • API ChatGPT создаёт са...
    Подключение к API на Python и PQ: • Подключение к API на P...
    Телеграм-бот на базе Power BI: • Телеграм-бот на базе P...

КОМЕНТАРІ • 43

  • @cyb3rN1nja17
    @cyb3rN1nja17 2 місяці тому +5

    Меня особенно привлекло это видео, поскольку оно посвящено LM Studio, теме, которая меня интересовала в последнее время. Благодаря этому видео я получил ценную информацию о различных аспектах обучения модели машинного обучения, которая помогла мне понять, почему моя модель LLM Mistral-7b-instruct-v0.2.Q8_0.gguf работала неэффективно. Четкие объяснения и практические примеры автора сделали сложные концепции намного более доступными, что позволило мне не только улучшить мой текущий проект, но и расширить свои знания в этой области. Я хотел бы выразить искреннюю признательность за время и усилия, потраченные на создание этого видео, а также за то, что поделились ценной информацией с сообществом. Спасибо!

    • @fensmart437
      @fensmart437 2 місяці тому +4

      Чатом GPT4 коммент писал? 😅

    • @directprobi
      @directprobi  2 місяці тому +4

      Мне кажется это мистраль)

    • @cyb3rN1nja17
      @cyb3rN1nja17 2 місяці тому

      ​@@directprobi Да, это mistral 😁

  • @denisg9913
    @denisg9913 5 місяців тому +1

    Спасибо за уникальное видео! Похожего не нашел

  • @DarkSlear
    @DarkSlear 2 місяці тому +2

    Не корректно сравнивать 7B открытые модели и ChatGPT 3.5 на 175b. Ясное дело что последний будет выдавать ответы лучше)
    Но если использовать файнтюнинг - тогда локальная 7b в определённых задачах может показывать даже лучшие результаты.
    Но в целом видео хорошее, особенно для новичков, спасибо =)

    • @Roman-hv3ss
      @Roman-hv3ss Місяць тому +1

      Что за файнтюнинг? Это дообучение или что-то другое?

    • @Roman-hv3ss
      @Roman-hv3ss Місяць тому

      И еще вопрос - ты уже пробовал файнтюнинг для локалок? Или это было предположение?

  • @kriptex_people
    @kriptex_people 3 місяці тому

    Спасибо за видео! Сразу захотелось проверить на пк)
    Сразу спрошу, а есть вариант использовать такую схему, но на сервере?

    • @directprobi
      @directprobi  3 місяці тому

      У них вроде есть версия под linux, надо пробовать, я не запускал

  • @Unnitt
    @Unnitt 4 місяці тому

    Здравствуйте! А подскажите, что у вас за машина в видео? Хочется понять примерно соотношение мощностей/характеристик, чтобы не пробовать много моделей для тестов

    • @directprobi
      @directprobi  4 місяці тому +1

      Asus Vivobook, Процессор 11th Gen Intel(R) Core(TM) i7-11370H @ 3.30GHz 3.30 GHz, 16ГБ оперативки, но у меня не работает ускорение GPU, возможно в этом проблема. Вообще в идеале найти вариант где под вас выделяют нужное количество ресурсов, тогда всё это гибко будет работать. Ну либо ускорение всё же задействовать

    • @Unnitt
      @Unnitt 4 місяці тому

      @@directprobi Супер, большое спасибо!

    • @user-pv8it1ml9y
      @user-pv8it1ml9y 3 місяці тому

      4090 видюха нужна. Тогда вышеприведенные примеры на не урезанной модели 7b генерятся десятки секунд. От 20 сек до минуты примерно.

    • @GrAndAG
      @GrAndAG 3 місяці тому +2

      Почекал у себя...
      Ответ про SQL-запрос самая большая модель Q8 (не Q3, как на видео) на проце 13600 сгенерировала за 6+11=17 секунд (нагрузка при этом была около 80%). И кстати, ответ был более правильный, почти как у ChatGPT (только вместо простого SELECT * оно напридумывало туда конкретных полей). На GPU 4070 Ti этот же запрос занял 0.5+1.5=2 секунды.
      Слоганы сгенерились за CPU: 7+17=24 и GPU: 0.8+2.1=2.9 секунды.
      А история вышла за 40+92=132 и 0.3+13.1=13.4 соответственно. Правда мне выдало не прo Елену, а про Серёгу и Андрея почему-то. )))
      Ещё раз - все вышеприведённые цифры получены на 8ГБ модели.
      Так что 4090 не обязательна, хватит и 4070. ;) На GPU выходит примерно в 10 раз быстрее.

    • @Roman-hv3ss
      @Roman-hv3ss Місяць тому +1

      @@user-pv8it1ml9y Видюха большую роль играет для нейронки? У меня собран ПК на двухпроцессорной матери. Суммарно 54 ядра получается, но низкая герцовка, 2.2 что ли. И 120Гб оперативы, но видюха стоит простенькая. Хочу затестить.

  • @serj_8228
    @serj_8228 26 днів тому

    Уважаемый автор, благодарю за видео!
    Вопрос: а как дообучать модели? Допустим есть куча книг с распознанным текстовым слоем, и я хочу их скормить модели, после чего попробовать провзаимодействовать. Как это делается? Можно ли снять отдельное видео?
    У вас в примере можно взять дообучение для корректировки результата выдачи, чтобы было как у ChatGPT.
    Насколько я понимаю, дообучить тот же ChatGPT вряд ли получится...
    Заранее благодарю.

    • @directprobi
      @directprobi  26 днів тому

      Эти модели честно говоря не знаю как дообучить) Да и lmstudio - это всего лишь эксперимент был, а вот про chatgpt хотел снять ролик с дообучением, но пока не успел

  • @eduardmart1237
    @eduardmart1237 2 місяці тому

    А можно их дообучать или использовать RAG?

    • @directprobi
      @directprobi  2 місяці тому

      Думаю да, но не пробовал, не знаю позволяет ли это делать LM Studio

  • @-vileon-3294
    @-vileon-3294 3 місяці тому

    как стереть все общение с аи? если задаю вопрос и например резко меняю тему в другое русло он все продолжает отвечать ответами на 1ый вопрос.спасибо

    • @directprobi
      @directprobi  3 місяці тому

      Мне кажется тут только новый диалог заводить с ним, потому что он помнит что вы обсуждали в прошлом и отвечает также. Но при обращениях через сервер такой проблемы быть не должно

  • @Phoenix55rus
    @Phoenix55rus Місяць тому

    можно же задать GPU offload и тогда нормально обрабатывается

  • @kosan_
    @kosan_ 4 місяці тому

    Как насчет ускорения при помощи GPU. У Вас оно вроде выключено.

    • @directprobi
      @directprobi  4 місяці тому

      На этом компьютере к сожалению вообще не работает, напишите, пожалуйста, если у вас получалось ускорить, возможно на другом компьютере будет лучше

    • @kosan_
      @kosan_ 4 місяці тому

      @@directprobi у меня 4Гб видеопамяти, определяется и используется Nvidia CUDA, небольшие модели типа phi-2 (~5Гб) с параметром -1 помещаются и работают моментально. На больших, я как понял, нужно подбирать параметр, по субъективным ощущениям прирост есть.

    • @directprobi
      @directprobi  4 місяці тому

      @@kosan_ интересно, ну может правда от этого ускорения сильно зависит, попробую на другой машине может получится что-то, но в идеале хотелось бы запускать большие модели, а он их даже скачивать не предлагает

    • @GrAndAG
      @GrAndAG 3 місяці тому

      @@directprobi У меня Q8 модель на 4070 Ti отрабатывает в 10 раз быстрее по сравнению с процом 13600.

    • @inforvita
      @inforvita 2 місяці тому +2

      Т. е. ты, консультант, совершенно не знаешь, что обработка LLM моделей рассчитана на работу с графическими картами и именно с архитектурой CUDA ядер от NVIDIA ? ))) И процессор здесь вообще "...нервно курит в сторонке"...
      Замечательно! ))
      У меня проц восьмилетней давности 4 ядра Core i5 2500...,16Gb Ram..., Но благодаря установленной Asus RTX 3060 12Gb Vram на этом конфиге вполне нормально бегает Stable Diffusion A1111 за секунды "перемалывает" 6Гб генеративные модели "картинок"...
      Пересмотри своё отношение к собственному "железу" раз уж ты направил "свои стопы" в сторону ИИ да ещё на и локальной машине. Там на офисном ноуте делать НЕЧЕГО!!

  • @nullkv
    @nullkv 4 місяці тому

    Phind модель бы глянуть

    • @directprobi
      @directprobi  4 місяці тому

      Если всё же получится как-то ускорить всё это - обязательно сниму с этой моделью в том числе, не слышал ранее про неё

  • @user-ou9rm3hb4f
    @user-ou9rm3hb4f 2 місяці тому

    Chat GPT последний раз когда смотрел инфу в 2023 году данные весом были почти 600 гик. А то огрызки.

  • @maxk8016
    @maxk8016 4 місяці тому

    Почему ответ 7гб модели так и не показали

    • @directprobi
      @directprobi  4 місяці тому

      После запуска модели у меня слетела запись экрана из-за большой нагрузки, поэтому результат уже не показал

    • @maxk8016
      @maxk8016 4 місяці тому

      @@directprobi могли бы вы свое мнение сказать, самая большая модель в сравнении с gpt 3.5 turbo как вообще?

    • @directprobi
      @directprobi  4 місяці тому

      @@maxk8016 на моём компе крайне медленно и всё равно с некоторыми ошибками, а больше 7ГБ я не скачивал - не даёт такой возможности

  • @sergeyt7314
    @sergeyt7314 2 місяці тому

    Если у тебя твой ноутбук нихуя не тянет, так нехуй эти агрызки сравнивать с платными моделями, которые работают на серверах за целую кучу десяткав, или 100тен тысяч баксов. Загрузил бы на калаб эти локальные модели и тестировал а не на своем 16гига говне.

    • @directprobi
      @directprobi  2 місяці тому +1

      А есть какое-нибудь видео или материал как запустить LM Studio на Google Colab? Я что-то сходу не нашел

    • @Roman-hv3ss
      @Roman-hv3ss Місяць тому +2

      @@directprobi Не слушай всяких деградонтов. Отличное видео. Не у всех есть возможность юзать платные модели. Пусть на старте будет даже такая версия. Если есть возможность ее дообучить, то вообще кайф.