Экономика LLM: что надо и сколько стоит использование больших языковых моделей
Вставка
- Опубліковано 12 бер 2024
- Презентация (так как видео иногда закрывает слайды здесь: cloud.mail.ru/public/2X2y/aAD...
В видео рассматриваю что надо и сколько стоит использование LLM. Как примерно посчитать себестоимость одного действия и тд.
Вопросы и пожелания пишите в Телеграм t.me/aikula
Присоединяйтесь к моему каналу t.me/hirearobot
Спасибо за интересный обзор с примерами! Просьба на будущее - при подготовке презентаций учитывайте вставку видео с Вами. Иногда этот экран перекрывает информацию на слайде. Успехов Вам!
Нифига крутой вы мужик. Я подписался
Топ контент! Спасибо за видео
не обижайтесь, пожалуйста, на бесполезный комментарий. просто хотел Вас поблагодарить за ваши труды. очень многое для себя подчеркнул. 🎉
Спасибо! Снимаю шляпу.
Спасибо за информацию. А я хотел поднять у себя ламу 3, на 70 млрд параметров, для своего домашнего проектика. Думал что и из оперативки нормально будет работать. Поставил 64 Гб. Стало быстрее, чем из свопа, конечно, но всё равно слишком медленно. Может секунд по 20 - 30 генерировать одно предложение. Хочется чтобы всё было локально. У меня как раз 4090 простаивает. Заметил что если модель не сильно вылазит за пределы памяти видеокарты, то скорость генерации, остаётся более чем сносной. Попробовать, что-ли, поюзать квантированную намертво, самую маленькую... Но то что выдаёт лама 3, на 8 млрд параметров, меня совсем не устраивает. Очень она потерянная какая-то. Вдруг будет лучше.
В проде мы используем пусть и меньшие модели, но в точности float16. Квантированные особенно на русском языке сильно проседают. Не знаю Ваши задачи, но LLaMA 3 8B вполне сносная. Единственная пока проблема малое контекстное окно.
качество видео почему-то максимум 360(
youtube еще не успел сконвертировать в HD. В процессе
@@aikula999 спасибо, очень интересно было