Загружаем в ИИ большие данные (книги, документы), заставляем ИИ цитировать источники, автономия

Михаил Исаев

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 27 гру 2024

КОМЕНТАРІ •

@Zumma1000-jq1un 18 днів тому ⁺⁴
Умнейший человек, причем щедрый. А еще прирожденный учитель. Простым и доступным языком объяснил сложнейшие вещи с главной целью - помочь людям в использовании нейронки в научной и образовательной деятельности. Браво. Спасибо огромное. Подписка - сразу же! И всем коллегам - ссылку на канал.
@MrDewiar 17 днів тому ⁺¹
Огромное спасибо за такие хорошие слова. Буду стараться
@Zumma1000-jq1un 6 днів тому
@@MrDewiar сейчас ютуб не грузится - вот это исходная проблема. А облегченные видео где-то еще есть?
@KovalevPro 7 днів тому ⁺²
Благодарю за видео, очень ясно и наглядно, видно как автор горит своим проектом, успехов вам!
@MrDewiar 6 днів тому ⁺¹
Здравствуйте, так и есть. Это очень увлекательное направление, невозможно остановиться))
@НаБерлин-у2ч Місяць тому ⁺¹³
Михаил моё почтение! Такие энтузиасты дар для нас простых людей!
@MrDewiar Місяць тому ⁺²
Благодарю Вас за хорошие слова
@SuhorukovD Місяць тому ⁺¹⁰
Очень грамотно экономить токины и улучшать качество выдаваемой информации даже на простых моделях.
@MrDewiar Місяць тому ⁺²
Спасибо, да, так и хотелось бы чтобы все работало
@АлексейФомин-ю8ж 2 дні тому
Михаил, спасибо Вам за Ваши труды!!! СУПЕР полезный материал!!!!
@ОООСМАРТБАКС 27 днів тому ⁺²
Супер контент. Михаил Вы большой молодец что занимаетесь данной работой и снимаете такие ролики. Успехов Вам и новых открытий !!!
@MrDewiar 21 день тому ⁺¹
Спасибо Вам за хорошие слова
@gc9026 Місяць тому ⁺⁷
Михаил, спасибо за ваш труд! Вы создали ценный и полезный инструмент. Я часто пользуюсь вашей разработкой и желаю вам продолжать её развитие. Удачи вам!
@MrDewiar Місяць тому ⁺¹
Спасибо Вам. Очень хочется развиваться самому, развивать эти вещи, открывать что-то новое. Не так много хорошего происходит в мире, и работа с ИИ для меня воплощает надежду на лучшее. На то, что некоторые вещи в мире будут становиться удобнее и полезнее.
@regioninfo. Місяць тому ⁺⁵
Огонь! То, что доктор прописал. Светлая голова, браво!
@MrDewiar Місяць тому ⁺²
Спасибо за положительный комментарий. Будем двигаться вперед!
@jurisjupiter7129 Місяць тому ⁺⁴
Благодарю за труд и умение говорить о сложных вещах простыми словами!
@MrDewiar Місяць тому ⁺¹
Спасибо за добрые слова. Рад, что смог что-то объяснить, мне самому это интересно.
@mrn748 Місяць тому ⁺⁴
Спасибо огромное за доступ и за такое полное и доступное описание процесса!
@MrDewiar Місяць тому ⁺¹
Очень большое Вам спасибо в ответ!
@Sijey03 Місяць тому ⁺²
Супер, Михаил. Вы белорусский самородок. Буду тестировать.
@MrDewiar 28 днів тому ⁺¹
Благодарю Вас!
@dictioner8129 29 днів тому ⁺²
Михаил, благодарю за ценные знания! Все очень доступно и понятно!
@MrDewiar 28 днів тому ⁺¹
Спасибо за положительный отзыв!
@Soobrazny Місяць тому ⁺²
Спасибо за проделанную сложную и полезную работу. Буду активно тестировать! Успехов вам, Михаил!
@MrDewiar Місяць тому ⁺¹
Спасибо Вам большое. Система работает не идеально, не судите строго
@gadellatypov63 11 днів тому ⁺¹
Большое спасибо. Ждём видео инструкцию, как самому создать векторную бд для своих целей
@MrDewiar 10 днів тому
В векторе есть свои проблемы, сейчас над ними работаю. Покажу что получается в ближайшее время.
@sergbik2339 Місяць тому ⁺⁴
Спасибо за доступное объяснение и новаторские идеи.
@MrDewiar Місяць тому ⁺¹
Спасибо за добрые слова
@MarchenkoDmitriy68 Місяць тому ⁺³
Грандиозно!!! Спасибо за Ваш труд!!!
@MrDewiar Місяць тому ⁺¹
Дмитрий, благодарю
@webcob 18 днів тому ⁺¹
Михаил, спасибо за качественный материал. Столкнулся с проблемой, когда ПАК стал настолько большим, что прежде чем начать с ИИ работать, 80% токенов расходуется именно на обучение, и только под конец начинает появляться качественный контент, а сейчас и вовсе остается процентов 5. Я понял в чем проблема, и понял как к ее решению теперь подступиться. Спасибо!
@MrDewiar 17 днів тому ⁺¹
В этой технологии хватает своих проблем, будем решать постепенно
@Zumma1000-jq1un 6 днів тому
Поделитесь и с нами тем, ЧТО вы поняли и КАК поступить? (Та же проблема - но чайник в этом деле).
@mikhailkuznetsov1356 Місяць тому ⁺³
Из этого видео про работу llm больше чем за предыдущие полгода, когда смотрел как правильно промты задавать для всяких результатов
@MrDewiar Місяць тому ⁺¹
Я сам для себя открываю это все с удовольствием, и с удовольствием делюсь. Благодарю за отзыв
@landcomp Місяць тому ⁺³
Благодарю. Для меня конечно сложновато, но просто на интуиции понимаю что пригодится.
@MrDewiar Місяць тому ⁺¹
На самом деле тема одна из самых сложных. Поэтому я вот целый час подбирал слова и не знал с какой стороны подступиться, чтобы рассказать более понятно. Общего понимания достаточно. Надеюсь, Вам информация пригодится
@dzianwoo2292 Місяць тому ⁺⁵
Ваа спасибо большое за разъяснение, всё понятно. Загружал тут прайс с 3к товаров в ассистент опенай, причем у товаров у многих отличия были только размерах и заколебался её настраивать, выдает цены от одного товара, а размеры от другого. Игрался с размерами чанка, уменьшил и еще там чуть настроил, теперь выдает как надо. И это всё был метод тыка, а теперь понятно стало почему заработало и как правильно настроить под определенные задачи, а так же надо будет убрать маркдаун. Благодарю.
@Hrabryi Місяць тому ⁺¹
Интересно, а есть ли решения для автоподбора этих параметров?
@dzianwoo2292 Місяць тому ⁺¹
@@Hrabryi каких именно? Подходящих размеров чанка? думаю нет, это ж под задачу настраивается. Чем более узко он должен видеть скажем так, в векторной базе, тем меньше размер чанка. Если я правильно понимаю. Для поиска смыслов в книге наоборот побольше лучше. Наверно.
@MrDewiar Місяць тому
С прайсами вообще работа считается довольно сложной.. там табличные данные.. очень важно преобразовать таблицы в маркдаун или csv форматы
@dzianwoo2292 Місяць тому
@@MrDewiar а вы вроде говорили что векторной безе маркдаун без смысла. Я потестировал, с цсв вообще всё плохо, а без маркдауна цены не ищет.
@SergeyCHiP 2 дні тому
Запутался. Вы сказали, что маркдаун позволяет обогатить смыслом и значимостью блоков. А затем вы сказали что надо вычещать от маркдауна прежде чем грузить в базу.
Как правильно выбирать базу и/или модель для преобразования / подготовки текста к базе?
Земляк! Я в восторге. Сначала бесился :) пока слушал, а потом как пошлоооо. Даже захотел помочь как-то.
@nickolay0000 29 днів тому ⁺²
Огромное Вам спасибо! Очень полезно!
@MrDewiar 28 днів тому ⁺¹
Николай, спасибо Вам
@rusix Місяць тому ⁺⁵
огонь! 🔥, послушаешь вот такие вот ролики и всё чаще приходит в голову мысль о критически назревающей необходимости создать нечто вроде единого универсального международного языка, который мог бы сильно облегчить не только общение людей между собой, но и взаимодействие с ИИ, когда был бы некий универсальный хорошо токенизированный язык с четкими правилами внутри, выступающий как некая "валюта" для хорошей трансляции с любого языка в него и с него в любой язык, сейчас в качестве такого де факто зачастую используется английский, но поскольку это исторически сложившийся язык, он несёт в себе много рудиментов, артефактов и избыточности, то есть так называемый "шум", а используя современный ИИ, можно было бы синтезировать некий более чистый эталон трансляции информации для транзакции информации из одних форм и языков в другие без потерь и искажений, причём теперь этот "эталон" можно максимально приблизить к человеческому языку и даже использовать как международный напрямую
@MrDewiar Місяць тому ⁺²
У Вас очень оригинальная идея. Мне немного напомнило идею с Эсперанто, полностью искусственным языком. Возможно его стоит рассматривать как один из прототипов для создания чего-то более универсального. Вообще, ИИ хорошо может справиться с задачей изобретения нового языка. Но очень большая тема, и сложная.
@youzaks Місяць тому ⁺¹
Так давно бы договорились насчёт 1 языка. Чтобы никому обидно не было - можно было бы придумать новый супер оптимальный и крутой язык под новую цифровую эпоху. Мега проект, стирающий границы между людьми!
@Olga-Shmatova Місяць тому ⁺²
Михаил, огромное спасибо за ваше изобретение, которое решает проблему маленького контекстного окна! Я давно хочу проанализировать с помощью ИИ свою большую книгу. Надеюсь, теперь получится
@MrDewiar Місяць тому ⁺¹
Ольга, здравствуйте. Очень здорово. Я сейчас со своей небольшой командой через эту технологию восстанавливаем дневники Теслы, чтобы можно было с ними работать в реальном времени.
@anatolykosychenko8038 Місяць тому ⁺³
Hi Ya & best wishes. Thanks for work. Be Happy. Sevastopol/Crimea.
@MrDewiar Місяць тому ⁺¹
Благодарю за добрые слова.
@Andrey11081 Місяць тому ⁺²
Моё почтение за просвещения таких как я (поользователь) !👍
@MrDewiar Місяць тому
Благодарю за высокую оценку моих трудов. Это мотивирует заниматься этим и дальше
@vladotlogov9603 21 день тому ⁺²
Очень полезно, спасибо!
@MrDewiar 21 день тому ⁺¹
Спасибо Вам!
@АндрейПушкарь-о9ъ Місяць тому ⁺²
Ну теперь все понятно. То есть счастье не в количестве весов, а в правильно структурированных качественных данных. В общем, пошел изучать векторную базу данных, что я могу сказать. За видео огромное спасибо!
@MrDewiar Місяць тому ⁺¹
Андрей, Вы точно не потратите время впустую. Хорошее, правильное направление. Есть еще Граф Раг, работающий через сущности и связи между ними.. там еще лучше работает, но это все требует глубокого погружения.
@ВасилийБасаргин-в2к Місяць тому ⁺²
Михаил, Вы молодец!
@MrDewiar Місяць тому
Василий, спасибо Вам
@devolan2524 Місяць тому ⁺²
Михаил, а какой формат данных вы бы посоветовали загружать при создании GPTs? Я слышал что лучше всего по возможности использовать txt. Думаю md будет добавлять шум?
Я правильно понимаю что при создании GPTs добавленные пользователем данные конвертируются в вектор?
@MrDewiar 28 днів тому ⁺¹
Все правильно, чем чище текст - тем лучше. Исключения составляют фотографии, их напрямую не зальешь, приходится вставлять ссылки на фото, и комментарии к этим фото.. а это формат маркдаун. Т.е. получается, весь файл должен быть чистым текстовым, и только фото оставляем как было. От остальных символов - звездочек, подчеркиваний - избавляемся, они создают семантический шум.
@Почемучка-л8б Місяць тому ⁺²
Михаил, добрый день!
Видео полезное. Спасибо!
Просьба к регулировке громкости - добавьте, пожалуйста, децибел, а то приходится выкручивать колонки на максимум, чтобы полноценно слышать Вас.
Спасибо!
@MrDewiar Місяць тому ⁺¹
Спасибо, в следующих видео перенастрою звук!
@TigerS-c8b Місяць тому ⁺²
по прицепу как Anything LMM там также можно загружать RAG файлы
@MrDewiar Місяць тому ⁺¹
Да, это будет появляться у многих и развиваться. Хотелось иметь свое собственное решение с прицелом на автономность. Есть еще Граф Раг, но это направление я еще изучаю... говорят, работает еще лучше.
@AllesAsia 5 днів тому ⁺¹
Здравствуйте! Благодарю за прекрасный и полезный проект ит за ваши видео. У меня такой вопрос - Какого размеры файлов можно загружать в " Векторная БД (RAG)" и какое кол-во?
@MrDewiar 2 дні тому
Здравствуйте. Пока все в альфа версии, часть сделанного нужно переделать, работает не так хорошо, как хотелось бы, работаю над этим. Сейчас для бесплатного тарифа разрашена одна база данных и в ней 2 книжки всего. На других тарифах повыше. После успешного опробирования, планирую перенести БД на отдельный сервер, и это позволит увеличить количество загружаемых данных, сейчас у меня нет возможности выделить много дискового пространства.
@qwertasdfg8828 Місяць тому ⁺²
Очень интересно. Нужно для практики. Интересует вопрос:
Можно ли поставить локальную модель на внешний USB диск? чтобы работать на слабом ноутбуке, где мало RAM для большой модели. Спасибо.
@MrDewiar 28 днів тому
Спасибо за вопрос. Вы знаете, на оперативной памяти компьютера все если и заработает, то настолько медленно, что Вы устанете ждать ответ. Нужны видеокарты. Хорошая работа получается только когда весь процесс идет на видеокарте, при этом оперативная память и мощность процессора практически не задействованы. Я собрал обычный компьютер, в который вставил мощную карту - и это заработало. Ноутбук не подойдет, к сожалению.
@qwertasdfg8828 27 днів тому ⁺¹
@@MrDewiar Thanks.
@Monritan 29 днів тому ⁺¹
Эта структура годна для эталонных систем, стабилизировать информацию можно создав единую базу в виде этих векторов сделать их эталоном и запретить изменение. И тогда не важно как много в сети динамической информации, эдентичных запросов, будет база, которая сможет усвоить любой наплыв.
@MrDewiar 28 днів тому ⁺¹
Согласен с Вами
@DiscussionClubPoltava Місяць тому ⁺²
Выходит, чтобы сделать юридического консультанта нужно законодательство залить в векторную базу данных? Но это же огромный обьем. Какое тут может быть решение?
@devolan2524 Місяць тому ⁺³
Ну залить законодательства это сугубо техническая проблема. А вот научить ИИ правильно его трактовать - будет сложнее)
Нужно будет ещё загрузить реестр судовых решений. И тонну комментариев адвокатов, чтобы ИИ было где искать похожие паттерны
@MrDewiar 28 днів тому ⁺²
Вы знаете, альтернатив пока не вижу.. приходится заливать 40 000 документов и более..
@MrDewiar 28 днів тому ⁺²
Да, все верно. Идеальное решение - RAG + файнтюнинг модели
@ВикторЛ-щ2т День тому
Я много прсмотрел подобных видео. Хорошо проиллюстрированных, с хорошо поставленным профессиональным голосом.
И все они - бесполезная саморекламная туфта для зарабатывания ютубовских лайков.
Это видео - просто шикарнейшее! Оно действительно полезное, дающее много знаний, и - честное!
Михаил, огромное спасибо вам за вашу бесценную помощь нам, пользователям ИИ.
Так держать! :-)
Upd. Интересно, какую модель видеокарты вы сами используете?
И пожелания - поменьше использования облачных ИИ, побольше локальных.
@data_borodata Місяць тому ⁺²
Очень крутая подача и спасибо за материал! Надеюсь что такого контента будет становиться всё больше в свободном доступе!
У меня вопрос. Я хочу потренироваться в создание агента, например создать аккаунт в телеге, который имитировал поведение пользователя в каком-нибудь тематическом чате.. то есть общался на равных с реальными людьми - поддерживал беседу и тп.
сначала я хочу спарсить всю информацию о участниках чата и создать на каждого из них типо "личное дело" - то есть в концепции обучения модели это должен быть наверное отдельный файл в формате json, или как вот я щас понял - маркдаун и хранить эти файлы в обычной реляционке... потом при формирование сообщения в чате передавать в промт конретную инфу о конкретном собеседнике с которым на данный момент будет идти диалог.
подскажите, насколько релевантно для данной ситуации использовать вектор в обучение? нужно понимать что каждый файл личного дела будет постоянно обновляться при диалоге с его владельцем
спасибо!
@MrDewiar 28 днів тому ⁺¹
Спасибо за хороший отзыв. Все зависит от объема. Если комментариев и профилей пользователей много, постоянно использовать их все в запросах будет дорого, быстрее всего их придется загонять в вектор. Особенно, если для вектора сделать тематические куски-файлы, где комментарии или профили будут собраны и отсортированы по каким-то общим признакам. По обновлениям файлов - для вектора это большая проблема.. трудно сказать, как реализовать Вашу идею, пока затрудняюсь ответить
@ПавелМинич Місяць тому ⁺²
Спасибо за ролик, очень ценный материал! Есть ли понимание, как можно удалить из векторной базы часть материала (ставшего неактуальным)?
@MrDewiar Місяць тому ⁺¹
Павел, здравствуйте. Я думаю, что проще всего удалить саму книгу или документ, и перезалить его же более новую и актуальную версию. Это самое простое решение
@ЕвгенийРасюк-д3и Місяць тому ⁺¹
Спасибо, буду пробовать!
@MrDewiar 28 днів тому
Спасибо Вам
@Hrabryi Місяць тому ⁺²
Спасибо за видео!
@MrDewiar Місяць тому
Спасибо за отзыв!
@Eugen01.10 Місяць тому ⁺³
а если мне надо развернуть такую систему на предприятии с международными офисами, с центральным в Германии, сколько для этого потребовалось бы времени?
И какова стоимость с 0 до полного запуска?
И можешь ли ты это сделать, если бы тебя наняли?😊
@MrDewiar Місяць тому ⁺¹
Спасибо за вопрос. Да, такое можно развернуть на любом предприятии. Нужны начальные вложения в сервер. Сервер обойдется в 7000-10000$. По времени, примерно месяц бы заняло. Сам для себя я этот путь прошел, сейчас понимаю, что запустить это могу быстро достаточно, код написан. Даже больше скажу, вижу в этом большое будущее для себя. Но прямо сейчас я еще довожу это до ума, еще много работы нужно проделать, есть некоторые вещи, которым предстоит обучить ИИ в ближайшее время. Так я пока не зарабатываю на это, прохожу этот путь на чистом энтузиазме. А в будущем думаю заниматься этим направлением.
@ДмитрийКабульников Місяць тому ⁺²
У меня следующий вопрос: Если бы в GPTs слить книжку Ремарка - результат был бы хуже? интересно сравнить было бы.
@MrDewiar Місяць тому ⁺²
Думаю, что результат был бы похожим. Я использую косинусное сходство также, как и они это делают. Единственное, я кроме векторного поиска добавил еще и полнотекстовый, чтобы увеличить вероятность правильного ответа. Так с такими гигантами сложно конкурировать, у них большие деньги и мощности. Но хорошо то, что можно обходиться без них, разворачивая свои локальные, независимые решения..
@irvicon Місяць тому ⁺²
Удаление Markdown-разметки перед векторизацией может снизить качество поиска из-за потери иерархической структуры документа и семантического веса заголовков. Возможно, стоит сохранять базовую разметку для заголовков и списков, удаляя только сложное форматирование, чтобы сохранить важную структурную информацию документа.
@MrDewiar Місяць тому
Здесь нужно тестировать. Потому, что в документации к вектору сказано, что любые символы вроде звездочек, равно, подчеркиваний - не несут семантическую значимость, и при векторизации в мерном пространстве размывают точность получаемой точки вектора. Быстрее всего нужно просто протестировать это на практике, я пока этого не делал.
@RuchejAlex 10 днів тому ⁺¹
Подскажите, в LM Studio есть загрузка файла. Как этот файл используется там?
@MrDewiar 10 днів тому
Здравствуйте. Я использую не LM Studio, а Ollama - в ней ничего такого нет, и я сам делал в итоге решение. Но это мое решение еще очень далеко от идеала, еще работаю над ним.
@cvby55ujuytfhu55ijgy Місяць тому ⁺²
Спасибо вам
@MrDewiar Місяць тому ⁺¹
И Вам спасибо большое
@Ditritus-gpt Місяць тому ⁺²
расскажи про спам защитник я там у тебя его увидел
@MrDewiar 28 днів тому ⁺¹
Спасибо за вопрос. Любой ИИ ассистент, который мы запускаем через оболочку ТЕЛЕГРАМ имеет встроенный модуль защиты от спама. При создании, просто поставьте галочку "защита от спама".
Сама защита основана на поиске стоп-слов, и последующем анализе подозрительного сообщения тремя нейросетями. Две локальные маленькие нейросети принимают решение, если решения не совпадают, сообщение передается в большую и мощную нейросеть, она принимает решение. Спам сообщение автоматически удаляется. Если спам сообщение повторяется, система умеет блокировать его отправителя.
@Ditritus-gpt 27 днів тому
@@MrDewiar а я думал можно бота написать готового или она не может так сделать
@Department_of_Defence. 9 днів тому ⁺¹
Приветствую. Какую векторную базу данных используете? Какую эмбеддинг модель?
@MrDewiar 6 днів тому
Здравствуйте. Сейчас это Postgresql + ollama.com/evilfreelancer/enbeddrus
@rapppeness Місяць тому ⁺²
Подскажите пожалуйста модель/решение, которое я смогу использовать для обучения и дальнейшего использования ИИ в одной узконаправленной профессиональной области
@MrDewiar Місяць тому ⁺¹
Здравствуйте. То решение, которое я сейчас сделал, его можно разворачивать отдельно для других задач. Я так и планирую, что часть из этих наработок будет применена для узких задач, которые нельзя было решать ранее.
@rapppeness Місяць тому
@ спасибо, решение представленное в видео ролике?
@alexakira8670-sh8kx Місяць тому ⁺¹
Это Гениально , потому что просто , потому что понятно , Поэтому это Гениально 🎉🎉🎉
@MrDewiar Місяць тому
Большое спасибо за хорошие слова!
@Sergei-o3b Місяць тому ⁺³
А какой фреймворк используется в бэкграунде? Langchain?
@MrDewiar Місяць тому ⁺¹
Сергей, здравствуйте. Не использую готовых фреймворков, решение писал на php.
@vkstudio6722 Місяць тому ⁺²
Что я из всего рассказанного понял - загружая в агента конкретную книгу, ты сужаешь мерность до минимума для поиска конкретной информации, что-то вроде фрейминга. И поэтому радикально повышается точность ответа даже с маленькой ЯМ.
На платке чатжипити можно делать то же самое, создавая своих агентов и скармливая им конкретную инфу, правильно?
Другой вопрос, насколько сильно материнская модель будет подмешивать в ответ свой бред. Но это уже, как я пониманию, зависит от умения построить точный запрос.
@MrDewiar Місяць тому ⁺¹
Вы правильно и глубоко все понимаете. Верно. Вы сами ответили на свои вопросы, и Ваши ответы абсолютно точны.
@Russkoe-slovo Місяць тому ⁺²
Когда Coze был бесплатным, я использовал в нём свою базу знаний и пока не прописал, чтобы ИИ выдавал ответ точно, как в базе, мучился с отсебятиной от него. ИИ выдаёт глупости, хотя в базе всё разжёвано и разложено по полочкам.
ИИ не забывает данные в базе, а теряется, если есть несколько определений одного понятия, написанных разными словами.
И ИИ не может разобраться с правильным ответом. То есть, если в базе данных имеется правильный ответ, то ИИ всё-равно выдаёт свой ответ, неправильный ответ из своего источника.
@MrDewiar Місяць тому ⁺²
Да, все верно, именно поэтому опыт и практика выходят на первый план.. при этом каждая модель ИИ имеет свой "характер". Можно сказать, что LLM от разных поставщиков-разработчиков, это как разные люди, со своими знаниями, характером.. и к каждой нужен свой подход. Профессия пропмт инженеров становится все более актуальной.
@ВладимирО-с9с Місяць тому ⁺²
Какие у вас параметры вашего сервера на котором крутится модель?
@MrDewiar Місяць тому ⁺¹
Владимир, здравствуйте. Стоит Nvidia на 24Гб графической памяти. Процессор и оперативная память сейчас не так важны для работы моделей LLM
@cncartlabspb Місяць тому ⁺²
Где контакты найти,как выучиться?
@MrDewiar Місяць тому ⁺⁴
Здравствуйте. Я думаю может быть снять курс обучающий, чтобы с начала подробно шаг за шагом разобрать? Как думаете?
@vkstudio6722 Місяць тому ⁺²
А можно ли создать у тебя свою базу данных, скачать её, а потом подгрузить её в чатжипити в виде файла? Жипити это поймет?
@MrDewiar Місяць тому
К сожалению так не сработает. У каждой компании, которая работает с векторными БД, свои embedded модели векторизации, и они не дружат между собой. На сегодняшний день нет единого общепринятого подхода к этому.
@romanbolgar Місяць тому ⁺²
31:42 - Ну здесь я думаю вопрос поставлю не совсем правильно. Здесь не тот принцип сложности чтобы знать. С таким же успехом можно сказать и никто не знает как пересыпается песок. Ведь никто не знает какая песчинка упадёт первой и второй и третий. Но делать из этого загадку никто не станет так же самое и здесь и так же само в мозге. В принципе сложности никакой нет Просто слишком много переменных Поэтому нельзя сказать Однозначно что получится. Но кругом Популяризаторы внедрили мысль что никто не знает как работает мозг и нейросети. Делаю из этого какую-то страшную загадку. Прослушайте хотя бы парочку популярных книг про нейросети и вы поймёте как это делается. Нужны данные на которых нейросеть будет обучаться. Есть обучение с учителем и без. Она по каким-то определенным алгоритмам тоже изученным и вполне известным Их много разных Байесовский марковский подход эволюционный и так далее в общем по этим Вполне известным и понятным математическим формулам Она и выстраивает веса. А главное что корректирует их основываясь на результатах. То есть как бы подгоняет их под результат. Например грубо говоря если Нейросеть Установила высокий приоритет писать Согласно правилам грамматики и пунктуации И других алгоритмов слово зонтик после дождя А на обучающей выборке Оказалось что есть ещё и дождевик Она изменит Циферки в нейровесах так Что будет писать ещё и его. Цифры - это приоритет ставить какое-то слово после другого. Но это я так очень сумбурно и грубо.... Повторюсь Загадки здесь никакой нету. Но из каждого утюга трубят что не знают как это работает. Не знают это те кто не хотят знать. Я почему-то думал что вы в этом разбираетесь. Ну или хотя бы спросили у самих нейросетей как они работают. Что Неужели думаете не ответит. Вот навскидку что написал Перфлексити на Мой комментарий "Объяснение работы нейросетей и настройки весов
Ваш комментарий затрагивает важные аспекты работы нейронных сетей и их обучения. Давайте разберем основные принципы, которые помогут сделать ваше объяснение более понятным и структурированным.
Принцип работы нейросетей
Нейронные сети состоят из множества взаимосвязанных узлов (нейронов), которые обрабатывают информацию. Каждый нейрон получает входные данные, применяет к ним определенные весовые коэффициенты и передает результат следующему слою нейронов. Основная задача обучения нейросети - оптимизация этих весов для минимизации ошибки между предсказанным результатом и истинным значением.
Методы обучения
Существует несколько методов обучения нейросетей, каждый из которых подходит для разных задач:
Обучение с учителем: В этом методе нейросеть обучается на размеченных данных, где известны входные данные и соответствующие им выходные значения. Например, при классификации изображений каждая картинка имеет метку (например, "кошка" или "собака"). Нейросеть корректирует свои веса на основе ошибок, которые она делает в процессе предсказания. Этот процесс включает в себя:
Прямое распространение: передача входных данных через сеть для получения предсказания.
Вычисление ошибки: сравнение предсказанного значения с истинным.
Обратное распространение: корректировка весов на основе вычисленной ошибки.
Обучение без учителя: Здесь нейросеть работает с неразмеченными данными и сама ищет закономерности. Например, она может группировать похожие объекты без предварительной информации о том, к какому классу они принадлежат.
Обучение с подкреплением: Этот метод основан на взаимодействии с окружающей средой. Нейросеть получает награды или наказания за свои действия и учится на основе этого опыта.
Коррекция весов
Коррекция весов в нейросети осуществляется через алгоритм обратного распространения ошибки. Когда нейросеть делает предсказание, она вычисляет ошибку (разницу между предсказанным и истинным значением). Затем эта ошибка используется для обновления весов:
Вычисление градиента: Определяется направление, в котором нужно изменить веса для уменьшения ошибки. Градиент указывает на то, как изменится ошибка при изменении каждого веса.
Обновление весов: На основе градиента веса корректируются. Чем больше ошибка, тем больше изменение веса. Это позволяет нейросети "учиться" на своих ошибках.
Пример: если нейросеть неправильно классифицировала изображение зонтика как дождевика, она скорректирует весовые коэффициенты так, чтобы в будущем учитывать контекст (например, слова "дождь" и "зонтик") более точно.
Заключение
Вы правы в том, что в основе работы нейросетей лежат известные математические принципы и алгоритмы. Никакой магии здесь нет - это сложная, но понятная система обработки данных. Для успешного обучения необходимы качественные данные и правильный выбор алгоритма обучения. Ваше объяснение можно дополнить примерами из реальной жизни или конкретными задачами, чтобы сделать его еще более доступным для широкой аудитории." А если это непонятно то можно упростить до школьников. Это же нейросети! А вы как сапожник без сапог
@romanbolgar Місяць тому ⁺²
П.с. Аналогично работает и мозг. Но мне не раз попадались люди, которые Мозг не изучают и В то же время почему-то считают, что они Откуда-то должны знать, как он работает. А если не знают значит это непостижимо. Причём своё незнание они распространяют и на тех, кто его изучает. Они, например могут сказать - «Вот скажи, что я сейчас думаю. Не знаешь!? Ну вот видишь значит ты не знаешь как работает мозг.» - С таким же успехом я не знаю, как работает дверной замок Хотя в одно время даже сам ключ выпиливал разбирал смотрел как там всё устроено. Есть наглядные видео Как работает дверной замок. И уж точно знают те, кто его сделал. Но человек, который изобрёл дверной замок не может и не обязан открывать все дверные замки. Однако из этого Разве следует заключать что мы не знаем, как работают дверные замки только потому, что не можем их открыть. Но это же глупость и абсурд! И всё же такая глупость повсеместно. 41:20 Ну не любую. Всё равно они занимают место. Можно из Одной шкурки сделать одну шапку, но большую. Или 10 но маленьких. Чудес не бывает. Просто иногда это целесообразно и действительно Можно так сжать. А иногда нет. Всё равно есть какие-то пределы. В целом за видео лайк. Давно мечтал сделать что-то подобное, но на своём железе. Хотя у меня оно конечно не сильное Но если бы что-то как в лоре не обучение с нуля А до обучения И обучить на чём-то действительно нужно. не на художке А на научно-популярной литературе. Научных Книгах. В том числе и может даже в первую очередь Книгах Принцип работы нейросетей. 53:31 - Ну вот это уже совсем другой разговор. Собственно, даже объяснили то же самое что и я. Здесь действительно нет ничего такого Экзистенциально невообразимого как пытаются показать многие Популисты даже не знакомые с темой. Рад что и вы это понимаете. Просто я смотрю видео и походу комментирую. А смотрю я его уже периодически пока ем 4 дня. Несмотря на то что на второй скорости. Правда уходит время на вот такие вот разговоры. 58:13 - Я когда-то в курсах в центре занятости в Украине Обучался именно по этой специальности. Но в Украине такие специалисты 300 лет никому не надо. Нужно только пушечное мясо. Тогда ещё до войны после этих курсов меня отправили на почту работать. Посылки выдавать. Вот вам и весь интеллект… Идей и мыслей много, но комментарии так слишком большой. А вообще я подобное видео и такие проекты встречаю уже не первое. Но некогда…
@MrDewiar Місяць тому ⁺²
Спасибо за отзыв. Во многом с Вами согласен
@tadarkhan Місяць тому ⁺¹
А можно ли на сайте создать базу данных, скажем, писателя на национальном редком языке?
@MrDewiar 28 днів тому ⁺¹
Да, можно. Я пробовал делать нечто подобное для Шумера. Модели могут понимать шумерский язык, и даже пытаются изобразить клинописные сообщения. Примерно год назад я пробовал это, и это работало.
@Zumma1000-jq1un 18 днів тому
@@MrDewiar Да вы просто гений! Уже в разных областях есть опыт и наработки!
@TechVanguard435 Місяць тому ⁺²
А какую векторную базу использовали?
@MrDewiar Місяць тому ⁺²
Postgresql со специальным плагином поверх БД.
@TechVanguard435 Місяць тому
@@MrDewiar Я просто пытался к своэму проекту прикрутить Pinecone или монго, там есть векторные базы, но мой проект специфичен и не виходит в чати индектос, потому использую встроеную в ChatGPT создавая под каждого человека отдельного асистента((( хоча считаю для маштабирования в дальнейшем плохой вариант
@mcseem9587 Місяць тому ⁺²
Подтормаживает видео, особенно в разрешении выше 480p
@MrDewiar Місяць тому ⁺¹
Странно, на Рутуб вообще не смог его загрузить, виснет весь сервис
@msistem2025 Місяць тому ⁺²
Лайк тут и вопрос в телеге по описанию тарифов
@MrDewiar Місяць тому
Спасибо, еще не разбирал сообщения в телеграм. Сегодня посмотрю и отвечу. Спасибо!
@alexsimon541 Місяць тому ⁺²
Какая оплата за пользование Dewiar AI?
@MrDewiar Місяць тому ⁺¹
Здравствуйте. В Девиар работает принцип "цифрового коммунизма". У каждого пользователя есть свой счет внутри, он его пополняет и пользуется решениями с ИИ.
@КонстантинС-р1г 9 днів тому ⁺¹
а чего вы от нее хотите? это дерево поиска, в ответ на эмоцинально окрашенный вопрос он с него съезжает. Кроме того, если вы спрашиваете что-то абстрактное оно натурально уводит диалог в сторону.
@MrDewiar 6 днів тому
Да, это самая большая проблема сейчас. Есть идея, как решить.. но еще буду проверять идею
@maxtkachev330 Місяць тому ⁺¹
Очень круто, только не работает, ни сама генерация, ни чат техподдержки, даже после оплаты.
@MrDewiar Місяць тому ⁺¹
Все подправили, попробуйте
@Advokat7V Місяць тому ⁺⁴
Сам разраб, весь материал знаю, но интересно послушать, мало достойной инфы, а тем более на русском,
@MrDewiar Місяць тому
Коллега, благодарю за хорошие слова.
@anatolykosychenko8038 Місяць тому ⁺¹
Shalom
@MrDewiar Місяць тому ⁺¹
Привет =)
@anatolykosychenko8038 Місяць тому ⁺¹
👋🤜🤛🤝👏💥
@MrDewiar Місяць тому
Благодарю
@АндрейИндыков 9 днів тому
RAG - хорошо, а может память подключить? или на MAKE костылить? ua-cam.com/video/9HWsEDdgVwU/v-deo.html
@MrDewiar 6 днів тому
Андрей, спасибо. Что Вы имеете ввиду под памятью? РАГ именно эту задачу и должен выполнять + кратковременная память в виде структурированного маркдаун промпта и истории предыдущего разговора. У MAKE я ничего особенного не заметил, наоборот, очень неэффективные алгоритмя, приводящие к низким скоростям + большой скорости сжигания токенов
@MrDewiar 6 днів тому ⁺¹
Запоминание разговора присутствует у всех моих ассистентов по дефолту. В Вашем видео решают несуществующую задачу ужасающим методом)
@VasylynaSkyba Місяць тому ⁺¹
КАК внутри ИИ появляется векторы вероятностного подбора ua-cam.com/video/USOjbBuyvq0/v-deo.htmlsi=_XW7FqyfjP58Oz3e
@MrDewiar Місяць тому ⁺¹
Большое спасибо! Полезный контент!
@KurskikhA Місяць тому
Ну такое .. я ожила от ролика что будет рассказ про тот как был реализован сам РАГ, что за база векторная , какие настройки инжексаци , модель емьендинга , метаданные какие пишутся .. а так вода на воде , мало полезной информации, тупо реклама сервиса очередного который никому не всрался..нормальным компании проще самим купить железо и найти специалиста который всю эту обвязку реализует..на дистанции дешевле и безопаснее с точки зрения хранения данных у себя
@MrDewiar 28 днів тому ⁺²
Спасибо за комментарий. Не буду спорить с Вашим мнением. Лично мне, если бы я знал то, чем делюсь в этом видео, на начальном этапе сильно сэкономило бы время. Зная общие принципы техническая реализация не занимает много времени, вариаций множество. Который раз замечаю, чем больше ошибок в комментарии, тем больше человек о себе мнит)) корреляция железная
@Zumma1000-jq1un 18 днів тому ⁺¹
@@MrDewiar Браво. Точный и красивый ответ задирашкам из кулинарного техникума.
@alexandrd7428 17 днів тому ⁺¹
Є така штука я цикли воно може вирішити довжину
@MrDewiar 17 днів тому
это да

Наступне

Автоматичне відтворення

Локальный ИИ, который заставит тебя думать! Dewiar GroX!