Как LLM учится рисовать через код: новый взгляд на языковые модели

Михаил Исаев

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 3 лют 2025

КОМЕНТАРІ • 98

@oliverhann 4 місяці тому ⁺³
Очень крутая идея и подход!
@MrDewiar 4 місяці тому ⁺¹
Спасибо!
@АндресДеФонсека 4 місяці тому ⁺⁴
Идея гениальна! ) Это гораздо глубже, чем может показаться изначально! Поздравляю!
@MrDewiar 4 місяці тому ⁺¹
Спасибо Вам за высокую оценку
@kkellaxx 4 місяці тому ⁺¹
Даааа ето же жесть, етому его никто не учил, реально САМА. Я на Си игрушки делал и знаю что ето не так просто как кажется. Ето X, Y + RGB. Ей надо понять что ето дожно быть круглым и подставить фомулу круга потом его закрасить. А как понять на что лицо пожоже, если она разберется что на круг то ето прям крутая нейронка, а ещееее и на овал и формулу подставит и все правильно соединит... Гениально, ето пожоже на самообучение. Кто тему не понял, учите матчасть
@MrDewiar 4 місяці тому
@@kkellaxx благодарю за экспертный отзыв 👍
@AlexeiRybalkin 5 місяців тому ⁺⁴
Гениально, клубокое виденье и нетривиальный подход. Михаил спасибо за знания.
@MrDewiar 4 місяці тому ⁺¹
@@AlexeiRybalkin спасибо за отзыв!
@Жизньврассказах-ъ8ш 4 місяці тому ⁺²
Это похоже на маленького ребенка, который начинает рисовать. В будущем я думаю, благодаря Вам возможно будет и создавать тексты и картинки в одном окне, так сказать. Михаил, благодарю!
@MrDewiar 4 місяці тому ⁺¹
Будем развивать! Спасибо Вам!
@nataliya6429 25 днів тому ⁺¹
Спасибо! Прикольно! Генерация монстров улыбнула 😀Интересно, что все рисунки похожи на аппликации из бумаги, как будто одни детали наложены на другие... Смотрела с удовольствием)
@MrDewiar 21 день тому
Так и есть)) Это рисование на холсте работает методом генерации простых геометрических фигур=) Иногда это выглядит очень мило)))
@daddaylenny 4 місяці тому ⁺⁴
Михаил Вас можно даже поздравить с рождением творца,в этой модели просматривается будущее.Человек рассказывает о своих воспоминаниях и тут же получает их в виде образов...благодарю 🎉
@MrDewiar 4 місяці тому ⁺³
@@daddaylenny Благодарю. Ждем Gpt5, посмотрим на что она будет способна в рамках этого решения 🤝
@Aeternus-Red-Rex 5 місяців тому ⁺⁵
Идея лучшая из всех что я видел за 2 года изучение возможностей нейронок
@MrDewiar 5 місяців тому ⁺²
Вот такой комментарий совсем не ожидал увидеть! Благодарю!
@A.Bedulev 4 місяці тому ⁺²
Очень интересная мысль и тестирование.
@MrDewiar 4 місяці тому
Спасибо большое. Сегодня сделал еще и в виде арены dewiar.com/dew_ai/arena-graphics
Можно будет сравнивать модели между собой одновременно. Со дня на день станет доступна новая GPT-o1, сразу посмотрим что у нее с "воображением"
@valerimihailov4819 4 місяці тому ⁺²
Интересное решение.
На самом деле, таким образом проверять мировоззрение и логику нейронок очень интересно.
Я похожим образом заставлял нейронки рисовать, но давал команду,- нарисуй собаку с помощью текстовых символов.
Получались забавные изображения. А иногда билиберда.
Мне такой вариант очень понравился, а моя дочка думаю будет в восторге! 😊
@MrDewiar 4 місяці тому
Валерий, благодарю!
@sergeykondrashov4188 4 місяці тому ⁺²
Классно! Можно визуализировать мат. графы, электрические схемы и т. п..
@MrDewiar 4 місяці тому ⁺¹
@@sergeykondrashov4188 нужно пробовать, да
@oksanastrelnikova6970 4 місяці тому ⁺²
Или рисовать архитектурные планы по описанию. Например: создай оптимальную внутреннюю планировку первого этажа 2х этажной виллы, включающую прихожую, гостиную, кухню, спальню и туалет в пространстве 5 х 12 м. Переведи в формат .dwg (или .rvt). Было бы ну просто подарком для архитекторов, рабоющих в архикаде или ревите
@MrDewiar 4 місяці тому ⁺¹
@@oksanastrelnikova6970 это более тонкая задача. Быстрее всего ее нужно решать другими инструментами.. например, если бы такое уже работало в браузере как программа.. осталось бы добавить управление через ИИ
@ВалентинВоробей-ц2х 4 місяці тому ⁺¹
Круто! Очень интересный подход вы разработали! По такой системе можно воспроизводить и музыку, и интонацию ответов ии, и даже осознанные движения и мимику, если конвертировать язык запрос в робота. Ой, кажется только что мы подошли еще на один шаг ближе к скорому киберпанку😅
@MrDewiar 4 місяці тому ⁺¹
Валентин, да, интересное движение мысли у Вас.. будем развивать!
@расслабон 5 місяців тому ⁺¹
Михаил- Вы просто монстр!) 👏👏👏
@MrDewiar 4 місяці тому
@@расслабон благодарю 🤝
@artdiksonSTAR 4 місяці тому ⁺¹
Крутой тест. Это я вам подтверждаю как художник.
@MrDewiar 4 місяці тому
Благодарю! Стоит ли это сделать теперь в виде "арены нейросетей" - чтобы можно было одновременно запустить несколько нейронок, и чтобы каждая из них нарисовала свое видение на наш запрос в отдельном окошке на единой страничке?
@artdiksonSTAR 4 місяці тому ⁺¹
@@MrDewiar было бы неплохо дать нейронке дорисовывать детали и давать ей изображение что бы она пыталась срисовать. Не перерисовывать весь лист а дорисовывать детальки и менять. Тогда она могла бы создавать векторные файлы. Наверно)))). Это я так. Теоретизирую)))). А если ввести режим одновременного рисунка в соседних блоках по одному промпту - это был бы шикарный тест.
@MrDewiar 4 місяці тому ⁺¹
@@artdiksonSTAR Благодарю. А по дорисовке, я сделаю отдельное решение. Готовлю его 👍
@jonathanloder2789 4 місяці тому ⁺¹
Клод по такому принципу может генерировать SVG-изображения. Фактически Вы добавили такую возможность на любую языковую модель. Получилось здорово! Думаю, что здесь большой потенциал!
@MrDewiar 4 місяці тому
Спасибо. SVG я тоже пробовал, но тяжеловато дается LLM, иногда так долго думает, что невозмоно работать. Может быть я что-то не так делал, но пока с SVG не выходит сделать решения
@РоманКудрявский 4 місяці тому ⁺¹
@@MrDewiar GPT-4, GPT-4o, Claude 3.5 Sonet, Llama 3.1 свободно генерят svg. На нормальном железе никаких проблем.
@MrDewiar 4 місяці тому ⁺¹
@@РоманКудрявский Да, делают.. я пробовал. Но даже таких простых изображений как в этом моем решении я не смог получить на SVG, хотя сам очень уважаю этот формат за надежность и простоту
@whoareyouqqq 4 місяці тому ⁺¹
Очень креативная идея, спасибо!
@MrDewiar 4 місяці тому
Спасибо!
@ShulmanAlex 4 місяці тому ⁺¹
Обалдеть! Подход бомба
@MrDewiar 4 місяці тому
Спасибо, будем развивать!
@anatolykosychenko8038 4 місяці тому ⁺¹
Hi Ya & best wishes. SuperB! Thanks for work. Be Happy. Sevastopol/Crimea.
@MrDewiar 4 місяці тому
Спасибо Вам!
@monsier_chess 4 місяці тому ⁺¹
Классная идея! Нечто похожее приходило, так как сам тесно использвал формат SVG, с помощью которого сам что-то простенькое составлял кодом.
Не знал кстати что в целом языковые модели справляются с такой задачей лучше чем я мог бы ожидать.
По поводу идеи для уроков, мне кажется стоит использовать некий комбинированный подход: скорее не генерировать картинки, а подбирать их из интернета, заранее сгенерированной базы или чего-то подобного. Задачей ИИ скорее будет анимировать имеющиеся картинки.
@MrDewiar 4 місяці тому
Да, я такой подход тоже продумывал. Как вариант, можно использовать CSS шрифты, есть иконочные шрифты - они векторные, на SVG построены. Можно их использовать. Но получится такой вид, как бы инфографикой-иконками.
@VasylynaSkyba 5 місяців тому ⁺¹
Благодарю, было очень интересно
@MrDewiar 4 місяці тому
@@VasylynaSkyba спасибо Вам за отзыв
@VasylynaSkyba 4 місяці тому
@@MrDewiar ua-cam.com/video/b-PxSLQoU-I/v-deo.htmlsi=L2A1l8KW5PVxpuEH оох, я не вставила ссылку)
@YakovenkoPsy 5 місяців тому ⁺²
Интересная идея
@MrDewiar 5 місяців тому
Спасибо
@gadellatypov63 13 днів тому
Перспективная идея для генерации геометрически точных изображений. Можно научить генерировать svg, чертежи
@romanbolgar 4 місяці тому ⁺¹
Согласен необычно интересно. Может в дальнейшем будут какие-то более прикладные применения. Хотя действительно я бы не стал на этом заострять внимание. 20:02 - Интересно что они себя позиционируют как антропоморфных существ. Рисуют лицо глаза. Я почему-то думал они начнут рисовать связи Сложные алгоритмы компьютеры. Ещё Интересно насколько точно . Насколько известно даже у самых продвинутых нейросетей почему-то была проблема с рисованием пальцев. Почему-то для них так сложно было понять что пальцев на одной руке должно быть пять. Может здесь рисовали бы лучше потому что логика работает То есть другой принцип. Я пробовал даже сложные модели В основном выдают какой-то бред когда я им полностью описываю Как должна выглядеть структура молекулы воды. Уже молчу про более сложные молекулы. Может как-то двигаться в этом направлении... То есть делать упор на точность понимания. И эти две технологии возможно когда-то друг друга дополнят. Но как всегда некогда расписывать
@MrDewiar 4 місяці тому ⁺²
На самом деле я сам думаю, что нам хватило бы и трех пальцев)))) В остальном, да, мне не приходили такие мысли, Вы тонко подметили особенности в передаче этих моментов
@user-of-world 4 місяці тому ⁺¹
У блендера вроде есть api. Идея использовать генерацию кода для рисования как бенчмарк креативности это огонь!
@MrDewiar 4 місяці тому
Если у блендера есть АПИ, это будет очень здорово.. я изучу этот момент.. если это есть, обязательно сделаю решение на его основе!
@dolotube 5 місяців тому ⁺¹
Как-то я мучал Клода на тему "обсуждаем идею иллюстрации для статьи". И когда я сказал "что-то не представляю, как это уместить", Клод мне выдал рисунок в HTML+CSS, где расположил основные элементы - вот тут гора, вот тут человечек, вот тут кнопка, символизирующая то-то. Это было очень мило. Тем более, что у Клода уже были реализованы артефакты.
Основная проблема идеи в том, что LLM обучались не многофакторно, а только в L-измерении. Они понятия не имеют, что такое "верх" или "лево", как визуально "внутри" отличается от "снаружи", не отличат "круг" от "квадрата". Они видят разницу по использованию слов в том или ином контексте, но не увязывают это с визуальным измерением. У языковых моделей специализация другая. И поэтому упомянутый выше рисунок от Клода был лишен смысла.
P.S. 21:06 Согласен с выводом "маленькое чудо".
@MrDewiar 4 місяці тому
@@dolotube интересно это наблюдать, и иногда это даже трогает, когда у LLM получается удачно и мило
@vitall789 5 місяців тому ⁺²
Приберегите идею, для большее мощного граф. инструментария + будущей мощной модели, это действительно выход из ресурсного капкана!
@MrDewiar 4 місяці тому
@@vitall789 согласен с Вами
@Xaero546 2 місяці тому ⁺¹
Это ответ на мысли многих философов. Можно ли через текст описать окружающий мир не видя его. При том, что значения слов определяются через друг друга.
@MrDewiar 2 місяці тому
Проводя такие эксперименты сам открываю для себя новые грани понимания многих вещей. Этим данное направление и интересно.
@Neurodelok 4 місяці тому ⁺²
Я так год назад анимацию заката делал
и снеговик и снег идёт (это другая)
@Neurodelok 4 місяці тому
Мало кто оценил))😊
@MrDewiar 4 місяці тому
@@Neurodelok оно не слишком впечатляюще смотрится, больше как детские рисунки.. людям подавай 3д графику)))
@Neurodelok 4 місяці тому ⁺¹
Вчера заставил пиксельарт рисовать 20×20.. может скину если реализую "коллекцию" навесив атрибуты нейро.
@Neurodelok 4 місяці тому ⁺¹
А так да, анимаци заката в стиле word office.. )
@MrDewiar 4 місяці тому
@@Neurodelok да, было бы интересно глянуть
@my-rules 5 місяців тому ⁺²
класс
@MrDewiar 5 місяців тому
Спасибо!
@Alter-Ego-Persona 5 місяців тому
@@MrDewiar Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок.
Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же.
Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому
@whoareyouqqq 4 місяці тому ⁺¹
Не надо забывать что языковую модель можно отдельно тюнить работать с канвасом, если бы специфических данных в корпусе не было совсем то никакая модель ничего толкового не нарисовала бы. И это хорошо видно на локальных моделях
@MrDewiar 4 місяці тому
Я попробую прокачать свою локальную модель.. в ней 9 миллиардов параметров, и у нее пока очень плохо получается.. посмотрю, удастся ли улучшить это отдельными инструкциями
@МихаилБелый-р9б 5 місяців тому ⁺²
"Жаль, что у Вас ограниченные возможности. Таким, как Вы, нужно давать неограниченные ресурсы и команду для создания шедевров."
@MrDewiar 4 місяці тому
Спасибо! Постепенно добавляются люди из разных точек нашей планеты. Есть ощущение, что скоро может появиться больше возможностей.. удивительно, что это постепенно вырастает в более серьезны проект
@sergeykondrashov4188 4 місяці тому ⁺¹
Попробовал визуализатор, велосипед абстрактный получился. А вот с визуализацией задачи Эйлера о семи мостах Кёнигсберга не справился. А ментальная карта с этой задачей получилась забавной и поучительной)
@MrDewiar 4 місяці тому
Креативно))
@d_meroving 4 місяці тому ⁺¹
Вообще с GPT обретают вторую жизнь многие ранее странные доменно-специфичные языки, такие как PostScript или Latex
@MrDewiar 4 місяці тому
Да, теперь многое зависит просто от креативности.. да и маркдаун, формат разметки благодаря LLM получил вторую жизнь..
@МаксимМедведев-ф9м 4 місяці тому ⁺¹
хммм а если мы готовую картинку загрузим - сможем с ней работать ?
@MrDewiar 4 місяці тому
Быстрее всего он не сможет.. хотя... нужно будет попробовать... (идея для следующего видео)))))
@АлексКорсун-з6г 5 місяців тому ⁺¹
Привет, идея интересная. насколько ее можно применить к черчению ?
@MrDewiar 4 місяці тому
@@АлексКорсун-з6г можно пробовать, но быстрее всего будут неточности, это будет неприемлемо для точной дисциплины
@HEDELKA 5 місяців тому ⁺¹
Вы не пробовали просить пиксели? Типо если получить все пиксели и через код преобразовать их в фото, то может быть будет возможность получать те же самые изображения, тут будет большой + можно писать полноценные видео, так как у нас будет доступ к предыдущим ответам прекрепляя их мы будем вести целые цепочки
@MrDewiar 5 місяців тому ⁺¹
Я размышлял, их очень много, будет идти много токенов.. как только увеличиваем количество элементов на выдаче от ИИ, он начинает сильно медленно выдавать результат, и много путается
@Alter-Ego-Persona 5 місяців тому ⁺¹
Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок.
Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же.
Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому
@MrDewiar 5 місяців тому
Благодарю! Приятно видеть своих людей. Мой телеграм @isaev_mp Буду рад связи
@VasylynaSkyba 5 місяців тому ⁺¹
Миша, сохраните это видео. Это БОЛЬШАЯ идея А ещё лучше удалите, у вас украдут идею вот о проблемах данных для обучения. Они НЕ ЗНАЮТ к а к ещё учить ИИ
@MrDewiar 4 місяці тому
Сегодня пришла мысль разделить эту программу на много экранов, и сделать одновременное рисование любой задачи сразу несколькими моделями ИИ.. мы получим визуальный тест "воображения" .. это может быть эффективнее, чем различные сложные тесты, которые всегда лучше у производителей моделей, но которые мы никак не можем проверить
@VasylynaSkyba 4 місяці тому ⁺¹
@@MrDewiar а если наоборот усложнять задачи на одной модели и потом посмотреть научивается ли она. Но вообще и это ерунда. Как эту идею развить в алгоритм обучения. Ну вот трансформер, это по сути алгоритм в алгоритме, и то какой прорыв. Ведь если текстовую модель учить рисовать, то это уже не работа с подборов весов, а качественное развитие связей. И ведь она(модель) вам ответила, она нарисовала, ну как на меня, это охренительно само по себе. Если скажем пойти от обратного, к а к у ю задачу можно дать модели, которая генерирует картинки? Что и как задать этой модели?
@MrDewiar 4 місяці тому
@@VasylynaSkyba Да, такие подходы позволяют выявлять новые грани моделей.. нужно подумать над продолжением, куда дальше это можно будет двинуть
@vitall789 5 місяців тому ⁺¹
По этому даже можно определить политический предпочтения модели - нарисовал себя негром!
@MrDewiar 4 місяці тому ⁺¹
@@vitall789 я только сейчас заметил.. точно..GPT4 - видит себя темнокожим)))
@gadellatypov63 13 днів тому
Запрос на небо и землю на русском языке, значит результат всё серое и мрачное)
@Сергей-р1ю1ь 5 місяців тому ⁺¹
Бесполезная штука, если ты ни разу не дергал нейронки! в будущем да будет крут о если мощностя будут
@MrDewiar 5 місяців тому ⁺²
Сейчас это только вариация на тему.. и альтернатива проверки мощности LLM на простом холсте. Могу добавить нейросеть от Яндекса.. сразу увидите качество (достаточно низкое). Можно и другие модели добавлять.. лучше ведь один раз увидеть, чем слышать хвалебные слова от разработчиков конкретной нейронки
@2009Spread 5 місяців тому ⁺¹
Категорически не согласен. Тут речь идет о том что языковые модели реально могут воображать так как мы это себе представляем, а не какой-то рандомный мусор на выходе. У людей спошь и рядом такая проблема ты ему про одно говоришь а он вообразил вообще другое.
@Trendish_channel Місяць тому ⁺¹
да, но также это можно было бы использовать в генерации каких либо звуков вместо того, чтобы ползать с микрофоном за $2 000 и потом еще и обрабатывать
@MrDewiar Місяць тому
Вообще использовать языковые модели для других, совершенно не типичных, задач - интересный эксперимент. По звукам, я еще не думал над этим

Наступне

Автоматичне відтворення

Введение в большие языковые модели (LLM)