Как LLM учится рисовать через код: новый взгляд на языковые модели

Поділитися
Вставка
  • Опубліковано 3 лют 2025

КОМЕНТАРІ • 98

  • @oliverhann
    @oliverhann 4 місяці тому +3

    Очень крутая идея и подход!

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      Спасибо!

  • @АндресДеФонсека
    @АндресДеФонсека 4 місяці тому +4

    Идея гениальна! ) Это гораздо глубже, чем может показаться изначально! Поздравляю!

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      Спасибо Вам за высокую оценку

    • @kkellaxx
      @kkellaxx 4 місяці тому +1

      Даааа ето же жесть, етому его никто не учил, реально САМА. Я на Си игрушки делал и знаю что ето не так просто как кажется. Ето X, Y + RGB. Ей надо понять что ето дожно быть круглым и подставить фомулу круга потом его закрасить. А как понять на что лицо пожоже, если она разберется что на круг то ето прям крутая нейронка, а ещееее и на овал и формулу подставит и все правильно соединит... Гениально, ето пожоже на самообучение. Кто тему не понял, учите матчасть

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@kkellaxx благодарю за экспертный отзыв 👍

  • @AlexeiRybalkin
    @AlexeiRybalkin 5 місяців тому +4

    Гениально, клубокое виденье и нетривиальный подход. Михаил спасибо за знания.

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      @@AlexeiRybalkin спасибо за отзыв!

  • @Жизньврассказах-ъ8ш
    @Жизньврассказах-ъ8ш 4 місяці тому +2

    Это похоже на маленького ребенка, который начинает рисовать. В будущем я думаю, благодаря Вам возможно будет и создавать тексты и картинки в одном окне, так сказать. Михаил, благодарю!

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      Будем развивать! Спасибо Вам!

  • @nataliya6429
    @nataliya6429 25 днів тому +1

    Спасибо! Прикольно! Генерация монстров улыбнула 😀Интересно, что все рисунки похожи на аппликации из бумаги, как будто одни детали наложены на другие... Смотрела с удовольствием)

    • @MrDewiar
      @MrDewiar  21 день тому

      Так и есть)) Это рисование на холсте работает методом генерации простых геометрических фигур=) Иногда это выглядит очень мило)))

  • @daddaylenny
    @daddaylenny 4 місяці тому +4

    Михаил Вас можно даже поздравить с рождением творца,в этой модели просматривается будущее.Человек рассказывает о своих воспоминаниях и тут же получает их в виде образов...благодарю 🎉

    • @MrDewiar
      @MrDewiar  4 місяці тому +3

      @@daddaylenny Благодарю. Ждем Gpt5, посмотрим на что она будет способна в рамках этого решения 🤝

  • @Aeternus-Red-Rex
    @Aeternus-Red-Rex 5 місяців тому +5

    Идея лучшая из всех что я видел за 2 года изучение возможностей нейронок

    • @MrDewiar
      @MrDewiar  5 місяців тому +2

      Вот такой комментарий совсем не ожидал увидеть! Благодарю!

  • @A.Bedulev
    @A.Bedulev 4 місяці тому +2

    Очень интересная мысль и тестирование.

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Спасибо большое. Сегодня сделал еще и в виде арены dewiar.com/dew_ai/arena-graphics
      Можно будет сравнивать модели между собой одновременно. Со дня на день станет доступна новая GPT-o1, сразу посмотрим что у нее с "воображением"

  • @valerimihailov4819
    @valerimihailov4819 4 місяці тому +2

    Интересное решение.
    На самом деле, таким образом проверять мировоззрение и логику нейронок очень интересно.
    Я похожим образом заставлял нейронки рисовать, но давал команду,- нарисуй собаку с помощью текстовых символов.
    Получались забавные изображения. А иногда билиберда.
    Мне такой вариант очень понравился, а моя дочка думаю будет в восторге! 😊

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Валерий, благодарю!

  • @sergeykondrashov4188
    @sergeykondrashov4188 4 місяці тому +2

    Классно! Можно визуализировать мат. графы, электрические схемы и т. п..

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      @@sergeykondrashov4188 нужно пробовать, да

    • @oksanastrelnikova6970
      @oksanastrelnikova6970 4 місяці тому +2

      Или рисовать архитектурные планы по описанию. Например: создай оптимальную внутреннюю планировку первого этажа 2х этажной виллы, включающую прихожую, гостиную, кухню, спальню и туалет в пространстве 5 х 12 м. Переведи в формат .dwg (или .rvt). Было бы ну просто подарком для архитекторов, рабоющих в архикаде или ревите

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      @@oksanastrelnikova6970 это более тонкая задача. Быстрее всего ее нужно решать другими инструментами.. например, если бы такое уже работало в браузере как программа.. осталось бы добавить управление через ИИ

  • @ВалентинВоробей-ц2х
    @ВалентинВоробей-ц2х 4 місяці тому +1

    Круто! Очень интересный подход вы разработали! По такой системе можно воспроизводить и музыку, и интонацию ответов ии, и даже осознанные движения и мимику, если конвертировать язык запрос в робота. Ой, кажется только что мы подошли еще на один шаг ближе к скорому киберпанку😅

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      Валентин, да, интересное движение мысли у Вас.. будем развивать!

  • @расслабон
    @расслабон 5 місяців тому +1

    Михаил- Вы просто монстр!) 👏👏👏

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@расслабон благодарю 🤝

  • @artdiksonSTAR
    @artdiksonSTAR 4 місяці тому +1

    Крутой тест. Это я вам подтверждаю как художник.

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Благодарю! Стоит ли это сделать теперь в виде "арены нейросетей" - чтобы можно было одновременно запустить несколько нейронок, и чтобы каждая из них нарисовала свое видение на наш запрос в отдельном окошке на единой страничке?

    • @artdiksonSTAR
      @artdiksonSTAR 4 місяці тому +1

      @@MrDewiar было бы неплохо дать нейронке дорисовывать детали и давать ей изображение что бы она пыталась срисовать. Не перерисовывать весь лист а дорисовывать детальки и менять. Тогда она могла бы создавать векторные файлы. Наверно)))). Это я так. Теоретизирую)))). А если ввести режим одновременного рисунка в соседних блоках по одному промпту - это был бы шикарный тест.

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      @@artdiksonSTAR Благодарю. А по дорисовке, я сделаю отдельное решение. Готовлю его 👍

  • @jonathanloder2789
    @jonathanloder2789 4 місяці тому +1

    Клод по такому принципу может генерировать SVG-изображения. Фактически Вы добавили такую возможность на любую языковую модель. Получилось здорово! Думаю, что здесь большой потенциал!

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Спасибо. SVG я тоже пробовал, но тяжеловато дается LLM, иногда так долго думает, что невозмоно работать. Может быть я что-то не так делал, но пока с SVG не выходит сделать решения

    • @РоманКудрявский
      @РоманКудрявский 4 місяці тому +1

      @@MrDewiar GPT-4, GPT-4o, Claude 3.5 Sonet, Llama 3.1 свободно генерят svg. На нормальном железе никаких проблем.

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      @@РоманКудрявский Да, делают.. я пробовал. Но даже таких простых изображений как в этом моем решении я не смог получить на SVG, хотя сам очень уважаю этот формат за надежность и простоту

  • @whoareyouqqq
    @whoareyouqqq 4 місяці тому +1

    Очень креативная идея, спасибо!

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Спасибо!

  • @ShulmanAlex
    @ShulmanAlex 4 місяці тому +1

    Обалдеть! Подход бомба

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Спасибо, будем развивать!

  • @anatolykosychenko8038
    @anatolykosychenko8038 4 місяці тому +1

    Hi Ya & best wishes. SuperB! Thanks for work. Be Happy. Sevastopol/Crimea.

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Спасибо Вам!

  • @monsier_chess
    @monsier_chess 4 місяці тому +1

    Классная идея! Нечто похожее приходило, так как сам тесно использвал формат SVG, с помощью которого сам что-то простенькое составлял кодом.
    Не знал кстати что в целом языковые модели справляются с такой задачей лучше чем я мог бы ожидать.
    По поводу идеи для уроков, мне кажется стоит использовать некий комбинированный подход: скорее не генерировать картинки, а подбирать их из интернета, заранее сгенерированной базы или чего-то подобного. Задачей ИИ скорее будет анимировать имеющиеся картинки.

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Да, я такой подход тоже продумывал. Как вариант, можно использовать CSS шрифты, есть иконочные шрифты - они векторные, на SVG построены. Можно их использовать. Но получится такой вид, как бы инфографикой-иконками.

  • @VasylynaSkyba
    @VasylynaSkyba 5 місяців тому +1

    Благодарю, было очень интересно

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@VasylynaSkyba спасибо Вам за отзыв

    • @VasylynaSkyba
      @VasylynaSkyba 4 місяці тому

      @@MrDewiar ua-cam.com/video/b-PxSLQoU-I/v-deo.htmlsi=L2A1l8KW5PVxpuEH оох, я не вставила ссылку)

  • @YakovenkoPsy
    @YakovenkoPsy 5 місяців тому +2

    Интересная идея

    • @MrDewiar
      @MrDewiar  5 місяців тому

      Спасибо

  • @gadellatypov63
    @gadellatypov63 13 днів тому

    Перспективная идея для генерации геометрически точных изображений. Можно научить генерировать svg, чертежи

  • @romanbolgar
    @romanbolgar 4 місяці тому +1

    Согласен необычно интересно. Может в дальнейшем будут какие-то более прикладные применения. Хотя действительно я бы не стал на этом заострять внимание. 20:02 - Интересно что они себя позиционируют как антропоморфных существ. Рисуют лицо глаза. Я почему-то думал они начнут рисовать связи Сложные алгоритмы компьютеры. Ещё Интересно насколько точно . Насколько известно даже у самых продвинутых нейросетей почему-то была проблема с рисованием пальцев. Почему-то для них так сложно было понять что пальцев на одной руке должно быть пять. Может здесь рисовали бы лучше потому что логика работает То есть другой принцип. Я пробовал даже сложные модели В основном выдают какой-то бред когда я им полностью описываю Как должна выглядеть структура молекулы воды. Уже молчу про более сложные молекулы. Может как-то двигаться в этом направлении... То есть делать упор на точность понимания. И эти две технологии возможно когда-то друг друга дополнят. Но как всегда некогда расписывать

    • @MrDewiar
      @MrDewiar  4 місяці тому +2

      На самом деле я сам думаю, что нам хватило бы и трех пальцев)))) В остальном, да, мне не приходили такие мысли, Вы тонко подметили особенности в передаче этих моментов

  • @user-of-world
    @user-of-world 4 місяці тому +1

    У блендера вроде есть api. Идея использовать генерацию кода для рисования как бенчмарк креативности это огонь!

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Если у блендера есть АПИ, это будет очень здорово.. я изучу этот момент.. если это есть, обязательно сделаю решение на его основе!

  • @dolotube
    @dolotube 5 місяців тому +1

    Как-то я мучал Клода на тему "обсуждаем идею иллюстрации для статьи". И когда я сказал "что-то не представляю, как это уместить", Клод мне выдал рисунок в HTML+CSS, где расположил основные элементы - вот тут гора, вот тут человечек, вот тут кнопка, символизирующая то-то. Это было очень мило. Тем более, что у Клода уже были реализованы артефакты.
    Основная проблема идеи в том, что LLM обучались не многофакторно, а только в L-измерении. Они понятия не имеют, что такое "верх" или "лево", как визуально "внутри" отличается от "снаружи", не отличат "круг" от "квадрата". Они видят разницу по использованию слов в том или ином контексте, но не увязывают это с визуальным измерением. У языковых моделей специализация другая. И поэтому упомянутый выше рисунок от Клода был лишен смысла.
    P.S. 21:06 Согласен с выводом "маленькое чудо".

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@dolotube интересно это наблюдать, и иногда это даже трогает, когда у LLM получается удачно и мило

  • @vitall789
    @vitall789 5 місяців тому +2

    Приберегите идею, для большее мощного граф. инструментария + будущей мощной модели, это действительно выход из ресурсного капкана!

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@vitall789 согласен с Вами

  • @Xaero546
    @Xaero546 2 місяці тому +1

    Это ответ на мысли многих философов. Можно ли через текст описать окружающий мир не видя его. При том, что значения слов определяются через друг друга.

    • @MrDewiar
      @MrDewiar  2 місяці тому

      Проводя такие эксперименты сам открываю для себя новые грани понимания многих вещей. Этим данное направление и интересно.

  • @Neurodelok
    @Neurodelok 4 місяці тому +2

    Я так год назад анимацию заката делал
    и снеговик и снег идёт (это другая)

    • @Neurodelok
      @Neurodelok 4 місяці тому

      Мало кто оценил))😊

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@Neurodelok оно не слишком впечатляюще смотрится, больше как детские рисунки.. людям подавай 3д графику)))

    • @Neurodelok
      @Neurodelok 4 місяці тому +1

      Вчера заставил пиксельарт рисовать 20×20.. может скину если реализую "коллекцию" навесив атрибуты нейро.

    • @Neurodelok
      @Neurodelok 4 місяці тому +1

      А так да, анимаци заката в стиле word office.. )

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@Neurodelok да, было бы интересно глянуть

  • @my-rules
    @my-rules 5 місяців тому +2

    класс

    • @MrDewiar
      @MrDewiar  5 місяців тому

      Спасибо!

    • @Alter-Ego-Persona
      @Alter-Ego-Persona 5 місяців тому

      @@MrDewiar Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок.
      Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же.
      Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому

  • @whoareyouqqq
    @whoareyouqqq 4 місяці тому +1

    Не надо забывать что языковую модель можно отдельно тюнить работать с канвасом, если бы специфических данных в корпусе не было совсем то никакая модель ничего толкового не нарисовала бы. И это хорошо видно на локальных моделях

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Я попробую прокачать свою локальную модель.. в ней 9 миллиардов параметров, и у нее пока очень плохо получается.. посмотрю, удастся ли улучшить это отдельными инструкциями

  • @МихаилБелый-р9б
    @МихаилБелый-р9б 5 місяців тому +2

    "Жаль, что у Вас ограниченные возможности. Таким, как Вы, нужно давать неограниченные ресурсы и команду для создания шедевров."

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Спасибо! Постепенно добавляются люди из разных точек нашей планеты. Есть ощущение, что скоро может появиться больше возможностей.. удивительно, что это постепенно вырастает в более серьезны проект

  • @sergeykondrashov4188
    @sergeykondrashov4188 4 місяці тому +1

    Попробовал визуализатор, велосипед абстрактный получился. А вот с визуализацией задачи Эйлера о семи мостах Кёнигсберга не справился. А ментальная карта с этой задачей получилась забавной и поучительной)

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Креативно))

  • @d_meroving
    @d_meroving 4 місяці тому +1

    Вообще с GPT обретают вторую жизнь многие ранее странные доменно-специфичные языки, такие как PostScript или Latex

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Да, теперь многое зависит просто от креативности.. да и маркдаун, формат разметки благодаря LLM получил вторую жизнь..

  • @МаксимМедведев-ф9м
    @МаксимМедведев-ф9м 4 місяці тому +1

    хммм а если мы готовую картинку загрузим - сможем с ней работать ?

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Быстрее всего он не сможет.. хотя... нужно будет попробовать... (идея для следующего видео)))))

  • @АлексКорсун-з6г
    @АлексКорсун-з6г 5 місяців тому +1

    Привет, идея интересная. насколько ее можно применить к черчению ?

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@АлексКорсун-з6г можно пробовать, но быстрее всего будут неточности, это будет неприемлемо для точной дисциплины

  • @HEDELKA
    @HEDELKA 5 місяців тому +1

    Вы не пробовали просить пиксели? Типо если получить все пиксели и через код преобразовать их в фото, то может быть будет возможность получать те же самые изображения, тут будет большой + можно писать полноценные видео, так как у нас будет доступ к предыдущим ответам прекрепляя их мы будем вести целые цепочки

    • @MrDewiar
      @MrDewiar  5 місяців тому +1

      Я размышлял, их очень много, будет идти много токенов.. как только увеличиваем количество элементов на выдаче от ИИ, он начинает сильно медленно выдавать результат, и много путается

  • @Alter-Ego-Persona
    @Alter-Ego-Persona 5 місяців тому +1

    Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок.
    Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же.
    Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому

    • @MrDewiar
      @MrDewiar  5 місяців тому

      Благодарю! Приятно видеть своих людей. Мой телеграм @isaev_mp Буду рад связи

  • @VasylynaSkyba
    @VasylynaSkyba 5 місяців тому +1

    Миша, сохраните это видео. Это БОЛЬШАЯ идея А ещё лучше удалите, у вас украдут идею вот о проблемах данных для обучения. Они НЕ ЗНАЮТ к а к ещё учить ИИ

    • @MrDewiar
      @MrDewiar  4 місяці тому

      Сегодня пришла мысль разделить эту программу на много экранов, и сделать одновременное рисование любой задачи сразу несколькими моделями ИИ.. мы получим визуальный тест "воображения" .. это может быть эффективнее, чем различные сложные тесты, которые всегда лучше у производителей моделей, но которые мы никак не можем проверить

    • @VasylynaSkyba
      @VasylynaSkyba 4 місяці тому +1

      @@MrDewiar а если наоборот усложнять задачи на одной модели и потом посмотреть научивается ли она. Но вообще и это ерунда. Как эту идею развить в алгоритм обучения. Ну вот трансформер, это по сути алгоритм в алгоритме, и то какой прорыв. Ведь если текстовую модель учить рисовать, то это уже не работа с подборов весов, а качественное развитие связей. И ведь она(модель) вам ответила, она нарисовала, ну как на меня, это охренительно само по себе. Если скажем пойти от обратного, к а к у ю задачу можно дать модели, которая генерирует картинки? Что и как задать этой модели?

    • @MrDewiar
      @MrDewiar  4 місяці тому

      @@VasylynaSkyba Да, такие подходы позволяют выявлять новые грани моделей.. нужно подумать над продолжением, куда дальше это можно будет двинуть

  • @vitall789
    @vitall789 5 місяців тому +1

    По этому даже можно определить политический предпочтения модели - нарисовал себя негром!

    • @MrDewiar
      @MrDewiar  4 місяці тому +1

      @@vitall789 я только сейчас заметил.. точно..GPT4 - видит себя темнокожим)))

  • @gadellatypov63
    @gadellatypov63 13 днів тому

    Запрос на небо и землю на русском языке, значит результат всё серое и мрачное)

  • @Сергей-р1ю1ь
    @Сергей-р1ю1ь 5 місяців тому +1

    Бесполезная штука, если ты ни разу не дергал нейронки! в будущем да будет крут о если мощностя будут

    • @MrDewiar
      @MrDewiar  5 місяців тому +2

      Сейчас это только вариация на тему.. и альтернатива проверки мощности LLM на простом холсте. Могу добавить нейросеть от Яндекса.. сразу увидите качество (достаточно низкое). Можно и другие модели добавлять.. лучше ведь один раз увидеть, чем слышать хвалебные слова от разработчиков конкретной нейронки

    • @2009Spread
      @2009Spread 5 місяців тому +1

      Категорически не согласен. Тут речь идет о том что языковые модели реально могут воображать так как мы это себе представляем, а не какой-то рандомный мусор на выходе. У людей спошь и рядом такая проблема ты ему про одно говоришь а он вообразил вообще другое.

  • @Trendish_channel
    @Trendish_channel Місяць тому +1

    да, но также это можно было бы использовать в генерации каких либо звуков вместо того, чтобы ползать с микрофоном за $2 000 и потом еще и обрабатывать

    • @MrDewiar
      @MrDewiar  Місяць тому

      Вообще использовать языковые модели для других, совершенно не типичных, задач - интересный эксперимент. По звукам, я еще не думал над этим