20 років в ІТ: Патраємо кита Deepseek \ Тестування в роботі щодня \ Революція чи фарс? (українською)

Поділитися
Вставка
  • Опубліковано 7 лют 2025

КОМЕНТАРІ • 36

  • @VitaeDiscimus
    @VitaeDiscimus  2 дні тому

    Мій типовий сценарій використання моделей: аналіз літератури та документації, створення інтерактивних посібників під опис правил проектів великих компаній з власною кодовою базою. Плюс багато фрілансерської роботи. Для кодування використовую Claude та Qwen (14b, локально). RAG я робив на основі Google Cloud. Це потрібно для того, щоб програмісти великих корпорацій могли писати код одразу згідно з власними стандартами. Дуже хотів інтегрувати Deepseek, оскільки це значно зменшило б собівартість. Але не вийшло, тому що Deepseek, м'яко кажучи, часто помиляється та фантазує. Складається враження, що він обробляє токени лише частково. Там, де модель недостатньо навчена, вона просто вигадує: методи, класи тощо. Прості правила іменування забуваються. Мабуть, через те, що його навчали методом позитивного підкріплення, він занадто старається дати хоч якусь відповідь там, де Google скаже: "Я не можу оцінити, чи є твердження правдивим, оскільки не маю доступу до результатів. Моя відповідь базується на інформації, доступній мені в документі". Під час роботи з великою моделлю, після 10-20 моїх виправлень, вона перестає на них реагувати та постійно видає одне й те ж. Під час роботи з книгами та тестами знову ж таки, або бреше, або не до кінця обробляє токени через вузьке вікно контексту. Я не знаю, але якщо попросити зробити розширений аналіз чогось, результат не відрізняється від простого аналізу. Тому я й хотів пристосувати його до своїх завдань, що зменшити собівартість проектів, але не вийшло. І навіщо мені далі мучитись, щоб побачити його міфічні переваги? Його вчили на датасетах з готовим відповідями, методом батога і пряника. І все що поза цим датасетом у нього дуже шкутильгає, він починає боятися "Покарання" за не знання і починає брехати. Це навіть в його "Роздумах" видно, що він занадто на цьому циклить, занадто хоче бути корисним. Смаківщіна кажете? Натомість скажу - "кому і кобила наречена", але не мені

  • @HealthcoachHN
    @HealthcoachHN 3 дні тому +2

    Він чудово виконує свою задачу. Масове використання, збір даних, щоб потім використовувати це в цілях Китаю в плані маніпуляцій. Вже є дані по його втручанню в виборчі процеси різних країн. Тому і дешево.

    • @VitaeDiscimus
      @VitaeDiscimus  3 дні тому

      @@HealthcoachHN Так, це слушне зауваження. Але хто про те думає... Коли ж халява

  • @pelagieivanyschenko956
    @pelagieivanyschenko956 7 днів тому +5

    Повністю співпала думка, бо ще надто все сиро у нього. Потрібен час для розвитку.

    • @VitaeDiscimus
      @VitaeDiscimus  7 днів тому

      Нажаль це глухий кут - без людської верифікації це не має перспектив

  • @dmytrobolychevskyi6652
    @dmytrobolychevskyi6652 3 дні тому +1

    Як тільки я почув що це китайський проект, одразу зрозумів що це китайська комуністична підробка. Але я згоден з автором стосовно конкуренції. Конкуренція потрібна і це на мій погляд круто)

    • @VitaeDiscimus
      @VitaeDiscimus  3 дні тому

      Та, зразу купу всього, що мабуть притримували надалі повиходило від основних гравців

  • @YOUrockI
    @YOUrockI 3 дні тому +1

    трішки б попрацювати над подачею було б просто пушка. так то матеріал бомбезний)
    закадровий голос який приривається інтонаційно прям дуже дратує..
    + подивився на каналі обкладинки відео .. кольори не співпадають за гамою тому погано читається, шрифт не вдало підібраний..
    на ютубі є люди які розповідають за правильне оформлення обкладинок тощо.. пошукайте я гарантую Вам якшо Ваша ціль виростити канал він одразу почне буститись. не сприймайте мої слова за негатив просто це порада в голос те що неозброєним оком побачив)
    дякую за відео... я користувався ДипСиик але після Вашого огляду зрозумів чого не хочу більше його юзати)

    • @VitaeDiscimus
      @VitaeDiscimus  3 дні тому +1

      Дякую, я тільки місяць як почав. Вчуся на ходу. Радий що допоміг щось вирішити.
      Умови складні: студії немає, пишу весь звук у загальній столовій, там луна страшна.
      Записую декілька разів, нарізаю шматками найкраще.
      Сподіваюся що щоразу буде краще

    • @YOUrockI
      @YOUrockI 3 дні тому +1

      @VitaeDiscimus як для початківця то дуже достойно в такому випадку! Бажаю успіху у Вас все вийде, головне не залишайте це діло!!

    • @VitaeDiscimus
      @VitaeDiscimus  3 дні тому +1

      @@YOUrockI Дякую, дуже приємо! Саме такі коментарі надихають щось робити далі

  • @vladimirsoroka9766
    @vladimirsoroka9766 8 днів тому +1

    цікаво цікаво🙂

    • @VitaeDiscimus
      @VitaeDiscimus  8 днів тому

      @@vladimirsoroka9766 Дякую, старався!

  • @ZinoviiZen-us5se
    @ZinoviiZen-us5se 8 днів тому +4

    Це як і автомобілі китайські: зовні гарні, з цікавим дизайном, багато обіцяють, але не відповідають навіть середнім вимогам

    • @VitaeDiscimus
      @VitaeDiscimus  8 днів тому

      @@ZinoviiZen-us5se Саме так. Ви добре висловили основну думку. Дякую

  • @ВсеволодІванищенко

    Склалися такі самі відчуття, справжня "справжня Китайська" якість

    • @VitaeDiscimus
      @VitaeDiscimus  8 днів тому

      Дива не відбулося, здешевлення має свою ціну.

  • @alexandrverenchuc7524
    @alexandrverenchuc7524 5 днів тому

    презентацію робите в gamma?)))

    • @VitaeDiscimus
      @VitaeDiscimus  5 днів тому

      @@alexandrverenchuc7524 Так, зручна штука. Позбавляє від марудної роботи. Головне текст підготувати хороший

  • @spdroll
    @spdroll 2 дні тому +1

    2:47 Вибачте, але що ви вбіса верзете? Той факт, що вам трапилась дистільована модель взагалі не означає, що там нема нормальної. Навпаки - ви мали б порівнювати саме повну модель з існуючіми а не зазати що "Бітлз погані тому, що знайомий вам заспівав їх пісні фальшиво". Я не можу відреагувати на це якось по-іншому, ніж порадити стулити пельку, доки ви дійсно не розберетесь. Бо у цієї моделі є справжні новації. І це не дистільоване навчання, а deep reinforcement та проміжний шар міркування - речі, які там з'явились раніше, ніж у OpenAI. Саме тому deepseek непогано конкурує з Claude Sonet в питанні розгорнутого формулювання технічних завдань. Особливо при застосуванні через нормально налаштовані кодові агенти (наприклад Bolt.new).

    • @VitaeDiscimus
      @VitaeDiscimus  2 дні тому

      Окей, бачу, ти намагаєшся мене переконати, що DeepSeek - топ. Але давай по фактах. "Дистильована" чи ні, а я говорю про реальний тижневий досвід її використання, а не про теорію. І цей досвід каже, що до "нормальних" моделей їй далеко. Так, у неї є deep reinforcement learning і проміжний шар, круто. Але якщо на практиці вона видає фігню в моїх задачах, то яка мені різниця, що там під капотом? Claude Sonnet, з яким ти порівнюєш, дає набагато кращі результати в тих самих завданнях, я це перевіряв. І Bolt.new - не панацея, якщо сама модель не тягне. Тому, поки не побачу реальних пруфів, що DeepSeek дійсно краще за аналоги в моїх сценаріях, а не в синтетичних тестах, моя оцінка залишається низькою. І давай без хамства, окей? Аргументи по суті, а не "стули пельку".

    • @spdroll
      @spdroll 2 дні тому +1

      @@VitaeDiscimus я не збираюсь переконувати. Лише зауважую, що те, що я від вас почув - маячня людини не знайомої з тим, що стверджує. Апеляція до власного суб'єктивного досвіду нічого не варта. "В моїх завданнях" це суцільна смаковщіна. DeepSeek (а саме повна 671b модель, а не 7b дистілят) добре вирішує завдання які є "синтетичними" саме для того, щоб не обманювати себе суб'єктивщіною. І це не якийсь хрін з гори вирішив, а особисто признав Сем Альтман (та ряд інших реальних фахівців). Хоча, звісно, хто вони такі поряд з вашими особистими поглядами, сформованими за тиждень знайомства з дистільорваною версією LLM? =)

    • @VitaeDiscimus
      @VitaeDiscimus  2 дні тому

      @@spdroll Мій типовий сценарій використання моделей: аналіз літератури та документації, створення інтерактивних посібників під опис правил проектів великих компаній з власною кодоовю базою. Плюс багато фрілансерської роботи. Для кодування використовую Claude та Qwen (14b, локально). RAG я робив на основі Google Cloud. Це потрібно для того, щоб програмісти великих корпорацій могли писати код одразу згідно з власними стандартами. Дуже хотів інтегрувати Deepseek, оскільки це значно зменшило б собівартість. Але не вийшло, тому що Deepseek, м'яко кажучи, часто помиляється та фантазує. Складається враження, що він обробляє токени лише частково. Там, де модель недостатньо навчена, вона просто вигадує: методи, класи тощо. Прості правила іменування забуваються. Мабуть, через те, що його навчали методом позитивного підкріплення, він занадто старається дати хоч якусь відповідь там, де Google скаже: "Я не можу оцінити, чи є твердження правдивим, оскільки не маю доступу до результатів. Моя відповідь базується на інформації, доступній мені в документі". Під час роботи з великою моделлю, після 10-20 моїх виправлень, вона перестає на них реагувати та постійно видає одне й те ж. Під час роботи з книгами та тестами знову ж таки, або бреше, або не до кінця обробляє токени через вузьке вікно контексту. Я не знаю, але якщо попросити зробити розширений аналіз чогось, результат не відрізняється від простого аналізу. Тому я й хотів пристосувати його до своїх завдань, що зменшити собівартість проектів, але не вийшло. І навіщо мені далі мучитись, щоб побачити його міфічні переваги? Його вчили на датасетах з готовим відповідями, методом батога і пряника. І все що поза цим датасетом у нього дуже шкутильгає, він починає боятися "Покарання" за не знання і починає брехати. Це навіть в його "Роздумах" видно, що він занадто на цьому циклить, занадто хоче бути корисним. Смаківщіна кажете? Натомість скажу - "кому і кобила наречена", але не мені

    • @spdroll
      @spdroll 2 дні тому +1

      @@VitaeDiscimus дякую за першу притомну відповідь. бо тут проглядається хоча б якась аргументація (на відміну від роліка). і тепер хоча б щось зрозуміло щодо вашого негативного досвіду. І, так, мені є що вам відповісти на достатньо конкретні нарікання. По-перше, це саме ви використали обмежений дистілят там, де вам ніщо не заважало використати повну модель (наприклад через openrouter). По-друге, саме ваші завдання не дуже підходять під використання дистілятів. Тобто звісно можна відняти 14b чи навіть 32b, а потім протюнити за пару діб непоганим датасетом, але зазвичай такі дістіляти призначені для значно меньших завдань - зробити чатбота підтримки з заданим FAQ на RAG.По-третте виглядає так, що ви мабуть і той 14b використали через Ollama, де він має штучно обмеженне до 2048 токенів вікно конетксту. Для цього існує виправлення. І я маю грунтовну підозру, що після цього виправлення ви побачете значно кращі результати з використанням RAG.

    • @VitaeDiscimus
      @VitaeDiscimus  2 дні тому

      Я вже занадто старий для цього лайна. Якщо інші моделі з аналогічною розмірністю та в однакових умовах працюють краще, то навіщо мені мучитися з Deepseek? Як я вже писав, схожі проблеми виникають навіть із повноцінними моделями. До того ж, є юридичні питання: вони не гарантують видалення вашої історії зі своєї бази даних, на відміну від інших. І всі питання вирішуються в китайському суді, навіть без арбітражу. Коли ви робите курсову роботу для інституту, вам може бути байдуже, що станеться з вашими даними далі. Але коли ви, наприклад, 200-річний банк, це вже серйозне питання. Я просто не бачу сенсу боротися, якщо є простіші варіанти. Те, що він у деяких тестах трохи кращий? Он вже вийшла модель o3, яка є швидшою та "розумнішою". І взагалі, весь цей ролик - це велике IMHO (особиста думка), як і все на моєму каналі. Я не вчений, мені ніхто не заплатить за копання в деталях кожної моделі. Мені платять за стабільний, передбачуваний результат, а не за пошук істини.
      Але все одно дякую, було досить цікаво дискутувати з вами.

  • @Happy-Gappy
    @Happy-Gappy 8 днів тому +3

    Я коли запитав у нього на яких мовах він може спілкуватися і побачив його контекстні роздуми, то там було щось типу "користувач запитав мене про мови якими я володію, це англійська, киатйська, німецька, російська і.д", "користувач запитав чи володію я українською? Треба уникати буь яких політичних контекстів у звязку російьско-українським конлфіктом". Тобто він окрім всього з запитання вибору мови, вичленив для себе два слова україньска і російська і зробив собі застереження не розмовляти про війну чи щось схоже. Тобто я думаю у нього таких речей багато, що якщо він аналізує і бачить якийсь потенційний небежаний контекст то буде його уникати.

    • @VitaeDiscimus
      @VitaeDiscimus  8 днів тому

      @@Happy-Gappy Так і є. Теж це помітив, коли спитав чий Крим

  • @ІванДобра-ц3г
    @ІванДобра-ц3г 4 дні тому +1

    Як на мене тупо та сама херня що галюнує один в один, як і чат гпт і інші. А автор натягує ринок низькоякісних товарів з Китая на аі модель.

    • @VitaeDiscimus
      @VitaeDiscimus  4 дні тому +1

      @@ІванДобра-ц3г Не скажіть. Протягом тижня давав шанс. Але значно більше галюцинації та незрозуміло чому затиків. Повільніша і більш посередні у всіх випадках

  • @RuslanMpandor
    @RuslanMpandor 4 дні тому +1

    Аішна озвучка дуже ріже по вухах

    • @VitaeDiscimus
      @VitaeDiscimus  4 дні тому

      Я пишу в підвалі без мяких стін і на простий мікрофон. Без обробки в Adobe Podcast це ще важче слухати