20 років в ІТ: Патраємо кита Deepseek \ Тестування в роботі щодня \ Революція чи фарс? (українською)

Equus Sapiens

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 7 лют 2025

КОМЕНТАРІ • 36

@VitaeDiscimus 2 дні тому
Мій типовий сценарій використання моделей: аналіз літератури та документації, створення інтерактивних посібників під опис правил проектів великих компаній з власною кодовою базою. Плюс багато фрілансерської роботи. Для кодування використовую Claude та Qwen (14b, локально). RAG я робив на основі Google Cloud. Це потрібно для того, щоб програмісти великих корпорацій могли писати код одразу згідно з власними стандартами. Дуже хотів інтегрувати Deepseek, оскільки це значно зменшило б собівартість. Але не вийшло, тому що Deepseek, м'яко кажучи, часто помиляється та фантазує. Складається враження, що він обробляє токени лише частково. Там, де модель недостатньо навчена, вона просто вигадує: методи, класи тощо. Прості правила іменування забуваються. Мабуть, через те, що його навчали методом позитивного підкріплення, він занадто старається дати хоч якусь відповідь там, де Google скаже: "Я не можу оцінити, чи є твердження правдивим, оскільки не маю доступу до результатів. Моя відповідь базується на інформації, доступній мені в документі". Під час роботи з великою моделлю, після 10-20 моїх виправлень, вона перестає на них реагувати та постійно видає одне й те ж. Під час роботи з книгами та тестами знову ж таки, або бреше, або не до кінця обробляє токени через вузьке вікно контексту. Я не знаю, але якщо попросити зробити розширений аналіз чогось, результат не відрізняється від простого аналізу. Тому я й хотів пристосувати його до своїх завдань, що зменшити собівартість проектів, але не вийшло. І навіщо мені далі мучитись, щоб побачити його міфічні переваги? Його вчили на датасетах з готовим відповідями, методом батога і пряника. І все що поза цим датасетом у нього дуже шкутильгає, він починає боятися "Покарання" за не знання і починає брехати. Це навіть в його "Роздумах" видно, що він занадто на цьому циклить, занадто хоче бути корисним. Смаківщіна кажете? Натомість скажу - "кому і кобила наречена", але не мені
@HealthcoachHN 3 дні тому ⁺²
Він чудово виконує свою задачу. Масове використання, збір даних, щоб потім використовувати це в цілях Китаю в плані маніпуляцій. Вже є дані по його втручанню в виборчі процеси різних країн. Тому і дешево.
@VitaeDiscimus 3 дні тому
@@HealthcoachHN Так, це слушне зауваження. Але хто про те думає... Коли ж халява
@pelagieivanyschenko956 7 днів тому ⁺⁵
Повністю співпала думка, бо ще надто все сиро у нього. Потрібен час для розвитку.
@VitaeDiscimus 7 днів тому
Нажаль це глухий кут - без людської верифікації це не має перспектив
@dmytrobolychevskyi6652 3 дні тому ⁺¹
Як тільки я почув що це китайський проект, одразу зрозумів що це китайська комуністична підробка. Але я згоден з автором стосовно конкуренції. Конкуренція потрібна і це на мій погляд круто)
@VitaeDiscimus 3 дні тому
Та, зразу купу всього, що мабуть притримували надалі повиходило від основних гравців
@YOUrockI 3 дні тому ⁺¹
трішки б попрацювати над подачею було б просто пушка. так то матеріал бомбезний)
закадровий голос який приривається інтонаційно прям дуже дратує..
+ подивився на каналі обкладинки відео .. кольори не співпадають за гамою тому погано читається, шрифт не вдало підібраний..
на ютубі є люди які розповідають за правильне оформлення обкладинок тощо.. пошукайте я гарантую Вам якшо Ваша ціль виростити канал він одразу почне буститись. не сприймайте мої слова за негатив просто це порада в голос те що неозброєним оком побачив)
дякую за відео... я користувався ДипСиик але після Вашого огляду зрозумів чого не хочу більше його юзати)
@VitaeDiscimus 3 дні тому ⁺¹
Дякую, я тільки місяць як почав. Вчуся на ходу. Радий що допоміг щось вирішити.
Умови складні: студії немає, пишу весь звук у загальній столовій, там луна страшна.
Записую декілька разів, нарізаю шматками найкраще.
Сподіваюся що щоразу буде краще
@YOUrockI 3 дні тому ⁺¹
@VitaeDiscimus як для початківця то дуже достойно в такому випадку! Бажаю успіху у Вас все вийде, головне не залишайте це діло!!
@VitaeDiscimus 3 дні тому ⁺¹
@@YOUrockI Дякую, дуже приємо! Саме такі коментарі надихають щось робити далі
@vladimirsoroka9766 8 днів тому ⁺¹
цікаво цікаво🙂
@VitaeDiscimus 8 днів тому
@@vladimirsoroka9766 Дякую, старався!
@ZinoviiZen-us5se 8 днів тому ⁺⁴
Це як і автомобілі китайські: зовні гарні, з цікавим дизайном, багато обіцяють, але не відповідають навіть середнім вимогам
@VitaeDiscimus 8 днів тому
@@ZinoviiZen-us5se Саме так. Ви добре висловили основну думку. Дякую
@ВсеволодІванищенко 8 днів тому ⁺³
Склалися такі самі відчуття, справжня "справжня Китайська" якість
@VitaeDiscimus 8 днів тому
Дива не відбулося, здешевлення має свою ціну.
@alexandrverenchuc7524 5 днів тому
презентацію робите в gamma?)))
@VitaeDiscimus 5 днів тому
@@alexandrverenchuc7524 Так, зручна штука. Позбавляє від марудної роботи. Головне текст підготувати хороший
@spdroll 2 дні тому ⁺¹
2:47 Вибачте, але що ви вбіса верзете? Той факт, що вам трапилась дистільована модель взагалі не означає, що там нема нормальної. Навпаки - ви мали б порівнювати саме повну модель з існуючіми а не зазати що "Бітлз погані тому, що знайомий вам заспівав їх пісні фальшиво". Я не можу відреагувати на це якось по-іншому, ніж порадити стулити пельку, доки ви дійсно не розберетесь. Бо у цієї моделі є справжні новації. І це не дистільоване навчання, а deep reinforcement та проміжний шар міркування - речі, які там з'явились раніше, ніж у OpenAI. Саме тому deepseek непогано конкурує з Claude Sonet в питанні розгорнутого формулювання технічних завдань. Особливо при застосуванні через нормально налаштовані кодові агенти (наприклад Bolt.new).
@VitaeDiscimus 2 дні тому
Окей, бачу, ти намагаєшся мене переконати, що DeepSeek - топ. Але давай по фактах. "Дистильована" чи ні, а я говорю про реальний тижневий досвід її використання, а не про теорію. І цей досвід каже, що до "нормальних" моделей їй далеко. Так, у неї є deep reinforcement learning і проміжний шар, круто. Але якщо на практиці вона видає фігню в моїх задачах, то яка мені різниця, що там під капотом? Claude Sonnet, з яким ти порівнюєш, дає набагато кращі результати в тих самих завданнях, я це перевіряв. І Bolt.new - не панацея, якщо сама модель не тягне. Тому, поки не побачу реальних пруфів, що DeepSeek дійсно краще за аналоги в моїх сценаріях, а не в синтетичних тестах, моя оцінка залишається низькою. І давай без хамства, окей? Аргументи по суті, а не "стули пельку".
@spdroll 2 дні тому ⁺¹
@@VitaeDiscimus я не збираюсь переконувати. Лише зауважую, що те, що я від вас почув - маячня людини не знайомої з тим, що стверджує. Апеляція до власного суб'єктивного досвіду нічого не варта. "В моїх завданнях" це суцільна смаковщіна. DeepSeek (а саме повна 671b модель, а не 7b дистілят) добре вирішує завдання які є "синтетичними" саме для того, щоб не обманювати себе суб'єктивщіною. І це не якийсь хрін з гори вирішив, а особисто признав Сем Альтман (та ряд інших реальних фахівців). Хоча, звісно, хто вони такі поряд з вашими особистими поглядами, сформованими за тиждень знайомства з дистільорваною версією LLM? =)
@VitaeDiscimus 2 дні тому
@@spdroll Мій типовий сценарій використання моделей: аналіз літератури та документації, створення інтерактивних посібників під опис правил проектів великих компаній з власною кодоовю базою. Плюс багато фрілансерської роботи. Для кодування використовую Claude та Qwen (14b, локально). RAG я робив на основі Google Cloud. Це потрібно для того, щоб програмісти великих корпорацій могли писати код одразу згідно з власними стандартами. Дуже хотів інтегрувати Deepseek, оскільки це значно зменшило б собівартість. Але не вийшло, тому що Deepseek, м'яко кажучи, часто помиляється та фантазує. Складається враження, що він обробляє токени лише частково. Там, де модель недостатньо навчена, вона просто вигадує: методи, класи тощо. Прості правила іменування забуваються. Мабуть, через те, що його навчали методом позитивного підкріплення, він занадто старається дати хоч якусь відповідь там, де Google скаже: "Я не можу оцінити, чи є твердження правдивим, оскільки не маю доступу до результатів. Моя відповідь базується на інформації, доступній мені в документі". Під час роботи з великою моделлю, після 10-20 моїх виправлень, вона перестає на них реагувати та постійно видає одне й те ж. Під час роботи з книгами та тестами знову ж таки, або бреше, або не до кінця обробляє токени через вузьке вікно контексту. Я не знаю, але якщо попросити зробити розширений аналіз чогось, результат не відрізняється від простого аналізу. Тому я й хотів пристосувати його до своїх завдань, що зменшити собівартість проектів, але не вийшло. І навіщо мені далі мучитись, щоб побачити його міфічні переваги? Його вчили на датасетах з готовим відповідями, методом батога і пряника. І все що поза цим датасетом у нього дуже шкутильгає, він починає боятися "Покарання" за не знання і починає брехати. Це навіть в його "Роздумах" видно, що він занадто на цьому циклить, занадто хоче бути корисним. Смаківщіна кажете? Натомість скажу - "кому і кобила наречена", але не мені
@spdroll 2 дні тому ⁺¹
@@VitaeDiscimus дякую за першу притомну відповідь. бо тут проглядається хоча б якась аргументація (на відміну від роліка). і тепер хоча б щось зрозуміло щодо вашого негативного досвіду. І, так, мені є що вам відповісти на достатньо конкретні нарікання. По-перше, це саме ви використали обмежений дистілят там, де вам ніщо не заважало використати повну модель (наприклад через openrouter). По-друге, саме ваші завдання не дуже підходять під використання дистілятів. Тобто звісно можна відняти 14b чи навіть 32b, а потім протюнити за пару діб непоганим датасетом, але зазвичай такі дістіляти призначені для значно меньших завдань - зробити чатбота підтримки з заданим FAQ на RAG.По-третте виглядає так, що ви мабуть і той 14b використали через Ollama, де він має штучно обмеженне до 2048 токенів вікно конетксту. Для цього існує виправлення. І я маю грунтовну підозру, що після цього виправлення ви побачете значно кращі результати з використанням RAG.
@VitaeDiscimus 2 дні тому
Я вже занадто старий для цього лайна. Якщо інші моделі з аналогічною розмірністю та в однакових умовах працюють краще, то навіщо мені мучитися з Deepseek? Як я вже писав, схожі проблеми виникають навіть із повноцінними моделями. До того ж, є юридичні питання: вони не гарантують видалення вашої історії зі своєї бази даних, на відміну від інших. І всі питання вирішуються в китайському суді, навіть без арбітражу. Коли ви робите курсову роботу для інституту, вам може бути байдуже, що станеться з вашими даними далі. Але коли ви, наприклад, 200-річний банк, це вже серйозне питання. Я просто не бачу сенсу боротися, якщо є простіші варіанти. Те, що він у деяких тестах трохи кращий? Он вже вийшла модель o3, яка є швидшою та "розумнішою". І взагалі, весь цей ролик - це велике IMHO (особиста думка), як і все на моєму каналі. Я не вчений, мені ніхто не заплатить за копання в деталях кожної моделі. Мені платять за стабільний, передбачуваний результат, а не за пошук істини.
Але все одно дякую, було досить цікаво дискутувати з вами.
@Happy-Gappy 8 днів тому ⁺³
Я коли запитав у нього на яких мовах він може спілкуватися і побачив його контекстні роздуми, то там було щось типу "користувач запитав мене про мови якими я володію, це англійська, киатйська, німецька, російська і.д", "користувач запитав чи володію я українською? Треба уникати буь яких політичних контекстів у звязку російьско-українським конлфіктом". Тобто він окрім всього з запитання вибору мови, вичленив для себе два слова україньска і російська і зробив собі застереження не розмовляти про війну чи щось схоже. Тобто я думаю у нього таких речей багато, що якщо він аналізує і бачить якийсь потенційний небежаний контекст то буде його уникати.
@VitaeDiscimus 8 днів тому
@@Happy-Gappy Так і є. Теж це помітив, коли спитав чий Крим
@ІванДобра-ц3г 4 дні тому ⁺¹
Як на мене тупо та сама херня що галюнує один в один, як і чат гпт і інші. А автор натягує ринок низькоякісних товарів з Китая на аі модель.
@VitaeDiscimus 4 дні тому ⁺¹
@@ІванДобра-ц3г Не скажіть. Протягом тижня давав шанс. Але значно більше галюцинації та незрозуміло чому затиків. Повільніша і більш посередні у всіх випадках
@RuslanMpandor 4 дні тому ⁺¹
Аішна озвучка дуже ріже по вухах
@VitaeDiscimus 4 дні тому
Я пишу в підвалі без мяких стін і на простий мікрофон. Без обробки в Adobe Podcast це ще важче слухати

Наступне

Автоматичне відтворення

Китай обганяє США? Як китайський чат-бот DeepSeek кинув виклик Кремнієвій долині| Ефір ВВС