Алина Чугунова - Идеальный разметчик данных: как найти и обучить?

От T9 до ChatGPT/ ML-инженер о том, как работают языковые модели и мифах вокруг AI

Александр Голубев - Воркшоп по LLM + RLHF

Ильдар Автоподбор - как живет самый народный автоблогер ютуба. О переезде, Давидыче и жене

ТРІНЧЕР: чи був се*с після розлучення? Я намагалась врятувати ШЛЮБ.Чоловік має заробляти БІЛЬШЕ мене

Арестович: За развал управления нужно спрашивать и во время войны. Сбор для военных👇

Где взять данные для предобучения LLM - Анатолий Потапов, Тинькофф

Желтый AI

Переглядів 4 621

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 1 лис 2023
Вы вдруг решили, что вам недостаточно LLaMA-2 и вы очень хотите сделать свою LLM. Где взять данные для предобучения? Большая часть проблем в воспроизведении результатов ChatGPT лежит именно в данных для предобучения. Модель берет все свои знания о мире с этапа претрейна, алаймент же позволяет их вытащить. Анатолий рассказал, какие есть тонкости и нюансы при подготовке датасетов для предобучения и что они уже сделали с командой.
Наш телеграм: t.me/tinkoffai
Дайджесты, статьи и анонсы митапов: t.me/itstinkoff
Жизнь команда изнутри и вакансии по направлениям: t.me/tinkoffjobs
Блог на Хабре: l.tinkoff.ru/habr-tinkoff
#ai #ml #rl #тинькофф
Наука та технологія

КОМЕНТАРІ • 8

@achmedzhanov_nail 2 місяці тому
Интересные моменты подсвечены, если собираетесь обучить свою LLM, это хорошая вводная чтобы понять масштаб задачи подготовки данных.
@Aidar_Zaripov 26 днів тому
Когда Russian LLM можно будет скачать дайте знать пожалуйста.
@VasilyVasilyVasily Місяць тому
Вопрос по слайду с семантической дедупликацией: внутри кластера очистка происходит чисто семантически, или есть какая то проверка на истину каждого выражения? Например, если в кластере несколько похожих семантически ответов на одну тему, но только один из них верный. Вы сказали что оставляете один пример в своей эпсилон окрестности, он же может быть ложным в своем кластере?
@ekolvah 2 місяці тому ⁺¹
а почему не взять англоязычный датасет и перевести его на русский язык ? вместо создания самому русскоязычного датасета собирая и фильтруя русскоязычные данные со всего интернета
@FeelUs Місяць тому
Когда уже LLM сами начнут краулить и отбирать то что им интересно?...
@user-vl9km6ot1h 2 місяці тому ⁺¹
Докладчик че переминаться с ноги на ногу. В туалет что ли хочет или что . Невозможно смотреть
@achmedzhanov_nail 2 місяці тому ⁺²
да какая разница, суть на слайдах
@ekolvah 2 місяці тому
в аптеке успокоительное рекоммендую ;)

Наступне

Автоматичне відтворення

Алина Чугунова - Идеальный разметчик данных: как найти и обучить?

Алина Чугунова - Идеальный разметчик данных: как найти и обучить?

От T9 до ChatGPT/ ML-инженер о том, как работают языковые модели и мифах вокруг AI

От T9 до ChatGPT/ ML-инженер о том, как работают языковые модели и мифах вокруг AI

Александр Голубев - Воркшоп по LLM + RLHF

Александр Голубев - Воркшоп по LLM + RLHF

Ильдар Автоподбор - как живет самый народный автоблогер ютуба. О переезде, Давидыче и жене

Ильдар Автоподбор — как живет самый народный автоблогер ютуба. О переезде, Давидыче и жене

ТРІНЧЕР: чи був се*с після розлучення? Я намагалась врятувати ШЛЮБ.Чоловік має заробляти БІЛЬШЕ мене

ТРІНЧЕР: чи був се*с після розлучення? Я намагалась врятувати ШЛЮБ.Чоловік має заробляти БІЛЬШЕ мене

Арестович: За развал управления нужно спрашивать и во время войны. Сбор для военных👇

Арестович: За развал управления нужно спрашивать и во время войны. Сбор для военных👇

BMW просто издевается над нами! Силы на исходе…

BMW просто издевается над нами! Силы на исходе…

Иван Бондаренко |Большие языковые модели против трансформер-энкодеров для распознавания им.сущностей

Иван Бондаренко |Большие языковые модели против трансформер-энкодеров для распознавания им.сущностей

Let's build the GPT Tokenizer

Let's build the GPT Tokenizer

Как работает команда NLP Research после выхода GPT-4 - Даниил Гаврилов, Тинькофф

Как работает команда NLP Research после выхода GPT-4 — Даниил Гаврилов, Тинькофф

LMstudio как замена ChatGPT: Saiga Mistral, LLama и другие локальные LLM

LMstudio как замена ChatGPT: Saiga Mistral, LLama и другие локальные LLM

Яндекс тренирует текстовые нейронки? Что это за работа? Разговор с Алексеем Гусаковым

Яндекс тренирует текстовые нейронки? Что это за работа? Разговор с Алексеем Гусаковым

Открытые модели и их обучение

Открытые модели и их обучение

Илья Гусев - Синтетические датасеты как способ сокращения неравенства

Илья Гусев - Синтетические датасеты как способ сокращения неравенства

Про Kafka (основы)

Про Kafka (основы)

О карьере, Machine learning и построении эффективных команд

О карьере, Machine learning и построении эффективных команд

С Какой Высоты Разобьётся NOKIA3310 ?!😳

С Какой Высоты Разобьётся NOKIA3310 ?!😳

Портативная PS 5 🎮 #ps5 #expressly

Портативная PS 5 🎮 #ps5 #expressly

Удивляемся кривым переделкам 4090 и 4080. Что за хрень получилась у китайцев?!

Удивляемся кривым переделкам 4090 и 4080. Что за хрень получилась у китайцев?!

Бюджетная видеокарта за 5000 рублей

Бюджетная видеокарта за 5000 рублей

The Amazing Digital Circus Smart Phone Password Templates || This is The Best Alarm Clock Ever! #10

The Amazing Digital Circus Smart Phone Password Templates || This is The Best Alarm Clock Ever! #10

НЕ ПОКУПАЙТЕ НОВЫЙ СМАРТФОН, ПОКА НЕ ВЫШЕЛ ЭТОТ [2024]

НЕ ПОКУПАЙТЕ НОВЫЙ СМАРТФОН, ПОКА НЕ ВЫШЕЛ ЭТОТ [2024]

Это новые российские SSD! Ну почти… 🙂

Это новые российские SSD! Ну почти… 🙂

Subscribe for more!! #procreate #logoanimation #roblox

Subscribe for more!! #procreate #logoanimation #roblox