«Генеративные модели и методы обучения с подкреплением»

Поділитися
Вставка
  • Опубліковано 1 лис 2023
  • Языковые модели учатся генерировать текст, похожий на человеческий, при этом такие аспекты, как полезность, безопасность и правдивость, за исключением фильтрации датасетов, никак не регулируются. Методы обучения с подкреплением позволяют обучить не просто модель, способную генерировать правдоподобный текст, а модель, чьи генерации будут высоко оценены человеком по вышеприведённым аспектам. В этом докладе мы рассмотрим один из таких алгоритмов: DPO и то, как мы применяли его в Яндексе для обучения YandexGPT.
    Спикер: Федор Лебедь, Разработчик отдела NLP группы YandexGPT Alignment, Яндекс Поиск

КОМЕНТАРІ • 1

  • @Sergey.Aleksandrovich.P-37rus
    @Sergey.Aleksandrovich.P-37rus 7 місяців тому +1

    всё очень понятно, спасибо, пошёл дальше допиливать свою нейронку