«Мультимодальные генеративные модели для обработки документов»

Поділитися
Вставка
  • Опубліковано 2 жов 2024
  • «Мультимодальные генеративные модели для обработки документов»
    Даниил Водолазский, Руководитель направления по исследованию данных, SberDevices
    DocVQA (Document Visual Question Answering) - это подход, который позволяет разработать универсальную модель для извлечения информации из любых документов - от договоров до чеков и презентаций.
    Традиционные решения ограничены текстовыми данными и экстрактивными архитектурами. Они не могут ответить, например, в каком углу страницы расположена подпись. В то же время генеративные языковые модели, способные воспринимать текст, геометрию и изображение, справляются с такими задачами.
    В докладе я поделюсь опытом создания модели ruUDOP: как готовили данные, проводили эксперименты, строили вопросно-ответную систему для сервиса SberIDP Query и какие преимущества получили от мультимодальности.

КОМЕНТАРІ •