«Мультимодальные генеративные модели для обработки документов»
Вставка
- Опубліковано 2 жов 2024
- «Мультимодальные генеративные модели для обработки документов»
Даниил Водолазский, Руководитель направления по исследованию данных, SberDevices
DocVQA (Document Visual Question Answering) - это подход, который позволяет разработать универсальную модель для извлечения информации из любых документов - от договоров до чеков и презентаций.
Традиционные решения ограничены текстовыми данными и экстрактивными архитектурами. Они не могут ответить, например, в каком углу страницы расположена подпись. В то же время генеративные языковые модели, способные воспринимать текст, геометрию и изображение, справляются с такими задачами.
В докладе я поделюсь опытом создания модели ruUDOP: как готовили данные, проводили эксперименты, строили вопросно-ответную систему для сервиса SberIDP Query и какие преимущества получили от мультимодальности.