Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова
Вставка
- Опубліковано 5 гру 2022
- Ролик на английском: • Read/recognize PDF fil...
Анализируем исходный PDF файл, выбираем из него только те страницы, которые содержат заданные слова. Работаем с файлами, в которых данные в виде текста и в виде сканированных страниц. Скрипт на питоне, для распознавания используем Tesseract-OCR. Модули pikepdf, PyPDF2, pytesseract.
архив со скриптами из видео: drive.google.com/file/d/1s9k4...
сайт питон: www.python.org/downloads/
команда установки модуля "PyPDF2": pip install PyPDF2
документация модуля "PyPDF2": pypdf2.readthedocs.io/en/latest/
команда установки модуля "pikepdf": pip install pikepdf
документация модуля "pikepdf": pikepdf.readthedocs.io/en/lat...
сайт "tesseract": github.com/UB-Mannheim/tesser... (при установке выбрать нужные языки распознавания)
команда установки модуля "pytesseract": pip install pytesseract
git тессеракта: github.com/madmaze/pytesseract
или установка всех модулей разом pip install pikepdf PyPDF2 pytesseract