Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова

Поділитися
Вставка
  • Опубліковано 5 гру 2022
  • Ролик на английском: • Read/recognize PDF fil...
    Анализируем исходный PDF файл, выбираем из него только те страницы, которые содержат заданные слова. Работаем с файлами, в которых данные в виде текста и в виде сканированных страниц. Скрипт на питоне, для распознавания используем Tesseract-OCR. Модули pikepdf, PyPDF2, pytesseract.
    архив со скриптами из видео: drive.google.com/file/d/1s9k4...
    сайт питон: www.python.org/downloads/
    команда установки модуля "PyPDF2": pip install PyPDF2
    документация модуля "PyPDF2": pypdf2.readthedocs.io/en/latest/
    команда установки модуля "pikepdf": pip install pikepdf
    документация модуля "pikepdf": pikepdf.readthedocs.io/en/lat...
    сайт "tesseract": github.com/UB-Mannheim/tesser... (при установке выбрать нужные языки распознавания)
    команда установки модуля "pytesseract": pip install pytesseract
    git тессеракта: github.com/madmaze/pytesseract
    или установка всех модулей разом pip install pikepdf PyPDF2 pytesseract

КОМЕНТАРІ •