Olá Tatiana! É possível sim. Para fazer o OCR direto em arquivo PDF é um pouco mais diferente, porém você pode fazer assim: www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/ Como alternativa, você pode também fazer antes a conversão do PDF para um arquivo de imagem .jpg ou .png e depois criar um loop para percorrer todas essas fotos (após a conversão, seria 1 arquivo de imagem para cada página do seu PDF).
Obrigada pela resposta gente. Meu receio eh trabalhar com ocr com arquivos de muitasss páginas. Não sei o qto isso vai comer de performance da minha máquina. Mas muito obrigada pelo retorno.
@@taticanelhas opa, disponha! Vale a pena fazer um teste, mas quanto ao processamento não é tanto assim, pois pelo menos com o tesseract é até que considerado otimizado :) mas claro, no final vai depender muito do hardware que estiver usando para realizar os processamentos também
Excelente vídeo, parabéns!!!!
Que bom que gostou :)
ensina fazer um treinamento usando LSTM do tesseract
Valeu pela sugestão Guilherme :)
Podemos usar o Tesseract para converter PDF em texto?
Olá Tatiana! É possível sim.
Para fazer o OCR direto em arquivo PDF é um pouco mais diferente, porém você pode fazer assim:
www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/
Como alternativa, você pode também fazer antes a conversão do PDF para um arquivo de imagem .jpg ou .png e depois criar um loop para percorrer todas essas fotos (após a conversão, seria 1 arquivo de imagem para cada página do seu PDF).
Obrigado pela resposta, Gabriel!
Obrigada pela resposta gente. Meu receio eh trabalhar com ocr com arquivos de muitasss páginas. Não sei o qto isso vai comer de performance da minha máquina. Mas muito obrigada pelo retorno.
@@taticanelhas opa, disponha! Vale a pena fazer um teste, mas quanto ao processamento não é tanto assim, pois pelo menos com o tesseract é até que considerado otimizado :) mas claro, no final vai depender muito do hardware que estiver usando para realizar os processamentos também