text-mina de archivos PDF con Python?
-
16-09-2019 - |
Pregunta
¿Hay un paquete / biblioteca de Python que me permitiera abrir un PDF, y buscar en el texto ciertas palabras?
Solución
PyPdf2 puede utilizar extractText () método para extraer texto PDF y trabajar en él.
Actualización:. Se cambió el texto para referirse a PyPdf2, gracias a @Aditya Kumar de mano a mano
Otros consejos
No creo que se puede hacer en un solo paso, pero que sin duda puede obtener el texto de un PDF con pdfminer . A continuación, se puede aplicar cualquier búsqueda de texto para que los datos recuperados.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow