¿Realizando reconocimiento óptico de caracteres en PDF desde ColdFusion usando una biblioteca Java o .NET?

https://stackoverflow.com/questions/496875

20-08-2019
|

Pregunta

Estoy buscando tomar un PDF y extraer cualquier texto de él. Luego quiero que esté disponible utilizando la búsqueda Verity disponible de ColdFusion para buscar el contenido.

¿Hay alguna biblioteca que ya haga esto bastante bien? Incluyo bibliotecas Java o .NET (preferidas por Java) en el ámbito, ya que pueden llamarse desde CF.

Cualquier idea o experiencia sería muy apreciada ... ¡gracias!

Editar: indexar archivos PDF funciona cuando el texto está incrustado en el PDF hasta donde yo sé con CF. Los archivos PDF con los que tengo que lidiar tienen el texto escaneado como una imagen.

Solución

Si tiene la capacidad de ejecutar su propio software (es decir, dedicado / VPS), puede investigar utilizando Tesseract OCR con cfexecute para convertir los archivos PDF a texto?

Otros consejos

Verity debería poder indexar archivos PDF de forma predeterminada:

http://livedocs.adobe.com/coldfusion/6 /Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322

Ray Camden tiene una serie de ocho partes en trabajar con archivos PDF en ColdFusion 8 .

Parte 7 de la serie cubre el uso de DDX para extraer texto de un PDF.

Sin embargo, no estoy seguro de que esto funcione con sus necesidades de OCR, pero aún así vale la pena mirarlo.

En una nota semi relacionada, encontré una publicación muy interesante sobre la codificación y lectura de códigos de barras de matriz 2D en Coldfusion.

http://www.stillnetstudios.com/2007/ 12/15 / 2d-barcodes-coldfusion /

Esto podría resolver algunos de mis problemas al necesitar extraer información codificada, pero aún estoy detrás del cuerpo del texto.

Con respecto a tessnet, también encontré una versión .net. http://www.pixel-technology.com/freeware/tessnet2/ Si Podría alimentar de forma nativa en PDF en lugar de TIFF .. :)

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow