Effectuer la reconnaissance optique de caractères sur des PDF de ColdFusion à l'aide d'une bibliothèque Java ou .NET?

StackOverflow https://stackoverflow.com/questions/496875

  •  20-08-2019
  •  | 
  •  

Question

Je cherche à prendre un PDF et à en extraire le texte. Je souhaite ensuite le rendre disponible à l'aide de la recherche Verity disponible dans ColdFusion pour effectuer une recherche dans le contenu.

Existe-t-il des bibliothèques qui le font déjà très bien? J'inclus les bibliothèques Java ou .NET (Java préféré) dans le champ d'application, car elles peuvent être appelées à partir de CF.

Toute idée ou expérience serait grandement appréciée ... merci!

Modifier: L'indexation des fichiers PDF fonctionne lorsque le texte est incorporé dans le PDF, autant que je sache avec CF. Les fichiers PDF que je dois traiter ont le texte numérisé sous forme d'image.

Était-ce utile?

La solution

Si vous avez la possibilité d'exécuter votre propre logiciel (c.-à-d. Dedicated / VPS), vous pouvez alors effectuer une recherche à l'aide de Tesseract OCR avec cfexecute pour convertir les PDF en texte?

Autres conseils

Ray Camden a publié une série de huit articles sur utilisation de PDF dans ColdFusion 8 .

Part 7 des couvertures de la série utilisent DDX pour extraire du texte au format PDF.

Vous n'êtes pas sûr que cela fonctionne avec vos besoins en ROC, mais cela vaut peut-être encore la peine d'être examiné.

Sur une note plus ou moins reliée, j’ai trouvé un article très soigné sur le codage et la lecture de codes à barres 2D Matrix dans coldfusion.

http://www.stillnetstudios.com/2007/ 12/15 / 2d-codes-barres-coldfusion /

Cela pourrait résoudre certains de mes problèmes en ce qui concerne le besoin d'extraire des informations codées, mais je suis toujours après le corps du texte.

En ce qui concerne tessnet, vous avez également trouvé une version .net. http://www.pixel-technology.com/freeware/tessnet2/ Si Je pourrais nativement nourrir des PDF au lieu de TIFF ..:)

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top