Esecuzione del riconoscimento ottico dei caratteri su PDF da ColdFusion utilizzando una libreria Java o .NET?

StackOverflow https://stackoverflow.com/questions/496875

  •  20-08-2019
  •  | 
  •  

Domanda

Sto cercando di prendere un PDF ed estrarre qualsiasi testo da esso. Voglio quindi renderlo disponibile usando la ricerca di Verity disponibile di ColdFusion per cercare i contenuti.

Esistono librerie là fuori che lo fanno già abbastanza bene? Includo le librerie Java o .NET (preferibilmente Java) nell'ambito poiché possono essere chiamate da CF.

Qualsiasi approfondimento o esperienza sarebbe molto apprezzato ... grazie!

Modifica: l'indicizzazione dei file PDF funziona quando il testo è incorporato nel PDF per quanto ne so con CF. I PDF con cui ho a che fare hanno il testo scansionato come immagine.

È stato utile?

Soluzione

Se hai la possibilità di eseguire il tuo software (ad es. dedicato / VPS), puoi investigare utilizzando Tesseract OCR con cfexecute per convertire i PDF in testo?

Altri suggerimenti

Verity dovrebbe essere in grado di indicizzare i file PDF per impostazione predefinita:

http://livedocs.adobe.com/coldfusion/6 /Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322

Ray Camden ha una serie di otto parti su lavorare con PDF in ColdFusion 8 .

Parte 7 della serie copre l'uso di DDX per ottenere testo da un PDF.

Non sono sicuro che funzionerà con le tue esigenze OCR, ma potrebbe comunque valere la pena di guardarlo.

In una nota semi correlata, ho trovato un post molto accurato sulla codifica e la lettura di codici a barre 2D Matrix in coldfusion.

http://www.stillnetstudios.com/2007/ 12/15 / 2D-codici a barre-ColdFusion /

Questo potrebbe risolvere alcuni dei miei problemi nella necessità di estrarre informazioni codificate, ma sto ancora cercando il corpo del testo.

Per quanto riguarda tessnet, ho trovato anche una versione .net. http://www.pixel-technology.com/freeware/tessnet2/ Se Potrei alimentare nativamente i PDF anziché i TIFF .. :)

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top