Come sapere se il PDF contiene solo immagini o è stato OCR analizzati per la ricerca?

https://stackoverflow.com/questions/1489733

18-09-2019
|

Domanda

Ho un sacco di file PDF che è venuto da documenti acquisiti.I file contengono un mix di immagini e di testo.Alcune sono state acquisite le immagini senza OCR, in modo che ogni pagina del PDF è una grande immagine, anche se l'intera pagina è interamente testo.Altri sono stati digitalizzati con OCR e contiene immagini e testo ricercabile, in cui il testo è presente.In molti casi, anche le parole in immagini sono ricercabili.

Voglio fare un processo automatizzato per riconoscere il testo in tutti i documenti digitalizzati con OCR, con Acrobat 8 Pro, ma non ho voglia di ri-OCR i file che sono già stati attraverso il processo di riconoscimento in passato.Qualcuno sa se c'è un modo per dire a quelli che contengono solo immagini, e quelli che già contengono il testo ricercabile?

Sto progettando di fare questo in C# o VB.NET ma non credo di essere in grado di raccontare i due tipi di file a parte dipende dalla lingua.

Soluzione

Scannned immagini convertiti in PDF che sono stati OCR cantando in seguito per rendere il testo ricercabile fare normalmente contengono le parti di testo reso come "invisibile".Così ciò che si vede sullo schermo (o su carta stampata) è ancora l'immagine originale.Ma quando si ricerca correttamente, a ottenere i successi evidenziato che il testo invisibile.

Io ti consiglio di guardare il XPDF-derivati strumenti a riga di comando pdffonts(.exe), pdfinfo(.exe) e pdftotext(.exe).Vedi qui per il download: http://www.foolabs.com/xpdf/download.html

Esempio di utilizzo di pdffonts:

C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique          Type 1C           yes yes no   13171  0
LGOKGM+Univers-Black                 Type 1C           yes yes no   13172  0
[....]

Questo PDF utilizza font (indicato dalla colonna "nome"), li ha incorporati (indicato dal 'sì' in la 'emb' colonna), e usa sottoinsiemi di font (indicato dal 'sì' in la 'sub' colonna).

C:\downloads\> pdffonts examle1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique                 Type 1C           yes no  no   14    0
Arial                                TrueType          no  no  no   15    0

Questo PDF utilizza 2 tipi di carattere (indicato dalla colonna "nome").Il carattere 'Universo-BlackOblique' è incorporato completamente (indicato dal 'sì' in la 'emb' la colonna e il " no " in " sub " di colonna).Il font "Arial" è anche usato, ma non è incorporato.

C:\downloads\> pdffonts examle2.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------

Questo PDF non utilizza un singolo carattere, e quindi non hanno alcun testo incorporato (quindi senza OCR sia).

Esempio di utilizzo di pdftotext:

C:\downloads\> pdftotext ^
                   -layout ^
                   cisco-ip-phone-7911-guide6.1.pdf ^
                   cisco-ip-phone-7911-guide6.1.txt

Questo vi permetterà di estrarre tutte le stringhe di testo dal PDF (cercando di mantenere una certa somiglianza di layout originale).Se non c'è testo in PDF, devi sapere che c'era nessuna OCR...

Altri suggerimenti

Vari PDF strumenti in grado di dirvi se c'è del testo.Alcuni sono disponibili a controlli COM, e forse anche nativo .NETTO di quelli.

Aprire il documento in acrobat.Andare su File -> Proprietà.Guarda nella sezione "Avanzate" e trovare il PDF del Produttore.Se si legge qualcosa come "Carta di Cattura..." poi è stato convertito dall'OCR.

Spero che questo aiuta.

Apago del pdfspy estrae informazioni da PDF in un file XML.Include informazioni sul documento, tra cui le immagini e il testo.Per il tuo progetto, le informazioni utili comprende immagine conte & dimensioni e dove c'è l'OCR (nascosto) di testo.

http://www.apagoinc.com/pdfspy

Mi dispiace per scavare vecchio thread, ma se hai trovato questo dare un'occhiata al mio thread:

Lotto Programma OCR per i Pdf

è possibile ottenere ulteriori informazioni riguardo il file pdf da catting in unix/linux/osx o di apertura come "rb" modalità in python.(corso di python e non volete utilizzare, ma che forse ha qualcosa di equivalente).

Utilizzare "dtsearch" per creare un indice di tutti i file pdf in...poi "visualizza i file di log" del processo di indicizzazione per controllare l'elenco dei file pdf che non sono state indicizzate.

Molto low tech soluzione:qualsiasi file di testo digitalizzati senza dubbio contengono la lettera "a" in modo da fare una ricerca su tutti i contenuti del file che non contengono la lettera a.cioè"NON una".Qualsiasi file che viene visualizzato non sono stati OCR piacerebbe

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow