il motivo per cui un documento PDF potrebbe non essere ricercabile? [chiuso]

https://stackoverflow.com/questions/1983561

22-09-2019
|

Domanda

Ho un documento PDF con contenuto in lingua araba e quando provo a cercare all'interno del documento per una parola specifica, adobe reader prodotto alcun risultato.

mi sembra un problema di formato ... come posso risolvere questo? grazie.

Soluzione

Ci sono almeno quattro modi diversi per ottenere il testo in un documento PDF (in ordine o la probabilità):

Inserisci il testo con gli operatori di testo standard e font standard
Inserisci il testo con gli operatori di testo standard con font non standard
Disegna una o più immagini che rappresentano il testo
Inserisci il testo disegnando manualmente i glifi con varie grafiche PDF comandi

Caso 1 è tipicamente ricercabile. Caso 2 è ricercabile se il font e la codifica sono sani di mente - se non lo sono (e questo è probabilmente il caso di caratteri non latini), allora probabilmente non c'è modo affidabile per mappare i glifi codificati di nuovo a Unicode (e tra l'altro - PDF è ostile abbastanza Unicode). Caso 3 è totalmente imperscrutabili senza sapere di più su come il PDF è stato generato. Caso 4 è del tutto imperscrutabili.

Detto questo, tutti i casi i casi essere letti con un motore OCR che capisce l'arabo. Capisco che il Iris fa arabo.

Altri suggerimenti

Non potrebbe in realtà essere di testo, o potrebbe essere in un contenitore che Reader non prestare attenzione a. E 'particolarmente comune per espandere oggetti di testo in forme vettoriali, quando hai a che fare con i caratteri che la maggior parte delle persone non stanno per avere installato sul proprio sistema. Sembra lo stesso sullo schermo, ma non è ricercabile.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow