il motivo per cui un documento PDF potrebbe non essere ricercabile? [chiuso]
Domanda
Ho un documento PDF con contenuto in lingua araba e quando provo a cercare all'interno del documento per una parola specifica, adobe reader prodotto alcun risultato.
mi sembra un problema di formato ... come posso risolvere questo? grazie.
Soluzione
Ci sono almeno quattro modi diversi per ottenere il testo in un documento PDF (in ordine o la probabilità):
- Inserisci il testo con gli operatori di testo standard e font standard
- Inserisci il testo con gli operatori di testo standard con font non standard
- Disegna una o più immagini che rappresentano il testo
- Inserisci il testo disegnando manualmente i glifi con varie grafiche PDF comandi
Caso 1 è tipicamente ricercabile. Caso 2 è ricercabile se il font e la codifica sono sani di mente - se non lo sono (e questo è probabilmente il caso di caratteri non latini), allora probabilmente non c'è modo affidabile per mappare i glifi codificati di nuovo a Unicode (e tra l'altro - PDF è ostile abbastanza Unicode). Caso 3 è totalmente imperscrutabili senza sapere di più su come il PDF è stato generato. Caso 4 è del tutto imperscrutabili.
Detto questo, tutti i casi i casi essere letti con un motore OCR che capisce l'arabo. Capisco che il Iris fa arabo.
Altri suggerimenti
Non potrebbe in realtà essere di testo, o potrebbe essere in un contenitore che Reader non prestare attenzione a. E 'particolarmente comune per espandere oggetti di testo in forme vettoriali, quando hai a che fare con i caratteri che la maggior parte delle persone non stanno per avere installato sul proprio sistema. Sembra lo stesso sullo schermo, ma non è ricercabile.