por qué un documento PDF no se pudo realizar búsquedas? [cerrado]

https://stackoverflow.com/questions/1983561

22-09-2019
|

Pregunta

Tengo un documento PDF con el contenido en lengua árabe y cuando trato de buscar dentro del documento para una palabra específica, adobe reader no devolvió resultados.

parece un problema de formato ... ¿cómo puedo solucionarlo? gracias.

Solución

Hay por lo menos cuatro maneras diferentes de obtener el texto en un documento PDF (en orden o la probabilidad):

Coloque el texto con los operadores de texto estándar y fuentes estándar
Coloque el texto con los operadores de texto estándar con fuentes no estándar
Dibujar una o más imágenes que representan el texto
Coloque el texto trazando manualmente los glifos con varios gráficos PDF comandos

El caso 1 es típicamente de búsqueda. Caso 2 se puede buscar si la fuente y la codificación son sanos - si no lo son (y esto es probable que en el caso de fuentes no latinas), entonces es probable que haya ninguna manera confiable para mapear los glifos codificados de nuevo a Unicode (y por cierto - PDF es bastante hostil Unicode). Caso 3 es totalmente inescrutable sin saber más sobre cómo se generó el archivo PDF. Caso 4 es totalmente inescrutable.

Dicho esto, todos los casos casos pueden leer con un motor de OCR que entiende árabe. Yo entiendo que la Iris motor hace árabe.

Otros consejos

Puede que no sea en realidad el texto, o podría ser en un recipiente que lector no presta atención a. Es especialmente común para expandir los objetos de texto en formas vectoriales cuando se está tratando con las fuentes que la mayoría de la gente no va a tener instalado en su sistema. Se ve igual en la pantalla, pero no es investigable.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow