Pregunta

Estoy usando la herramienta PDFTotExt OpenSource para convertir el PDF en archivos de texto. ¿Cómo puedo guardar los archivos de texto en formato UTF-8 para que pueda retener todos los caracteres de acento en los archivos de texto? Estoy usando el siguiente comando para convertir que extrae el contenido al archivo de texto pero no puedo ver ningún caracteres acentuados.

pdftotext -enc UTF -8 Book1.pdf Book1.txt

Por favor, ayúdame a resolver este problema.

Gracias por adelantado,

¿Fue útil?

Solución

Puede obtener una lista de codificaciones disponibles utilizando el comando:

pdftotext -listenc

y elija el correcto usando el argumento -Enc. El mío aquí parece hacer UTF-8 por defecto. es decir, tu "UTF-8" es superfloso

pdftotext -enc UTF-8 your.pdf

Es posible que desee verificar su localidad (LC_All, Lang, ...).

EDITAR:Descargué el siguiente PDF:http://www.i18nguy.com/unicode/unicodeexample.pdf

y lo convirtió en una PC con Windows 7 (alemán) y XPDF 3.02PL5 usando el comando:

pdftotext.exe -enc UTF-8 unicodeexample.pdf

El archivo de texto definitivamente está codificado UTF-8, ya que todos los caracteres se muestran correctamente. ¿Para qué estás usando el archivo de texto? Si la muestra a través de una aplicación web, su codificación de contenido podría simplemente estar equivocada, mientras que el archivo de texto se ha convertido como lo desea.

Verifique dos veces usando un navegador (forzar la codificación en Firefox a ISO-8859-1 y UTF-8) o usar un editor hexadecimal.

Otros consejos

Las cosas se están volviendo un poco complicadas, así que estoy agregando otra respuesta.

Desarticé el PDF y mi mejor suposición sería un "problema" con la fuente utilizada:

  • Abra el archivo PDF en Acrobar Reader
  • Seleccione todo el texto en la página
  • Copiéelo y péguelo en un editor de texto ADACE de Unicode (no hay OCR "oculto", por lo que está copiando datos reales)

Verá que los puntos de código que terminas no son los que estás viendo en el lector de PDF. Cualquiera que sea la fuente, puede tener un mapeo diferente al definido en el estándar Unicode. Como tal, su contenido es "Wront" y no hay mucho que pueda hacer al respecto.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top