Comment enregistrer le fichier texte au format UTF-8 à l'aide de pdftotext

https://stackoverflow.com/questions/4039930

27-09-2019
|

Question

J'utilise PDFTOTEXT OpenSource Tool pour convertir le PDF en fichiers texte. Comment puis-je enregistrer les fichiers texte au format UTF-8 afin que je puisse conserver tous les caractères d'accent dans les fichiers texte. J'utilise la commande ci-dessous pour convertir qui extrait le contenu en fichier texte mais incapable de voir des caractères accentués.

pdftotext -enc utf-8 book1.pdf book1.txt

Veuillez m'aider à résoudre ce problème.

Merci d'avance,

La solution

Vous pouvez obtenir une liste des encodages disponibles en utilisant la commande:

pdftotext -listenc

et choisissez le bon en utilisant l'argument -end. Le mien ici semble faire UTF-8 par défaut. c'est-à-dire que votre "UTF-8" est superfluente

pdftotext -enc UTF-8 your.pdf

Vous voudrez peut-être vérifier votre lieu (LC_ALL, LANG, ...).

ÉDITER:J'ai téléchargé le PDF suivant:http://www.i18nguy.com/unicode/unicoeexample.pdf

et l'a converti sur un PC Windows 7 (allemand) et XPDF 3.02PL5 en utilisant la commande:

pdftotext.exe -enc UTF-8 unicodeexample.pdf

Le fichier texte est définitivement encodé UTF-8, car tous les caractères sont affichés correctement. Pourquoi utilisez-vous le fichier texte? Si vous l'affichez via une application Web, votre encodage de contenu pourrait tout simplement être faux, tandis que le fichier texte a été converti comme vous le vouliez.

Vérifiez en utilisant soit un navigateur (forcer l'encodage dans Firefox vers ISO-8859-1 et UTF-8) ou en utilisant un éditeur hexadécimal.

Autres conseils

Les choses deviennent un peu désordonnées, donc j'ajoute une autre réponse.

J'ai démonté le PDF et ma meilleure supposition serait un "problème" avec la police utilisée:

Ouvrez le fichier PDF dans Acrobar Reader
Sélectionnez tout le texte de la page
Copiez-le et collez-le dans un éditeur de texte conscient de l'Unicode (il n'y a pas de OCR "caché", donc vous copiez des données réelles)

Vous verrez que les points de code avec lesquels vous vous retrouvez ne sont pas ceux que vous voyez dans le lecteur PDF. Quelle que soit la police, elle peut avoir une cartographie différente de celle définie dans la norme Unicode. En tant que tel, votre contenu est "WRONT" et vous ne pouvez pas faire grand-chose à ce sujet.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow