Comment lire des fichiers avec différents encodages avec Awk?

https://stackoverflow.com/questions/1820659

awk
character-encoding

10-07-2019
|

Question

Comment lire correctement des fichiers dans des codages autres que UTF8 dans Awk?

J'ai un fichier encodé en hébreu / Windows-1255. Un simple {print $ 0} awk imprime des choses comme & # 65533 ;. comment puis-je le lire correctement?

La solution

awk lui-même ne prend pas en charge la gestion de différents encodages. Il respectera les paramètres régionaux spécifiés dans l'environnement, mais le mieux est de transcoder l'entrée en un encodage approprié avant de la transmettre à awk.

-f est le format à partir duquel vous voulez convertir, -t est le format cible et -c ignore tous les caractères non valides qui mettent fin prématurément à l'opération d'iconv. Bien sûr --help vous donnera plus de détails.

iconv -c -f cp1255 -t utf8 somefile | awk ...

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow