Comment lire des fichiers avec différents encodages avec Awk?
-
10-07-2019 - |
Question
Comment lire correctement des fichiers dans des codages autres que UTF8 dans Awk?
J'ai un fichier encodé en hébreu / Windows-1255. Un simple {print $ 0} awk imprime des choses comme & # 65533 ;. comment puis-je le lire correctement?
La solution
awk lui-même ne prend pas en charge la gestion de différents encodages. Il respectera les paramètres régionaux spécifiés dans l'environnement, mais le mieux est de transcoder l'entrée en un encodage approprié avant de la transmettre à awk.
-f est le format à partir duquel vous voulez convertir, -t est le format cible et -c ignore tous les caractères non valides qui mettent fin prématurément à l'opération d'iconv. Bien sûr --help vous donnera plus de détails.
iconv -c -f cp1255 -t utf8 somefile | awk ...
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow