¿Cómo leer archivos con diferentes codificaciones usando Awk?

https://stackoverflow.com/questions/1820659

awk
character-encoding

10-07-2019
|

Pregunta

¿Cómo puedo leer correctamente archivos en codificaciones que no sean UTF8 en Awk?

Tengo un archivo en codificación hebreo / Windows-1255. Un simple {print $ 0} awk imprime cosas como & # 65533 ;. ¿Cómo puedo hacer que se lea correctamente?

Solución

awk en sí mismo no tiene soporte para manejar diferentes codificaciones. Honrará la configuración regional especificada en el entorno, pero su mejor opción es transcodificar la entrada a la codificación adecuada antes de pasarla a awk.

-f es el formato desde el que desea convertir, -t es el formato de destino y -c omite los caracteres no válidos que terminan prematuramente la operación de iconv. Por supuesto, --help dará más detalles.

iconv -c -f cp1255 -t utf8 somefile | awk ...

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow