Pregunta

¿Cómo puedo leer correctamente archivos en codificaciones que no sean UTF8 en Awk?

Tengo un archivo en codificación hebreo / Windows-1255. Un simple {print $ 0} awk imprime cosas como & # 65533 ;. ¿Cómo puedo hacer que se lea correctamente?

¿Fue útil?

Solución

awk en sí mismo no tiene soporte para manejar diferentes codificaciones. Honrará la configuración regional especificada en el entorno, pero su mejor opción es transcodificar la entrada a la codificación adecuada antes de pasarla a awk.

-f es el formato desde el que desea convertir, -t es el formato de destino y -c omite los caracteres no válidos que terminan prematuramente la operación de iconv. Por supuesto, --help dará más detalles.

iconv -c -f cp1255 -t utf8 somefile | awk ...
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top