Como ler arquivos com diferentes codificações usando Awk?

https://stackoverflow.com/questions/1820659

awk
character-encoding

10-07-2019
|

Pergunta

Como posso ler corretamente os arquivos em diferentes UTF8 codificações em Awk?

Eu tenho um arquivo em hebraico / Windows-1255 codificação. Um simples {print $ 0} awk imprime coisas como. como posso fazê-lo ler corretamente?

Solução

awk em si não tem qualquer apoio para lidar com diferentes codificações. Ele vai honrar a localidade especificada no ambiente, mas sua melhor aposta é para transcodificar a entrada para a codificação adequada antes de entregá-lo para awk.

-f é o formato que você deseja converter, -t é o formato de destino, e salta -c sobre quaisquer caracteres inválidos que terminam prematuramente operação iconv do. Claro --help irá dar mais detalhes.

iconv -c -f cp1255 -t utf8 somefile | awk ...

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow