Como ler arquivos com diferentes codificações usando Awk?
-
10-07-2019 - |
Pergunta
Como posso ler corretamente os arquivos em diferentes UTF8 codificações em Awk?
Eu tenho um arquivo em hebraico / Windows-1255 codificação. Um simples {print $ 0} awk imprime coisas como. como posso fazê-lo ler corretamente?
Solução
awk em si não tem qualquer apoio para lidar com diferentes codificações. Ele vai honrar a localidade especificada no ambiente, mas sua melhor aposta é para transcodificar a entrada para a codificação adequada antes de entregá-lo para awk.
-f é o formato que você deseja converter, -t é o formato de destino, e salta -c sobre quaisquer caracteres inválidos que terminam prematuramente operação iconv do. Claro --help irá dar mais detalhes.
iconv -c -f cp1255 -t utf8 somefile | awk ...
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow