Domanda

Come posso leggere correttamente i file in codifiche diverse da UTF8 in Awk?

Ho un file in codifica Ebraico / Windows-1255. Un semplice awk {print $ 0} stampa cose come & # 65533 ;. come posso farlo leggere correttamente?

È stato utile?

Soluzione

awk stesso non ha alcun supporto per la gestione di codifiche diverse. Onorerà le impostazioni locali specificate nell'ambiente, ma la soluzione migliore è quella di transcodificare l'input nella codifica corretta prima di passare a awk.

-f è il formato da cui si desidera convertire, -t è il formato di destinazione e -c ignora tutti i caratteri non validi che interrompono prematuramente l'operazione di iconv. Naturalmente - help fornirà maggiori dettagli.

iconv -c -f cp1255 -t utf8 somefile | awk ...
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top