AWK를 사용하여 인코딩이 다른 파일을 읽는 방법은 무엇입니까?
-
10-07-2019 - |
문제
AWK의 UTF8 이외의 인코딩에서 파일을 올바르게 읽으려면 어떻게해야합니까?
히브리어/Windows-1255 인코딩 파일이 있습니다. 간단한 {print $ 0} awk는 �와 같은 것을 인쇄합니다. 어떻게 올바르게 읽을 수 있습니까?
해결책
AWK 자체는 다른 인코딩을 처리하는 데 도움이되지 않습니다. 그것은 환경에 지정된 로케일을 존중하지만 가장 좋은 방법은 입력을 적절한 인코딩으로 트랜스 코딩하기 전에 awk에 나눠주는 것입니다.
-f는 당신이 변환하려는 형식이며, -t는 대상 형식이며 -C는 ICONV의 작동을 조기에 종료하는 유효하지 않은 문자보다 -C 건너 뛰기입니다. 물론 -헬프는 더 자세한 내용을 제공 할 것입니다.
iconv -c -f cp1255 -t utf8 somefile | awk ...
제휴하지 않습니다 StackOverflow