문제

파일에 특정 숯의 문자가 포함되어 있는지 여부를 감지하는 방법이 필요합니다.

구체적으로, 나는 일련의 파일에서 UTF8 인코딩 된 키릴 문자의 존재를 감지하고 싶습니다. 이것을 할 도구가 있습니까?

감사

도움이 되었습니까?

해결책

준비된 솔루션을 찾고 있다면 시도하고 싶을 수도 있습니다. ENCA.

그러나 UTF-8 키릴 문자로 디코딩 될 수있는 것의 존재만을 감지하려면 (완전한 UTF-8 유효성 검사없이) /(\xD0[\x81\x90-\xBF]|\xD1[\x80-\x8F\x91]){N,}/ (이 정확한 regexp는입니다 N 후속 UTF8에 인코딩 된 러시아 키릴 릭 캐릭터). 전체 파일에 유효한 UTF-8 데이터 만 포함되어 있는지 추가로 확인하려면 isutf8(1).

두 방법 모두 좋은면과 나쁜면을 가지고 있으며 때로는 잘못된 결과를 줄 수 있습니다.

다른 팁

IIRC ICU 라이브러리에는 문자 세트 감지를 수행하는 코드가 있습니다. 기본적으로 최선의 노력은 추측입니다.

편집 : 올바르게 기억했습니다. 종이 / 튜토리얼

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top