인코딩 탐지를위한 LIB가 있습니다. https://pypi.python.org/pypi/chardet (파이썬에서 자동 감지를 인코딩하는 문자. 브라우저만큼 똑똑합니다. 오픈 소스)
감지 ...
- ASCII, UTF-8, UTF-16 (2 변형), UTF-32 (4 개의 변형)
- Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (전통 및 단순화 된 중국어)
- EUC-JP, Shift_jis, ISO-2022-JP (일본어)
- EUC-KR, ISO-2022-KR (한국)
- KOI8-R, MACYRILLIC, IBM855, IBM866, ISO-8859-5, Windows-1251 (Cyrillic)
- ISO-8859-2, Windows-1250 (헝가리어)
- ISO-8859-5, Windows-1251 (불가리아어)
- Windows-1252 (영어)
- ISO-8859-7, Windows-1253 (그리스어)
- ISO-8859-8, Windows-1255 (시각 및 논리 히브리어)
- TIS-620 (태국)
문서의 예 :
>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}