문제

Python 2.7.1에서 아름다운 수프 3.2를 사용하고 있습니다.

나는 최근에 일을 단순하게하는 것을 얻으려고 노력하고 있었지만 그것은 오히려 까다로워 보인다 :

나는 다음을 수행한다 :

temp=BeautifulSoup(urllib2.urlopen(urlList[1], None,15))
.

그러나 오류가 발생합니다 :

File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in __init__
self._feed(isHTML=isHTML)
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed
SGMLParser.feed(self, markup)
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
self.goahead(0)
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
self.finish_endtag(tag)
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfa' in
position 4: ordinal not in range(128)
.

다른 시간을 다른 루프를 실행하면 때로는 다음과 같습니다.

File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in
__init__
self._feed(isHTML=isHTML)
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed
SGMLParser.feed(self, markup)
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
self.goahead(0)
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
self.finish_endtag(tag)
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode characters in position
4-5: ordinal not in range(128)
.

이 오류는 어떻게 피합니까?분명히 sgmllib.py에 뭔가 잘못되었습니다.

SOF에서 몇 가지 해결책을 시도했습니다.

*] soup = BeautifulSoup(page, fromEncoding=<encoding of the page>)를 시도했습니다 결과 : Disent 작업, 동일한 오류.

*] 내 sgmllib.py를 2.7.2 버전에서 내 2.7.1 Verision로 업그레이드하려고 시도했습니다. 결과 : Disent 작업, 동일한 오류.

*] html = BeautifulSoup(page.encode('utf-8'))를 시도했습니다 결과 : Disent 작업, 동일한 오류.

이 인코딩 오류를 해결하는 방법에 대한 제안 사항을 알 수 있습니다.

도움이 되었습니까?

해결책

모듈 에서이 코드를 사용해보십시오

if __name__ == "__main__":
    reload(sys)
    sys.setdefaultencoding("utf-8")
.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top