Unicodeencodeerror dans la belle soupe (Python 2.7.1)
-
13-11-2019 - |
Question
J'utilise la belle soupe 3.2 sur Python 2.7.1 ici.
J'ai récemment essayé d'obtenir quelque chose de simple à travailler, mais cela semble plutôt délicat:
Je fais ce qui suit:
temp=BeautifulSoup(urllib2.urlopen(urlList[1], None,15))
Cependant, j'obtiens l'erreur:
File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in __init__
self._feed(isHTML=isHTML)
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed
SGMLParser.feed(self, markup)
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
self.goahead(0)
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
self.finish_endtag(tag)
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfa' in
position 4: ordinal not in range(128)
Si je exécute la même boucle une autre fois, parfois, j'obtiens aussi:
File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in
__init__
self._feed(isHTML=isHTML)
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed
SGMLParser.feed(self, markup)
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
self.goahead(0)
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
self.finish_endtag(tag)
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode characters in position
4-5: ordinal not in range(128)
Comment éviter ces erreurs? De toute évidence, quelque chose ne va pas avec le sgmllib.py.
J'ai essayé des solutions de SOF:
*] A essayé soup = BeautifulSoup(page, fromEncoding=<encoding of the page>)
Résultat: travail de dosent, mêmes erreurs.
*] J'ai essayé de mettre à niveau mon sgmllib.py à partir d'une version 2.7.2 sur mon résultat Verision 2.7.1: travail de dosent, mêmes erreurs.
*] A essayé html = BeautifulSoup(page.encode('utf-8'))
Résultat: travail de dosent, mêmes erreurs.
J'apprécierais toutes les suggestions sur la façon de résoudre cette erreur d'encodage.
La solution
Essayez ce code dans votre module
if __name__ == "__main__":
reload(sys)
sys.setdefaultencoding("utf-8")