Question

Ceci est une soupe tirée d'une page de détail d'un article WordPress:

content = soup.body.find('div', id=re.compile('post'))
title = content.h2.extract()
item['title'] = unicode(title.string)
item['content'] = u''.join(map(unicode, content.contents))

Je souhaite omettre la balise div jointe lors de l'attribution de item['content']. Est-il possible de rendre toutes les balises enfant d'une balise en unicode? Quelque chose comme:

item['content'] = content.contents.__unicode__()

cela me donnera une seule chaîne unicode au lieu d'une liste.

Était-ce utile?

La solution

Avez-vous essayé:

unicode(content)

Il convertit le balisage de content en une seule chaîne Unicode.

Éditer: si vous ne voulez pas la balise englobante, essayez:

content.renderContents()
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top