Pregunta

Esta es una sopa de una página de detalles de publicaciones de WordPress:

content = soup.body.find('div', id=re.compile('post'))
title = content.h2.extract()
item['title'] = unicode(title.string)
item['content'] = u''.join(map(unicode, content.contents))

Quiero omitir la etiqueta adjunta div al asignar item['content']. ¿Hay alguna forma de representar todas las etiquetas secundarias de una etiqueta en Unicode? Algo así como:

item['content'] = content.contents.__unicode__()

eso me dará una sola cadena Unicode en lugar de una lista.

¿Fue útil?

Solución

¿Has probado:

unicode(content)

Convierte el marcado de content en una sola cadena Unicode.

Editar: si no desea la etiqueta adjunta, intente:

content.renderContents()
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top