¿Cómo representar el contenido de una etiqueta en unicode en BeautifulSoup?
-
20-08-2019 - |
Pregunta
Esta es una sopa de una página de detalles de publicaciones de WordPress:
content = soup.body.find('div', id=re.compile('post'))
title = content.h2.extract()
item['title'] = unicode(title.string)
item['content'] = u''.join(map(unicode, content.contents))
Quiero omitir la etiqueta adjunta div
al asignar item['content']
. ¿Hay alguna forma de representar todas las etiquetas secundarias de una etiqueta en Unicode? Algo así como:
item['content'] = content.contents.__unicode__()
eso me dará una sola cadena Unicode en lugar de una lista.
Solución
¿Has probado:
unicode(content)
Convierte el marcado de content
en una sola cadena Unicode.
Editar: si no desea la etiqueta adjunta, intente:
content.renderContents()
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow