Extraer contenido de etiqueta basado en el valor de contenido usando beautifulsoup
-
29-10-2019 - |
Pregunta
Tengo un documento HTML del siguiente formato.
<p> 1. Content of the paragraph <i> in italic </i> but not <b> strong </b> <a href="url">ignore</a>.</p>
Quiero extraer el contenido de la etiqueta del párrafo, incluido el contenido de la cursiva y la etiqueta en negrita, pero no el contenido de la etiqueta de anclaje. Además, posible ignorar el numérico al principio.
El resultado esperado es: contenido del párrafo en cursiva pero no fuerte.
¿Cuál es la mejor manera de hacerlo?
Además, el siguiente fragmento de código regresa TypeError: el argumento del tipo 'no electrógeno' no es iterable
soup = BSoup(page)
for p in soup.findAll('p'):
if ' ' in p.string:
print p
Gracias por las sugerencias.
No hay solución correcta
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow