Extraer contenido de etiqueta basado en el valor de contenido usando beautifulsoup

https://stackoverflow.com/questions/8909481

python
html-content-extraction
beautifulsoup

29-10-2019
|

Pregunta

Tengo un documento HTML del siguiente formato.

<p>&nbsp;&nbsp;&nbsp;1. Content of the paragraph <i> in italic </i> but not <b> strong </b> <a href="url">ignore</a>.</p>

Quiero extraer el contenido de la etiqueta del párrafo, incluido el contenido de la cursiva y la etiqueta en negrita, pero no el contenido de la etiqueta de anclaje. Además, posible ignorar el numérico al principio.

El resultado esperado es: contenido del párrafo en cursiva pero no fuerte.

¿Cuál es la mejor manera de hacerlo?

Además, el siguiente fragmento de código regresa TypeError: el argumento del tipo 'no electrógeno' no es iterable

soup = BSoup(page)
for p in soup.findAll('p'):
    if '&nbsp;&nbsp;&nbsp;' in p.string:
        print p

Gracias por las sugerencias.

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow