Extraction de contenu de balise basé sur la valeur du contenu à l'aide de belles-groupe

https://stackoverflow.com/questions/8909481

python
html-content-extraction
beautifulsoup

29-10-2019
|

Question

J'ai un document HTML du format suivant.

<p>&nbsp;&nbsp;&nbsp;1. Content of the paragraph <i> in italic </i> but not <b> strong </b> <a href="url">ignore</a>.</p>

Je souhaite extraire le contenu de la balise de paragraphe, y compris le contenu de la balise italique et en gras, mais pas le contenu de la balise d'ancrage. Également, ignorer le numérique au début.

La production attendue est: le contenu du paragraphe en italique mais pas fort.

Quelle est la meilleure façon de le faire?

De plus, l'extrait de code suivant renvoie TypeError: L'argument de type «non-upe» n'est pas itérable

soup = BSoup(page)
for p in soup.findAll('p'):
    if '&nbsp;&nbsp;&nbsp;' in p.string:
        print p

Merci pour les suggestions.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow