Extraction de contenu de balise basé sur la valeur du contenu à l'aide de belles-groupe
-
29-10-2019 - |
Question
J'ai un document HTML du format suivant.
<p> 1. Content of the paragraph <i> in italic </i> but not <b> strong </b> <a href="url">ignore</a>.</p>
Je souhaite extraire le contenu de la balise de paragraphe, y compris le contenu de la balise italique et en gras, mais pas le contenu de la balise d'ancrage. Également, ignorer le numérique au début.
La production attendue est: le contenu du paragraphe en italique mais pas fort.
Quelle est la meilleure façon de le faire?
De plus, l'extrait de code suivant renvoie TypeError: L'argument de type «non-upe» n'est pas itérable
soup = BSoup(page)
for p in soup.findAll('p'):
if ' ' in p.string:
print p
Merci pour les suggestions.
Pas de solution correcte
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow