Estrarre contenuto di tag in base al valore del contenuto utilizzando BeautifulSoup
-
29-10-2019 - |
Domanda
Ho un documento HTML del seguente formato.
<p> 1. Content of the paragraph <i> in italic </i> but not <b> strong </b> <a href="url">ignore</a>.</p>
Voglio estrarre il contenuto del tag di paragrafo, incluso il contenuto di corsivo e tag audace ma non il contenuto del tag di ancoraggio. Inoltre, possibile ignorare il numerico all'inizio.
L'output previsto è: contenuto del paragrafo in corsivo ma non forte.
Qual'è il miglior modo di farlo?
Inoltre, il seguente frammento di codice restituisce Typeeerror: argomento del tipo "non -etype" non è iterabile
soup = BSoup(page)
for p in soup.findAll('p'):
if ' ' in p.string:
print p
Grazie per i suggerimenti.
Nessuna soluzione corretta
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow