Estrarre contenuto di tag in base al valore del contenuto utilizzando BeautifulSoup

https://stackoverflow.com/questions/8909481

python
html-content-extraction
beautifulsoup

29-10-2019
|

Domanda

Ho un documento HTML del seguente formato.

<p>&nbsp;&nbsp;&nbsp;1. Content of the paragraph <i> in italic </i> but not <b> strong </b> <a href="url">ignore</a>.</p>

Voglio estrarre il contenuto del tag di paragrafo, incluso il contenuto di corsivo e tag audace ma non il contenuto del tag di ancoraggio. Inoltre, possibile ignorare il numerico all'inizio.

L'output previsto è: contenuto del paragrafo in corsivo ma non forte.

Qual'è il miglior modo di farlo?

Inoltre, il seguente frammento di codice restituisce Typeeerror: argomento del tipo "non -etype" non è iterabile

soup = BSoup(page)
for p in soup.findAll('p'):
    if '&nbsp;&nbsp;&nbsp;' in p.string:
        print p

Grazie per i suggerimenti.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow