C'è un modo per utilizzare la leggibilità (algoritmo di estrazione di testo) e un algoritmo personalizzato in python per estrarre i collegamenti da testo?

StackOverflow https://stackoverflow.com/questions/4589323

Domanda

C'è un modo per utilizzare la leggibilità (algoritmo di estrazione di testo) e un algoritmo personalizzato in Python per estragga i collegamenti da testo?

Mi piacerebbe trovare un modo di estrarre i link che si trovano nel corpo del testo.

1). Io uso la leggibilità in python https://github.com/gfxmonk/python-readability

2.) Mi piacerebbe confrontare in qualche modo il testo estratto per il testo HTML originale per estragga i collegamenti nel corpo stesso di un articolo.

È stato utile?

Soluzione

Bene, sembra che restituisce un albero BeautifulSoup. Così si dovrebbe essere in grado di fare qualcosa di simile:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top