C'è un modo per utilizzare la leggibilità (algoritmo di estrazione di testo) e un algoritmo personalizzato in python per estrarre i collegamenti da testo?
-
14-10-2019 - |
Domanda
C'è un modo per utilizzare la leggibilità (algoritmo di estrazione di testo) e un algoritmo personalizzato in Python per estragga i collegamenti da testo?
Mi piacerebbe trovare un modo di estrarre i link che si trovano nel corpo del testo.
1). Io uso la leggibilità in python https://github.com/gfxmonk/python-readability
2.) Mi piacerebbe confrontare in qualche modo il testo estratto per il testo HTML originale per estragga i collegamenti nel corpo stesso di un articolo.
Soluzione
Bene, sembra che restituisce un albero BeautifulSoup. Così si dovrebbe essere in grado di fare qualcosa di simile:
article = page.summary() # Extract article using readability
article.findAll("a") # Return a list of all links in the article
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow