Y at-il un moyen d'utiliser la lisibilité (algorithme d'extraction de texte) et un algorithme personnalisé en Python pour extraire des liens de texte?

StackOverflow https://stackoverflow.com/questions/4589323

Question

Y at-il un moyen de lisibilité de l'utilisation (algorithme d'extraction de texte) et un algorithme personnalisé en python aux liens extrait de texte?

Je voudrais trouver un moyen d'extraire des liens qui sont dans le corps du texte.

1.) J'utilise la lisibilité en python https://github.com/gfxmonk/python-readability

2.) Je voudrais comparer en quelque sorte le texte extrait du texte html d'origine afin de extrayez les liens dans le corps même d'un article.

Était-ce utile?

La solution

Eh bien, on dirait qu'il retourne un arbre BeautifulSoup. Donc, vous devriez être en mesure de faire quelque chose comme:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top