¿Hay una manera de utilizar la legibilidad (texto algoritmo de extracción) y un algoritmo personalizado en Python para extraer enlaces de texto?

StackOverflow https://stackoverflow.com/questions/4589323

Pregunta

¿Hay una manera de utilizar la legibilidad (texto algoritmo de extracción) y un algoritmo de costumbre en Python para extraer enlaces de texto?

Me gustaría encontrar una manera de extraer los enlaces que se encuentran en el cuerpo del texto.

1.) Yo uso la legibilidad en Python https://github.com/gfxmonk/python-readability

2.) Me gustaría comparar el texto extraído de alguna forma al texto HTML original con el fin de extraer enlaces en el cuerpo real de un artículo.

¿Fue útil?

Solución

Bueno, parece que se vuelve un árbol BeautifulSoup. Por lo que debe ser capaz de hacer algo como:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top