有没有一种方法可以使用可读性(文本提取算法)和Python中的自定义算法来从文本中提取链接?

StackOverflow https://stackoverflow.com/questions/4589323

有没有一种方法可以使用可读性(文本提取算法)和Python中的自定义算法来从文本中提取链接?

我想找出一种提取文本主体中的链接的方法。

1.)我在Python中使用可读性 https://github.com/gfxmonk/python-redredability

2.)我想以某种方式将提取的文本与原始HTML文本进行比较,以便在文章的实际主体中提取链接。

有帮助吗?

解决方案

好吧,看起来它返回了一棵美丽的树。因此,您应该能够做类似的事情:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top