有没有一种方法可以使用可读性（文本提取算法）和Python中的自定义算法来从文本中提取链接？

题

我想找出一种提取文本主体中的链接的方法。

2.）我想以某种方式将提取的文本与原始HTML文本进行比较，以便在文章的实际主体中提取链接。

解决方案

好吧，看起来它返回了一棵美丽的树。因此，您应该能够做类似的事情：

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article

许可以下： CC-BY-SA 和归因