我有一个网页在浏览器中加载了(即它的DOM和元素的定位都可以访问到我),我想找到块元素(或这些元素的排序列表),其中可能包含了最含量(如在文本的连续块)。我们的目标是排除的东西,如菜单,页眉,页脚等和

有帮助吗?

解决方案

这是我个人最喜欢的: VIPS:基于视觉的页面分割算法

其他提示

首先,如果你需要分析一个网页,我会用 HTMLAgilityPack 将它转化到一个XML。这将加速一切,将使你,用一个简单的XPath直接进入身体。

在这之后,你必须对所有的div(你可以从敏捷包列表中的所有的div元素)运行,并得到任何你想要的。

有一个简单的技术来做到这一点的基础上,分析了如何“嘈杂” HTML是,即,什么是标记来显示文本的通过一个HTML页面的比例。 的简单的方法提取从任意HTML 有用的文本描述了这种特,给一些Python代码来说明。

比照。也是 HTML :: ContentExtractor 的Perl模块,它实现了这个想法。这将是有意义先清理的HTML,如果你想利用这一点,使用beautifulsoup。

我会建议在 Web内容清洁维生素Baisa论文,我认为他有一些代码,但我却无法找到一个链接它。还有一个讨论自然语言处理LingPipe博客非常相同的问题。

scroll top